سنڌي ٻوليءَ جي ترقي ۽ عالمي حيثيت ڊاڪٽر مظهر علي ڏوتيو July 2020
هي دور ٽيڪنالاجي جو دور آهي جنهن ۾ هر شيءَ ڊجيٽل ٿيندي پئي وڃي. ايتري تائين جو جيڪو اسان لکون ٿا، پڙهون ٿا يا ڳالهايون ٿا سو به ڊجيٽل ٿي رهيو آهي. هن وقت ٻولي ۽ لسانيات تي گهڻو ڪم ٽيڪنالاجي جي ذريعي ٿي رهيو آهي جنهنڪري ڪيترائي اوزار ٺاهيا وڃن پيا جيڪي دنيا جي ٻولين کي ڊجيٽل ڪن ٿا. انگريزي زبان ته مڪمل ڊجيٽل ٿي چڪي آهي، جڏهن ته دنيا جون ٻيون ٻوليون به گهڻو اڳتي نڪري چڪيون آهن جيڪي ڪمپيوٽر تي آسانيءَ سان پروسيس ٿي وڃن ٿيون. اها اسان جي خوشنصيبي آهي جو سنڌي ٻولي به ڊجيٽائيزيشن جي پروسيس ۾ آهي ۽ تيزيءَ سان ڊجيٽائيز ٿي رهي آهي. سنڌي ٻوليءَ لاءِ ڪيتريون ئي ڪمپيوٽر جون ايپليڪيشن ٺاهيون ويون آهن ۽ ڪيتريون ئي ٺهن پيون. آن لائين لائيبريريون ٺاهيون ويون آهن جيڪي گهر ويٺي ڪتاب مفت ۾ مهيا ڪن ٿيون جن ۾ سنڌ سلامت آن لائين ڪتاب گهر سڀ کان اڳيان آهي. آن لائين ۽ آف لائين OCR تي به ڪم هلي رهيو آهي. جڏهن ته گوگل ڪارپوريشن دنيا جي ٻين ٻولين سان گڏ سنڌي ٻوليءَ تي به ڪم ڪري رهي آهي. وڪي ٽنگز هڪ عالمي غير حڪومتي تنظيم آهي جنهن دنيا جي 400 کان مٿي ٻولين سان گڏ سنڌي ٻوليءَ کي به پنهنجي عالمي ڊيٽابيس ۾ محفوظ ڪري ڇڏيو آهي ته جيئن سنڌي سميت دنيا جي مڙني محفوظ ٿيل ٻولين کي مرڻ يا ختم ٿيڻ کان بچائي سگهجي. اهڙيءَ طرح ڪمپيوٽيشنل لسانيات جي حوالي سان پڻ سنڌي ٻوليءَ تي عالمي سطح تي ڪم ٿي رهيو آهي.
هن وقت ڪمپيوٽر سائنس ۾ مختلف شعبن سان گڏ ڪمپيوٽيشنل لسانيات ۽ نيچرل لئنگويج پروسيسنگ تي تمام گهڻو تحقيقي ۽ ترقياتي ڪم ٿي رهيو آهي، جنهن ۾ دنيا جي مختلف ٻولين کي پاڻ ۾ ڳنڍڻ سان گڏ مختلف ٻولين جي بناوٽ يا ساخت کي به سمجهيو وڃي ٿو. تنهنڪري ٻولين جي ترجمي ڪرڻ، احساسن کي ڳولهڻ ۽ انهن جو تجزيوanalysis ڪرڻ ۽ ڄاڻ جي حصولinformation retrieval ۾ آساني ٿئي ٿي. سنڌي ٻولي دنيا جي پراڻين ٻولين مان هڪ ٻولي آهي جنهن جي بناوٽstructure ، صرفيه morphology ۽ گرامر grammar دنيا جي ڪيترين ئي ٻولين کان شاندار ۽ شاهوڪار آهن. هن وقت سنڌي ٻولي تي ڪمپيوٽيشنل لسانيات ۽ نيچرل لئنگويج پروسيسنگ جي طريقن سان بهتر ڪم ٿي رهيو آهي ان سلسلي ۾ ڪيترائي ڪمپيوٽيشنل لسانيات ۽ نيچرل لئنگويج پروسيسنگ جا اوزار tools سنڌي اين ايل پي(https://sindhinlp.com/) جي نالي سان آن لائين ڪيا آهن، جيڪي سنڌي ٻولي جي ترقيءَ ۾ اهم ڪردار ادا ڪري رهيا آهن. ھي اوزار سنڌي ٻولي ءَ ۾ لکجندڙ لفظن، جملن ۽ نشانين کي سمجهن ٿا، انھن کي جدا ۽ آزاد لفظن ۽ نشانين ۾ ظاھر ڪن ٿا، لفظن کي ڪائناتي گرامر universal grammar جي ڳالهائڻ جي لفظن universal parts of speech ۽ سنڌي گرامر يا ويا ڪرڻ جي ڳالهائڻ جي لفظن sindhi parts of speech مطابق نشان لڳائين ٿا. لفظن کي ٽوڙي، انهن جون اڳاڙيون ۽ پڇاڙيون هٽائي انهن جا بنيادي لفظ ڪڍن ٿا جيڪي ڳولها جي نظام search engines ۽ ڄاڻ جي حصول information retrieval لاءِ اهم آهن، لفظن ۽ جملن مان ليما Lemma ڪڍن ٿا. ليما لفظ کي مڪمل ڪري پيش ڪري ٿو ۽ اهڙي طرح سنڌي متن يا جملن مان احساس ڳولهڻ ۾ مدد ڪن ٿا ته جيئن انھن جو بهتر تجزيو ڪري معلوم ڪري سگهجي. ان کانسواءِ ليما ترجمي ڪرڻ واري اوزار يا نظام ٺاهڻ لاءِ پڻ اهم ۽ ضروري آهن. سنڌي ٻولي لاءِ احساسن ۽ جذبن جي تجزيي جو ڪمپيوٽرائزڊ نظام پڻ ٺاهيو ويو آهي جيڪو سنڌي جملن يا راين ۾ موجود احساسن جو تجزيو ڪري ٿو. اهو نظام مختلف قسم جي واپار، وکرن ۽ شخصيتن جي باري ۾ ڏنل راين کي ماپي ٿو ۽ ٻڌائي ٿو ته ماڻهو انهن وکرن، شخصيتن وغيره لاءِ ڪهڙا جذبا رکن ٿا. احساس ماڻهن جي جذبن، سوچن، پسند، ناپسند، مشورن ۽ راين کي ظاهر ڪندا آهن. دنيا ۾ هن وقت سڀ کان وڌيڪ ڪم احساسن جي تجزيي تي ٿي رهيو آهي ڇاڪاڻ ته پوري دنيا کي ڊجيٽل مارڪيٽ بڻايو ويو آهي ۽ اڪثر واپاري ڪمپنيون پنهنجي وکرن کي آن لائين وڪڻي رهيون آهن، ايتري تائين جو کاڌي پيتي جا سامان به آن لائين وڪڻيا وڃن ٿا. ان لاءِ ماڻهن جي راءِ جي تمام گهڻي اهميت آهي. احساسن کي ماپڻ جو نظامsentiment analysis system ماڻهن جي راءِ، جذبن، احساسن وغيره کي ماپن ٿا ۽ هڪ رپورٽ جاري ڪن ٿا. ان رپورٽ ذريعي خبر پوي ٿي ته ڪيترا ماڻهو انهن وکرن کي پسند ڪن ٿا ۽ ڪيترا نه پيا ڪن. احساسن جو تجزيو ٻڌائي ٿو ته اسان جي لکيل متن ۾ اسان جا احساس مثبت آهن، منفي آهن، نيوٽرل آهن يا رليل مليل يا گڏيل آهن. ان ڪم لاءِ ڪمپيوٽر کي الگوريٿم ۽ ماڊل ذريعي سمجهائي ماهر ڪيو آهي ته جيئن سنڌي متن مان احساسن کي سمجهي سگهي. ان جو فائدو سياستدانن، مختلف ڪمپنين جيڪي وکر يا پروڊڪٽ وڪڻن ٿيون، هوٽلن، اسپتالن وغيره کي ٿئي ٿو. اڄڪلھه سماجي رابطن جي ويب سائيٽن تي مختلف وکرن تي اهڙي قسم جا کوڙ سارا رايا ڏنا وڃن ٿا. مثال طور: فلاڻي موبائل فون جي بيٽري سٺي آهي، پر اسڪرين خراب اٿس. هاڻي بيٽري يا اسڪرين موبائل فون جا فيچر يا حصا آهن جڏهن ته صفت طور استعمال ٿيندڙ لفظ ماڻهن جا احساس ظاهر ڪن ٿا. سنڌي ٻوليءَ لاءِ لفظن جو ڄار word net پڻ ٺاهيو آهي، جيڪا حقيقت ۾ ھڪ وڏي ڪاميابي آھي. ورڊ نيٽ اسم، صفت، فعل ۽ ظرف وارن لفظن کي استعمال ڪري انهن جا مختلف قسم جا ڳانڍاپا relations پيدا ڪندي آهي جنهن ذريعي ساڳي معنيٰ رکندڙ لفظن سان ڳنڍيو وڃي ٿو. انهن ڳانڍاپن کي هائپرنم hypernym ۽ هائپونمhyponym چئجي ٿو. ان کانسواءِ ساڳين لفظن جا جوڙاsynset ۽ ميرونمmeronym ذريعي لفظ جا ڳانڍاپا لفظ جا مختلف حصا بيان ڪيا وڃن ٿا. ورڊ نيٽ سنڌي لفظن کي دنيا جي مختلف ٻولين جي لفظن سان ڳنڍي ٿي. سنڌي ٻوليءَ لاءِ ٺاهيل ڪمپيوٽرائزڊ اوزار سنڌي جملن جي نحوي ۽ صرفي ڇيد پڻ ڪن ٿا جنهنڪري لفظن جي ساخت جي خبر پوي ٿي.
ڪمپيوٽر سائنس ۾ منطق ۽ ميٿَميٽيڪل ماڊلس کي تمام گھڻي اھميت حاصل آھي. ڇاڪاڻ ته ڪمپيوٽر ڳالھيون نه پر منطق ۽ ميٿَميٽيڪل ماڊلس کي سمجھندو آھي. سنڌي متن کي ترڪيب ڏيڻ ۽ جملن ۾ لفطن ۽ نشانين کي عليحده ڪرڻ لاءِ ڪجھه مخصوص قسم جا پرگرام ٺاھيا آھن. اھي پروگرام مختلف قسمن جي الگوريٿم ذريعي ٺاھيا آھن، جيڪي ڪمپيوٽر کي ھدايتون ڏين ٿا ته جيئن ھُو سنڌي ٻولي جي متن کي سمجھي ڪري ان جو حل پيش ڪري سگهن. ھر ڪم يا پروسيس لاءِ عليحده الگوريٿم ٺاھيا آهن ته جيئن ڪمپيوٽر کي سمجهڻ ۾ آساني ٿئي. انھن الگوريٿمس جي ڪري سنڌي ٻولي لاءِ ڪمپيوٽيشنل لسانيات ۽ نيچرل لئنگويج پروسيسنگ تحت مختلف قسم جا اوزار ٺاھيا آهن جيڪي ھن وقت به انٽرنيٽ تي سنڌي اين ايل پي (https://sindhinlp.com/) جي نالي سان موجود آھن. اھڙي قسم جا اوزار ھن وقت تائين دنيا جي ٿورين ٻولين لاءِ انٽرنيٽ تي موجود آھن. تنھنڪري انھن آن لائين اوزارن جي ڪري دنيا ۾ سنڌي ٻولي جي ھڪ منفرد حيثيت ٺھي چڪي آھي. انھن اوزارن کي دنيا جي مختلف ملڪن ۾ استعمال ڪري سنڌي ڪارپس تي تحقيق ڪئي وڃي ٿي. ان کانسواءِ مشين لرننگ machine learning ۽ ڊيپ لرننگdeep learning ذريعي ڪمپيوٽر کي سکيا ڏئي ماھر ڪيو آهي ته جيئن ھو سنڌي متن (text) کي سمجھي سگھي جيڪو پڻ هڪ وڏو ڪم آهي. ھن وقت دنيا ۾ مشين لرننگ ۽ ڊيپ لرننگ ذريعي ٻولين کي سمجهيو وڃي ٿو جيڪو ھڪ ڪامياب طريقو آھي. ڪمپيوٽر مشين قدرتي ٻولين جي لفظن کي سڌي طريقي سان نه ٿي سمجھي بلڪه ڪجھه مخصوص ڪوڊ (unicode / utf-8) آھن جن جي ذريعي ڪمپيوٽر مختف ٻولين جي لفظن کي سمجھي ٿو. تنھنڪري سنڌي ڪارپس يا لفظن جي ڀنڊار کي مختلف ويڪٽرس (vectors) ۽ ميٽرائسز (matrices) جي شڪل ۾ تبديل ڪيو ويو آهي ته جيئن اڪيلي ۽ ڳنڍيل لفظن کي ويڪٽرس ۾ تبديل ڪري سگھجي ۽ ڪمپيوٽر کي سمجھائي سگھجي. ھي ھڪ مڪمل سائنٽيفڪ طريقو آھي جنھنڪري ڪمپيوٽر کي سمجهڻ ۾ آساني ٿئي ٿي. جيتوڻيڪ ان ڪم ڪرڻ ۾ تمام گھڻيون ڏکيايون پيش اچن ٿيون. ڇاڪاڻ ته مشين لرننگ ۽ ڊيپ لرننگ لاءِ جيڪي عمل ضروري آهن اهي سنڌي ٻولي لاءِ موجود نه آهن. جڏھن ته اهي عمل انگريزي، فرينچ، عربي ۽ ڪجھه ٻين ٻولين لاءِ موجود آهن. انھن مسئلن کي ڏسندي سنڌي ٻوليءَ لاءِ عليحده اھڙي قسم جا عمل ۽ طريقيڪار ٺاھيا آهن ته جيئن سنڌي ٻولي کي مشين لرننگ ۽ ڊيپ لرننگ تحت پروسيس ڪري نتيجا حاصل ڪري سگھجن. تنھنڪري اها پڻ ھڪ وڏي سوڀ آھي جيڪا اڳتي سنڌي ٻولي تي ڪم ڪندڙن لاءِ آساني پيدا ڪندي ۽ سنڌي ٻوليءَ کي عالمگير ٻولي بنائڻ ۾ مدد ڏيندي.
سنڌي ٻوليءَ جا لسانيات مطابق ڊيٽا سيٽ ٺاهيا ويا آهن، جن ۾ سنڌي لفظن جا گرامر مطابق نشان، صرفيه صورتن مطابق حيثيت، فعل مطابق حيثيت، لفظن مان نڪرندڙ احساس وغيره شامل آهن. ان ڊيٽا سيٽس جي ڪري سنڌي ڪارپس تي قومي ۽ عالمي سطح تي تحقيق ڪرڻ جا دروازا کليا آهن. اهڙيءَ طرح سنڌي ٻوليءَ جا ڪيترا ئي ٽيڪسٽ ڪارپس ٺاهيا ويا آهن جن ۾ شاهه سائين جي رسالي جا پڻ ڪارپس ٺاهيا ويا آهن. ڪارپس ٻولين جي سڃاڻپ هوندو آهي. ڪارپس ذريعي ٻولين جي حيثيت ۽ انهن جي ڳوڙهي(deep) هجڻ يا شاهوڪار هجڻ جي خبر پئجي ويندي آهي. ڪمپيوٽر سائنس ۾ ڪارپس جي تمام گهڻي اهميت آهي. ڇاڪاڻ ته ڪارپس ذريعي ئي وڌيڪ تحقيق، سائنسي، سماجي ۽ لسانياتي تجزيا وغيره ٿي سگهجن ٿا. ان کانسواءِ انفارميشن رٽريول information retrieval يا معلومات جو حصول ۽ ترجمي جا ڪم به ڪارپس ذريعي ڪيا ويندا آهن. هن وقت تائين سنڌي ٻوليءَ جا عام ڪارپس، لسانياتي ڪارپس، احساسن، راين ۽ جذبن وارا ڪارپس، سائنٽيفڪ ڊيٽا وارا ڪارپس، تاريخي مضمونن وارا ڪارپس، ڪهاڻين ۽ مضمونن جا ڪارپس ٺاهيا ويا آهن.
شاهه عبداللطيف ڀٽائي جي رسالي جو پڻ ڪارپس ٺاهيو ويو آهي جنهن ذريعي شاهه سائين جي احساسن ۽ جذبن کي ماپيو ويو آهي ۽ مستقبل ۾ وڌيڪ ماپي سگهجي ٿو. ان سان خبر پئجي ٿي ته شاهه سائين جا شعر لکڻ وقت جذبا ۽ ڪيفيتون ڪهڙيون هيون ۽ ان جي شاعري ۾ موجود احساسن جي ليول يا سطح ڪيتري مثبت يا منفي يا نيوٽرل آهي. ان سلسلي 2019ع ۾ سراج انسٽيٽيوٽ آف لئنگويجز طرفان ڪراچي ۾ ٿيندڙ شاهه سائين تي ڪانفرنس ۾ مون هڪ تحقيقي مقالو پيش ڪيو هو، جنهن ۾ شاهه سائين جي مختلف سرن جي مختلف شعرن جو لسانياتي تجزيو ڪري انهن شعرن مان احساس ۽ شاهه سائين جا جذبا ۽ مخلتلف قسم جون ڪيفيتون معلوم ڪيون هيون. اها تحقيق پنهنجي نوعيت جي منفرد تحقيق آهي جنهن ذريعي سنڌي ٻولي ۽ شاهه سائين جي شاعري ۽ فڪر کي عالمي سطح تي جديد ٽيڪنالاجي ۽ ڪمپيوٽيشنل لسانيات ۽ نيچرل لئنگويج پروسيسنگ ذريعي پيش ڪيو ويو آهي. انهن اوزارن ۽ ماڊلس تي وڌيڪ ڪم ڪري شاهه سائين جي فڪر کي نئين ۽ جديد طريقي سان عالمي سطح تي آڻي سگهجي ٿو.
سنڌي ٽيڪسٽ پارسر هڪ ڪمپيوٽرائزڊ پروگرام آهي جيڪو ڪنهن به ٻولي جي متن کي ٽڪرن ۾ ورهائي ان کي گرامر مطابق ظاهر ڪري ٿو، جنهن سان لفظ يا ڪنهن به بيهڪ جي نشاني جي سڃاڻپ آساني سان ٿي سگهي ٿي. ماڻهو پنهنجي ٻوليءَ جي لفظن کي آسانيءَ سان سمجهي سگهي ٿو، پر ڪمپيوٽر کي ان لفظ کي سمجھڻ ڏکيو هوندو آهي. سنڌي متن جي پارسنگparsing text ڪرڻ لاءِ ڪمپيوٽر کي ھدايتون ڏئي ماھر بڻايو ويو آھي. انھن ھدايتن موجب، سنڌي ٽيڪسٽ پارسر سڀ کان پهرين سنڌي متن کي ساڄي پاسي ڪري ان جو اسٽائل بدلائي ٿو. ڇاڪاڻ ته اسان وٽ سنڌي ساڄي پاسي کان لکي وڃي ٿي، ان کانپوءِ متن کي عليحده لفظن ۽ نشانين ۾ ظاهر ڪري ٿو. هن عمل ذريعي سنڌي متن کي ٽوڙي ڪري انهن کي جدا جدا فقرن، لفظن ۽ نشانين ۾ ظاهر ڪرڻ سان گڏ ترتيبوار نمبر پڻ لڳايا وڃن پيا ته جيئن لفظن جي جڳھه معلوم ٿي سگهي. ان عمل سان لفظ جي بناوٽ جي خبر پوي ٿي جيڪا ڳاڻيٽي ۾ پڻ ڪم اچي ٿي. ڪمپيوٽر ڪنهن به متن ۾ موجود فقرن، لفظن ۽ نشانين جي تعداد کي آساني سان ٻڌائي سگهي ٿو. اهڙي طرح ڪمپيوٽر کي لفظن کي گرامر مطابق نشان لڳائڻ ۾ پڻ آساني ٿئي ٿي. اھڙي قسم جي تحقيق ۽ ترقي سان سنڌي ٻولي دنيا جي تحقيق جو موضوع بڻجي رھي آھي. ان تحقيق ۽ ترقي سان دنيا ۾ سنڌي ٻولي جو ھڪ مقام ٺھيو آھي، جنھنڪري سنڌي ٻولي عالمي سطح تي ٺهندڙ ٻولين جي گروهه ۾ شامل ٿي چڪي آھي. ھي سمورا تحقيقي ڪم مون پنھنجي تحقيق ۽ ڊولپمينٽ ذريعي ڪيا آهن. انهن ڪمن سنڌي ٻوليءَ کي عالمي سطح تي آندو آهي. اهڙي طرح ان تحقيق جي ذريعي لکجندڙ مقالا قومي ۽ عالمي تحقيقي جرنلس ۾ ڇپجي چڪا آهن.
عالمي گرامر جو مقصد دنيا جي سمورين ٻولين کي هڪ گرامر تحت ڳنڍڻ ۽ انهن کي نشان ڏيڻ آهي ته جيئن مستقبل ۾ ترجمي ڪاري کانسواءِ مختلف قسم جا لسانياتي مسئلا حل ڪري سگهجن. ان سلسلي ۾ سنڌي ٻولي جي ڪارپس کي عالمي گرائمر جي ڳالهائڻ جي لفظن universal parts of speech مطابق نشان لڳايا وڃن پيا ۽ عالمي ڊپينڊنسي يا حصار مطابق ڪارپس ۽ ڊيٽا سيٽ ٺاهڻ سان گڏ عالمي حصار جي گهرجن مطابق ٽري بينڪس (tree banks) ٺاهيا وڃن پيا. يونيورسل ڊپينڊنسي دنيا جي مختلف ٻولين لاءِ عالمي ٽري بينڪ (tree bank) ٺاهي رهي آهي جنهن ذريعي مختلف ٻولين جي متن يا جملن کي عالمي گرامر مطابق نشان لڳايا وڃن ٿا ۽ انهن جملن ۾ موجود حصار(dependency) کي ظاهر ڪيو وڃي ٿو. هي هڪ ڳوڙهو(complex) ۽ ڏکيو ڪم آهي جنهن جي ڪرڻ سان ٻوليون عالمي بڻجي وڃن ٿيون. ڇاڪاڻ ته عالمي حصار تحت ڪابه ٻولي ڪنهن به ٻولي جي ٽري بينڪ ۾ ڳنڍجي وڃي ٿي. يونيورسل ڊپينڊنسي جو ڪم سڀ کان پهريان 2005ع ۾ اسٽينفورڊ ڊپينڊنسيstanford dependencies جي نالي سان شروع ڪيو ويو. ان ڪم کي بهتر ڪرڻ لاءِ 2012ع ۾ گوگل طرفان ڪائناتي ڳالهائڻ جا لفظ universal part of speech جوڙيا ويا جيڪي ٻولين کي عالمي بڻائي رهيا آهن. هي عالمي ڳالهائڻ جا لفظ(UPOS) انگريزي ٽري بينڪ يعني پين ٽري بينڪ (penn tree bank) کان مختلف ۽ آسان آهن. گوگل جي ٺهيل ٽيگ سيٽ (tagset) يعني(UPOS tagset) کي اسٽين فورڊ ڊپينڊنسي سان ملائي ان کي يونيورسل ڊپينڊنسيuniversal dependency جو نالو ڏنو ويو. 2013ع ۾ دنيا جي 6 ٻولين کي عالمي انحصار ۾ شامل ڪيو ويو ۽ 2014ع ۾ دنيا جون 13 ٻوليون ان حصار ۾ شامل ڪيون ويون. اهڙيءَ طرح هر سال ٻولين جو واڌارو ٿيندو ويو. ان سلسلي ۾ سنڌي ٻوليءَ تي به يونيورسل ڊپينڊنسي جي اصولن ۽ گهرجن مطابق ڪم ڪيو وڃي پيو. خوشيءَ جا ڳالهه آهي ته سنڌي ٻوليءَ کي مئي 2020ع ۾ عالمي حصارuniversal dependency جي فريم ورڪ ۾ شامل ڪيو ويو آهي. هن وقت دنيا جون صرف 94 ٻوليون عالمي حصار ۾ شامل آهن. جڏهن ته اقوام متحده جي مطابق دنيا ۾ 6000 هزار ٻوليون ڳالهايون وڃن ٿيون. تنهنڪري هي ڪم سنڌي ٻولي، سنڌي قوم ۽ پاڪستان لاءِ اعزار جي ڳالهه آهي. پاڪستان مان صرف سنڌي ٻولي ئي عالمي انحصار ۾ شامل ڪئي وئي آهي. اردو ٻولي هندستان جي لسانيات جي ماهرن عالمي حصار ۾ شامل ڪئي آهي. هن پروجيڪٽ تي 2019ع کان ڪم ڪري رهيو هئس. ان سلسلي ۾ مون هڪ ڊيٽا سيٽ ٺاهيو ۽ ٻه ٽري بينڪ ٺاهيا جيڪي سنڌي ٻولي کي عالمي گرامر مطابق نشان لڳائين ٿا، سنڌي لفظن جي صرفي ۽ نحوي حالتن ۽ حصار يا (dependency) مطابق ڇيد ڪن ٿا. هن ڊيٽا سيٽ کي عالمي لسانيات جا ماهر جانچيدا رهيا ۽ ان کي بهتر ڪرڻ لاءِ صلاحون ڏيندا رهيا. انهن ماهرن جي صلاحن مطابق مان به ان ڊيٽا سيٽ کي بهتر ڪندو رهيس ۽ آخر هن ڊيٽا سيٽ کي عالمي سطح تي مڃيو ويو ۽ سنڌي ٻولي کي عالمي حصار جي فريم ورڪ ۾ شامل ڪيو ويو، جيڪا فخر جي ڳالهه آهي. هاڻي سنڌي ٻولي دنيا جي مختلف ٻولين جي ٽري بينڪ جو پنهنجو پاڻ يا خودڪار نظام ذريعي حصو بڻجي ويندي اهڙي طرح دنيا جون مختلف ٻوليون سنڌي ٻولي جي ٽري بينڪ ۾ پنهنجو پاڻ ڳنڍجي وينديون.
سنڌي ٻولي تي هن وقت ڪمپيوٽيشنل لسانيات جي حوالي سان اهو سڀ ڪم ٿي چڪو آهي جيڪو مٿي بيان ڪري آيو آهيان. ان ڪم جي دنيا ۾ تمام گھڻي اهميت آهي جيڪا اهميت اسان وٽ گھٽ محسوس ڪئي وڃي ٿي. سنڌي ٻولي به دنيا جي ترقي ڪندڙ ٻولين جي لسٽ ۾ شامل ٿي چڪي آهي. اهڙيءَ طرح سنڌي ٻولي هن وقت دنيا جي ترقي يافته ٻولين سان گڏ بيٺي آهي. هي ڪم جيڪو محدود انداز ۾ هن ڪالم ۾ پيش ڪيو آهي سو منهنجي مڪمل ڪم جو هڪ ننڍڙو تعارف آهي. هن ڪم کي ظاهر ڪرڻ جو مقصد سنڌي قوم کي ٻڌائڻ آهي ته سنڌي ٻولي ترقي ڪندڙ ٻولي آهي جيڪا عالمي ٻولين جي گروهه ۾ شامل ٿي چڪي آهي البته اڃان وڌيڪ ڪم ڪرڻ جي تمام گهڻي ضرورت آهي. هاڻي اسان سڀني کي اها سوچ ختم ڪرڻ گھرجي ته ڪو اسان پٺتي پيل قوم آهيون يا اسان جي ٻولي پٺتي پيل ٻولي آهي. بلڪه اسان دنيا جي ڪيترين ئي ٻولين کان ڪمپيوٽيشنل لسانيات ۽ ڪمپيوٽر ٽيڪنالاجي جي حوالي سان اڳتي آهيون. هن وقت سنڌي ٻوليءَ جي ڪارپس تي عالمي سطح تي تحقيق ٿي رهي آهي.
حوالا: ڊاڪٽر مظهر علي ڏوتيو ڪتاب “عالمگيريت ۽ سنڌي سماج” ڇاپيندڙ پيڪاڪ پبلشرز ڪراچي-2020ع
https://universaldependencies.org/
https://sindhinlp.com/
Dootio, M.A., Wagan, A.I. Syntactic parsing and supervised analysis of Sindhi text. Journal of King Saud University – Computer and Information Sciences (2017), https://doi.org/10.1016/j.jksuci.2017.10.004
Dootio, M. A., & Wagan, A. I. (2018). Unicode-8 based linguistics data set of annotated Sindhi text. Data in Brief, Volume 19, 2018, pp. 198-213
Dootio, M. A., & Wagan, A. I. (2017). Automatic Stemming and Lemmatization Process for Sindhi Text. Proceeding of ICLAP, 3rd International Conference of Linguistic Association Karachi, Sindh Pakistan
Mazhar Ali and Asim Imdad Wagan, “Sentiment Summarization and Analysis of Sindhi Text” International Journal of Advanced Computer Science and Applications(IJACSA), 8(10), 2017. http://dx.doi.org/10.14569/IJACSA.2017.081038
Dootio, M. A., & Wagan, A. I. (2019). Development of Sindhi text corpus. Journal of King Saud University-Computer and Information Sciences.
Ali, Mazhar, and Asim Imdad Wagan. “An analysis of Sindhi annotated corpus using supervised machine learning methods.” Mehran University Research Journal of Engineering and Technology 38, no. 1 (2019): 185-196.

