بلاگنئون

بِٽ، بائيٽ ۽ ٻولي-سنڌي ٻولي ۽ نيچرل لينگويج پروسيسنگ: موقعا، کوٽ ۽ حل

سنڌي ٻوليءَ جي ڊجيٽل دنيا ۾ واڳ وٺڻ لاءِ صرف خواهش ڪافي ناهي،  جڏهن ٻوليءَ جي بقا، ترقي ۽ موجودگيءَ جو سوال اچي ٿو، تڏهن محض جذبن کان اڳتي هلي، حڪمت عملي، فني ڄاڻ، وسيلن ۽ گڏيل جاکوڙ جي ضرورت پيش اچي ٿي. سنڌي ٻولي، جيڪا هڪ وسيع تاريخ، ادب ۽ ثقافت سان مالامال آهي، اها اڄ جي دور ۾  خطرن جي آڏو بيٺي آهي. هي خطرا ٻاهرين جارحيت جا نتيجا ناهن، پر نئين دور جي ٽيڪنالاجيءَ سان هم قدم نه هئڻ جا اثر آهن. ٽيڪنالاجيءَ جي دنيا، خاص ڪري مصنوعي ذهانت، نيچرل لينگويج پروسيسنگ (NLP)، مشين لرننگ ۽ خودڪار نظامن جي دنيا، مسلسل اڳتي وڌي رهي آهي. هر نئون اوزار، هر نئين ايپ، هر نئون ڊجيٽل حل، رڳو انهن ٻولين لاءِ جوڙيو وڃي ٿو، جيڪي عالمي مارڪيٽ ۾ نمايان حيثيت رکن ٿيون يا جن جي پويان وسيلا، ادارا ۽ پاليسيون آهن. سنڌي ان فهرست مان ٻاهر آهي، تنهنڪري اها جدت جي ڌارا کان پٺتي رهجي وئي آهي.

سنڌي ٻوليءَ لاءِ بنيادي فني اوزارن جي کوٽ هڪ اڻٽر حقيقت آهي. گوگل تي انگريزي، اردو، عربي يا هندي لاءِ اسپيل چيڪر، ترجمو ڪندڙ ۽ خودڪار لکڻ جا اوزار موجود آهن، پر سنڌي لاءِ اڃان تائين نه رڳو اڻپورا اوزار آهن، پر ڪيترن جي ته شروعات به ناهي ٿي سگهي. اهڙين حالتن ۾ سنڌي ٻوليءَ جو علمي، ادبي يا روز مره رابطو ڊجيٽل دنيا سان تمام محدود رهي ٿو. جڏهن هڪ شاگرد، هڪ استاد، يا هڪ عام  انسان کي پنهنجي مادري ٻوليءَ ۾ اي ميل لکڻ، مضمون تيار ڪرڻ يا ڪنهن سرڪاري ويب سائيٽ تي فارم ڀرڻ لاءِ تڪليف ٿئي ته اها رڳو ٽيڪنيڪي نه، پر جذباتي تڪليف به هوندي آهي. ان سان گڏوگڏ، ٻوليءَ جي جاءِ تي بي يقيني، شرمندگي ۽ خاموشي به جنم وٺي ٿي، جيڪا وقت سان ٻوليءَ کي وسارڻ طرف وٺي وڃي ٿي. هن صورتحال جو هڪ وڏو سبب سنڌي ٻوليءَ جي ڊجيٽل موجودگيءَ جي شديد کوٽ آهي. ڪيترن ئي جديدNLP  ماڊلز کي تربيت ڏيڻ لاءِ لکين، ڪروڙين جملن تي ٻڌل مواد جي ضرورت هوندي آهي. انگريزي، اسپيني، چيني يا اردو لاءِ اهڙو مواد نه صرف دستياب آهي، پر اهي زبانون روزانو جي بنياد تي سوشل ميڊيا، بلاگن، اخبارن ۽ ويب سائيٽن تي نئين مواد سان وڌن ٿيون. جڏهن ته سنڌي ٻوليءَ لاءِ اهڙو مواد يا ته موجود ئي ناهي يا وري آن لائين نه آهي. اسان جا ڪتاب، اخبارون، شاعري ۽ ٻيو مواد اڃان تائين لائبريرين جي رڪنن ۾ بند پيل آهن، جن کي ڊجيٽل ڪرڻ،OCR  ذريعي پڙهڻ لائق بڻائڻ ۽ جديد نظامن لاءِ استعمال جوڳو بنائڻ ئي پهريون قدم آهي، جنهن کانسواءِ ڊجيٽل دنيا ۾  سنڌي ٻوليءَ جي ترقي ممڪن ئي ناھي.

سنڌي ٻوليءَ جي ٻٽي لکت يعني پاڪستان ۾ عربي، فارسي، رسم الخط ۽ ڀارت ۾ ديو ناگري رسم الخط بظاهر ته سنڌيءَ جي عالمي موجودگيءَ جي علامت آهي، پر ٽيڪنيڪي سطح تي اها صورتحال هڪ وڏو فني چئلينج آهي. ٻنهي لکتن لاءِ الڳ الڳ يونيڪوڊ ترتيب، فونٽ ۽ انپٽ سسٽم گهربل آهن. نيچرل لينگويج پروسيسنگ NLP جي دنيا ۾، هر رسم الخط لاءِ الڳ ڊيٽا، الڳ ماڊل ۽ الڳ اوزار جوڙڻا پون ٿا، جيڪي وقت، وسيلا ۽ فني مهارتون گهرن ٿا. ان کانسواءِ، ڪيترن ئي ڊجيٽل پليٽ فارمن تي سنڌي اکر صحيح نموني ظاهر ئي نٿا ٿين، ٻ، ڄ، ڍ، ڳ، ٽ ۽ ٻيا ڪيترائي اکر ٽٽل، غير واضح يا مڪمل طور غائب نظر اچن ٿا. ان سان گڏوگڏ، سنڌي ٽائيپنگ لاءِ ڪا واحد، معياري ۽ سڀني ڊوائيسز تي ھڪ ئي وقت ڪم ڪندڙ ڪيبورڊ به اڃان تائين تيار نه ٿي سگهيو آهي. نتيجي طور، عام صارف لاءِ سنڌي لکڻ هڪ تڪليف ده عمل بڻجي پيو آهي، جيڪو ان جي حوصلي کي ختم ڪري ٿو.

سنڌي ٻوليءَ جا لهجا ان جي قدرتي خوبصورتي، نرمي ۽ مختلف علائقن جي رنگن جو سادو ۽ سچو اظهار آهن. هي لهجا رڳو ڳالهائڻ جي انداز يا لهجي جو فرق ناهن بلڪه انهن جي پويان صديون پراڻو تاريخي پسمنظر، ثقافتي ورثو، سماجي شناخت ۽ مخصوص فڪري انداز لڪل آهن. لاڙي، ٿري، ڪڇي، سرائيڪي ۽ ٻيا ڪيترائي لهجا پنهنجي پنهنجي علائقي جي لهجي سان گڏوگڏ طرزِ زندگي، ماحول ۽ مقامي علم جي نمائندگي ڪن ٿا. انهن لهجن ۾ مقامي لفظن، محاورن، استعارن ۽ اظهار جي اهڙي دولت سمايل آهي، جيڪا سنڌي ٻوليءَ کي ٻين ٻولين جي ڀيٽ ۾ وڌيڪ وسيع، رنگين ۽ مختلف بڻائي ٿي.

جڏهن جديد ٽيڪنالاجي، خاص طور نيچرل لينگويج پروسيسنگ (NLP)، ۾ ڪم ٿئي ٿو ته اڪثر اوزار رڳو معياري يا وچولي لهجي کي بنياد بڻائي تيار ڪيا وڃن ٿا. اهڙي صورت ۾، ٻين علائقائي لهجن جا لفظ، جملن جي جوڙجڪ، لهجو ۽ انهن سان جڙيل ثقافتي رنگ نظرانداز ٿي وڃن ٿا، جيڪو وقت سان انهن لهجن جي بقا لاءِ خطرو بڻجي سگهي ٿو. اهڙي بي ڌياني نه فقط لساني اڻبرابري پيدا ڪري ٿي، پر اهو خدشو به پيدا ڪري ٿي ته اهي لهجا، جيڪي سنڌي ٻوليءَ جي ساهه، سُر ۽ سڃاڻپ جو اهم حصو آهن، آھستي آھستي ختم ٿي ويندا.

ان پسمنظر ۾ ضروري آهي ته سنڌي ٻوليءَ جي لهجن جي اهميت کي رڳو تحقيق يا لغوي مطالعي تائين محدود نه رکيو وڃي، بلڪه انهن کي ڊجيٽل تحفظ ڏيڻ، جديد ٽيڪنالاجيءَ ۾ نمائندگي ڏيڻ ۽ مستقبل جي ٻوليءَ وارن اوزارن جو حصو بڻائڻ لاءِ سنجيده ۽ منظم قدم کنيا وڃن. ان لاءِ گهرجي ته هر لهجي تي ٻڌل صوتي ڊيٽابيس(voice corpora)  تيار ڪيا وڃن، جيڪي مقامي ماڻهن جي ڳالهائڻ جي انداز، لهجي ۽ روز مره جي اظهار تي ٻڌل هجن. ان سان گڏ،Annotated Datasets  جي تياري، مقامي ڳالهائيندڙن جي آواز، ادائگي ۽ مخصوص جملن جي رڪارڊنگ پڻ گڏ ڪرڻ گهرجي. اهڙيءَ ريت تيار ڪيل مواد، جڏهن نيچرل لينگويج پروسيسنگ(NLP)  جي ماڊلز جي تربيت لاءِ استعمال ڪيو ويندو ته اهي اوزار صرف لفظن جي معنيٰ يا لغت تائين محدود نه رهندا، بلڪه ڳالهائيندڙ جي لهجي، جذباتي لهرن ۽ ثقافتي پسمنظر کي به سمجهي سگهندا. اهو اوزارن کي وڌيڪ انساني، حساس ۽ مقامي سڃاڻپ سان هم آهنگ بڻائيندو، جيڪو ڪنهن به ٻوليءَ جي حقيقي سمجھه لاءِ انتهائي اهم قدم آهي.

انهن سڀني مسئلن باوجود، وسيع اميد جو دائرو موجود آهي. سنڌي وڪيپيڊيا، سنڌي ڪي بورڊ ايپس،OCR  اوزار ۽ ترجمي جا ابتدائي تجربا هڪ مثبت شروعات آهن. رضاڪار، شاگرد ۽ تحقيق ڪندڙن انھيءَ رستي تي هلڻ شروع ڪيو آهي، جيڪو وڏي تبديليءَ جي آڏو ننڍو، پر مضبوط قدم آهي. هاڻي ضرورت ان ڳالهه جي آهي ته انهن قدم کڻندڙ ماڻهن کي ادارتي، فني، مالي ۽ اخلاقي سهارو ملي. ان سان گڏ، سرڪاري ادارا جهڙوڪ: سنڌي لئنگئيج اٿارٽي، عبدالماجد ڀرڳڙي انسٽيٽيوٽ، ثقافت کاتو ۽ يونيورسٽيون پنهنجي وسيلن، علم ۽ پليٽ فارمن ذريعي اڳڀرائي لاءِ ميدان تي اچن.

خانگي شعبي جي شموليت سنڌي ٻوليءَ جي ڊجيٽل واڌاري لاءِ نه فقط وقت جي اهم ضرورت آهي، بلڪه اها ترقي جي هڪ بنيادي حڪمت عملي پڻ بڻجي سگهي ٿي. ٽيليڪام ڪمپنيون، آن لائين بازارون، بينڪ، اي ڪامرس پليٽ فارمز ۽ ايپ ڊولپمينٽ ادارا، جيڪي سنڌي ڳالهائيندڙن جي وڏي آباديءَ سان سڌي طرح جڙيل آهن، سي جيڪڏهن مقامي ٻوليءَ ۾ سهولتون مهيا ڪن ته ان سان نه فقط صارفن جي اعتماد ۾ واڌ ٿيندي، پر انهن ڪمپنين لاءِ ڪاروباري واڌاري جا در پڻ کلي سگهن ٿا. زبان، ڪنهن به پراڊڪٽ يا سروس تائين رسائيءَ جو سڀ کان بنيادي ۽ انساني وسيلو آهي ۽ جڏهن اها رسائي مقامي ٻوليءَ ۾ هجي ته صارف جي تجربي ۾ قدرتي سهولت، ايمانداري ۽ اطمينان پيدا ٿئي ٿو. سنڌي ٻوليءَ ۾ چيٽ بوٽس، خودڪار فون مينيوز، بينڪنگ اطلاعن، پيغام ۽ آن لائين سرڪاري خدمتن جي دستيابي لکين سنڌي ڳالهائيندڙن لاءِ صرف هڪ ٽيڪنيڪي سهولت نه، پر هڪ احساس بھ آهي جيڪڏهن ڪو ماڻهو پنهنجي مادري ٻوليءَ ۾ رابطو ڪري ٿو، ته اهو رڳو سمجهي ٿو، پر پاڻ کي ان نظام جو حصو محسوس ڪري ٿو. اهڙيون سهولتون خاص طور انهن علائقن لاءِ وڌيڪ اهميت رکن ٿيون، جتي ٻين ٻولين جي سمجهه محدود هجي ۽ ماڻهو پاڻ کي ڊجيٽل نظام کان پري محسوس ڪن ٿا. مقامي ٻوليءَ جي موجودگي انهن لاءِ علم، خدمتن ۽ سهولتن تائين رسائيءَ جو در کوليندي آهي، جنهن سان سندن اعتماد وڌي ٿو ۽ ڀاڱي ڀائيواريءَ جو احساس پيدا ٿئي ٿو.

ان کان علاوه، جڏهن ڪمپنيون صارفن سان سندن پنهنجي ٻوليءَ ۾ رابطو ڪن ٿيون ته اها ڳالهه صرف خدمت تائين محدود نه رهندي، بلڪه اها انهن جي دل ۾ برانڊ لاءِ سچائي، عزت ۽ لڳاءُ پيدا ڪري ٿي. اهڙي نموني مارڪيٽنگ جي دنيا ۾ “برانڊ ايموشنل ڪنيڪشن” جو نالو ماڻي ٿو، جيڪو صارفن جي وفاداريءَ ۽ ڊگهي مدت واري لاڳاپي لاءِ انتهائي اهم سمجهيو وڃي ٿو. تنهنڪري، مادري ٻوليءَ ۾ رابطو نه فقط سماجي لحاظ سان اهم آهي، پر ڪاروباري حڪمت عمليءَ جي طور تي به انتهائي فائدي وارو ثابت ٿي سگهي ٿو. هي ترجيح فقط رياستي پاليسين تائين محدود نه هجڻ گهرجي، بلڪه پرائيويٽ سيڪٽر جي ڪاروباري حڪمت عمليءَ جو به اهم حصو هجڻ گهرجي. مقامي ٻولين جي حمايت ڪارپوريٽ سوشل ريسپانسبلٽي (CSR) جي عالمي اصولن سان به مطابقت رکي ٿي. سنڌي ٻوليءَ جي واڌاري لاءِ خانگي ادارن جي سيڙپڪاري ۽ حصيداري، هڪ اهڙو ذميوار قدم ٿي سگهي ٿو، جيڪو نه صرف سماجي اثر ڇڏي، پر نون مارڪيٽن تائين رسائيءَ لاءِ پڻ مددگار ثابت ٿئي. اڄ جو صارف رڳو پراڊڪٽ نٿو خريد ڪري، هو تجربو خريد ڪري ٿو ۽ جڏهن اهو تجربو ان جي پنهنجي ٻوليءَ ۾ هجي ته وفاداري، اعتماد ۽ لاڳاپو مضبوط ٿئي ٿو. تنهنڪري، سنڌي ٻوليءَ کي خانگي شعبي جي ڊجيٽل منصوبن، ايپليڪيشنن ۽ خدمتن ۾ شامل ڪرڻ هڪ فلاح بدران، حڪمت عمليءَ سان ڀريل ڪاروباري سيڙپڪاري آهي، جيڪو مقامي سماج جي دل کٽڻ سان گڏ، منافعي بخش امڪانن جا در پڻ کولي سگهي ٿو.

نيچرل لينگويج پروسيسنگ ۾ اڳڀرائي لاءِ موجوده multilingual transformer models، جهڙوڪmBERT، XLM-R، ۽ T5، وڏا مددگار ثابت ٿي سگهن ٿا. اهي ماڊلز مختلف ٻولين تي اڳواٽ تربيت يافته آهن ۽ سنڌيءَ تيfine-tune  ڪرڻ لاءِ مناسب فريم ورڪ فراهم ڪن ٿا. ان سان گڏ، اردو ۽ هندي ماڊلز کي سنڌيءَ لاءِ adapt  ڪري سگھجي ٿو. خاص طور تي، جڏهن انهن ٻولين جي سورتخطي، نحو ۽ لفظن جي جوڙجڪ سنڌيءَ سان ڪافي مشابهت رکي ٿي. ٽيڪنيڪل سطح تي، سنڌي جي مخصوص اکرن، لغتن ۽ گرامر کي شامل ڪري، موجوده ماڊلز کي ٻيهر ترتيب ڏئي سگهجي ٿو، پر ان لاءِ سنڌي ڊيٽا جي موجودگي، Annotated Corpus ۽ لساني ماهرن جي شموليت تمام گھڻي لازمي آهي. اهڙن ٽيڪنيڪل منصوبن لاءِ مقامي انساني سرمايو پڻ پيدا ڪرڻو پوندو. يونيورسٽين ۾Computational Linguistics جا ڪورس متعارف ڪرائڻ، شاگردن لاءِ هيڪٿونز، ڪوڊ ڪيمپس ۽ اوپن سورس پروجيڪٽس جي ترغيب، سنڌي لاءِ سافٽ ويئر ڊولپمينٽ جي واٽ هموار ڪري سگهي ٿي. ان کان علاوه، مقامي شاعر، استاد، ليکڪ،  صحافي ۽ ٻوليءَ جا ماھر جيڪي ٻوليءَ جي حس ۽ معنويت سان واقف آهن، تن کي به شامل ڪيو وڃي ته جيئن ڊيٽا جو معيار، مواد جي تنوع ۽ ثقافتي هم آهنگيءَ جي ضمانت ملي سگهي. جيڪڏهن انهن سڀني حڪمت عملين کي هڪ ڳنڍيل نظام طور ڏٺو وڃي، ته سنڌي ٻوليءَ جو ڊجيٽل مستقبل صرف امڪان نه، پر حقيقت بڻجي سگهي ٿو. ادب کي ڊجيٽل ڪيو وڃي، اوزار اوپن سورس بڻايا وڃن، انساني تربيت تي ڌيان ڏنو وڃي، ٻولين مان سکڻ جو رستو اختيار ڪيو وڃي ۽ سماجي شعور کي وڌايو وڃي. انهن قدم سان صرف ٻولي محفوظ نه ٿيندي، پر اها عالمي منظرنامي تي پنهنجي جائز جاءِ حاصل ڪري سگھندي. ٽيڪنالاجيءَ جي ڌڙڪن سان جڏهن سنڌي ٻوليءَ جا لفظ، آواز ۽ لهجا هم قدم ٿيندا ته اها نه صرف زنده رهندي، پر متحرڪ ۽ اڳواڻ بڻجي سامهون ايندي.