तेलुगु एसएलएम 'चदामामा कथलू' के पीछे की कहानी -

Table of Contents

कॉल सेंटर सॉफ्टवेयर प्रदाता ओजोनटेल के सहयोग से हैदराबाद स्थित एक गैर-लाभकारी संगठन स्वेचा ने एक विकसित किया है छोटा भाषा मॉडल (एसएलएम) तेलुगु के लिए। शीर्षक ‘चंदामामा कथलू‘ (चंदामामा कहानियाँ), एसएलएम आधिकारिक तौर पर जनवरी के पहले सप्ताह में तेलंगाना के प्रधान आईटी सचिव जयेश रंजन द्वारा लॉन्च किया जाएगा।

इस एसएलएम में 7 से 13 बिलियन पैरामीटर शामिल होंगे। एसएलएम की उत्पत्ति माइक्रोसॉफ्ट के अनुसंधान वैज्ञानिकों के एक पेपर में निहित है जिसका शीर्षक है “टिनीस्टोरीज़: भाषा मॉडल कितने छोटे हो सकते हैं और फिर भी सुसंगत अंग्रेजी बोल सकते हैं।”

उच्च-मूल्य वाले कौशल पाठ्यक्रमों के साथ अपने तकनीकी कौशल को बढ़ाएं

कॉलेज की पेशकश	अवधि	वेबसाइट
आईआईएम कोझिकोड	IIMK वरिष्ठ प्रबंधन कार्यक्रम	मिलने जाना
आईआईटी दिल्ली	डेटा साइंस और मशीन लर्निंग में आईआईटीडी सर्टिफिकेट प्रोग्राम	मिलने जाना
इंडियन स्कूल ऑफ बिजनेस	उत्पाद प्रबंधन में आईएसबी व्यावसायिक प्रमाणपत्र	मिलने जाना

जब ओज़ोनटेल के मुख्य प्रौद्योगिकी अधिकारी चैतन्य चोकारेड्डी के मन में यह लेख आया, तो उनके मन में एक बनाने का विचार आया तेलुगु एसएलएम उसके सिर में आकार ले लिया. उन्होंने एसएलएम बनाने के लिए तेलुगु कहानियों का डेटासेट संकलित करने के लिए स्वेचा तेलंगाना और भारतीय सूचना प्रौद्योगिकी संस्थान, हैदराबाद के साथ सहयोग किया।

कुल मिलाकर, कहानियों के 40,000 पृष्ठों को 30 कॉलेजों के 8,000 छात्रों द्वारा प्रूफरीड और मैन्युअल रूप से ठीक किया गया, जिन्होंने स्वेचा के नेतृत्व में “डेटाथॉन” में भाग लिया था।

वह याद करते हैं, “मैंने फ्री सॉफ्टवेयर मूवमेंट ऑफ इंडिया (जिसका स्वेचा एक हिस्सा है) के सचिव किरण चंद्र यारलागडा से संपर्क किया और उनसे पूछा कि क्या हम एक तेलुगु एसएलएम बना सकते हैं।”

स्वेच्छा के सचिव गणेश कटरापति ने कहा कि उनका उद्देश्य आज के बच्चों को उस तरह की कहानियों तक पहुंच प्रदान करना है जो पत्रिका चंदामामा कथलू में छपी थीं, जो 2012 में प्रिंट से बाहर हो गई थी।

उन कहानियों की खोज करें जिनमें आपकी रुचि है

“उदाहरण के लिए, बच्चे अब विक्रम-बेताल पात्रों के साथ खेल सकते हैं, जो इन पत्रिकाओं का मुख्य आधार थे,” उन्होंने कहा। नवंबर के अंत तक, इंजीनियरिंग स्कूलों में स्वेचा के छात्र स्वयंसेवकों ने एक डेटासेट तैयार किया था और मूल्यांकन किया था कि क्या उन्हें अलग टोकनाइज़र की आवश्यकता है। टोकन टेक्स्ट या कोड की मूल इकाइयाँ हैं जिनका उपयोग भाषा मॉडल भाषा को संसाधित करने और उत्पन्न करने के लिए करता है। टोकन वर्ण, शब्द, उपशब्द या पाठ या कोड के अन्य खंड हो सकते हैं, जो चुने गए टोकननाइजेशन विधि या योजना पर निर्भर करता है।

“माइक्रोसॉफ्ट ने “टिनी स्टोरीज़” नामक एक पेपर प्रकाशित किया जहां उन्होंने 21 मिलियन कहानियों का उपयोग करके एक एसएलएम को प्रशिक्षित किया, और यह सुसंगत पाठ उत्पन्न करने में सक्षम था। यह कहानियाँ उत्पन्न करने में सक्षम था, इसलिए इसने हमें बहुत आशा दी। हमने सोचा: अगर वे ऐसा कर सकते हैं, तो हम क्यों नहीं कर सकते, चोकारेड्डी ने कहा। एक क्लासिक भारतीय मासिक बच्चों की पत्रिका, चंदामामा 1940 से 2012 तक हर भारतीय घर में एक मुख्य आधार थी। इसने लंबी-चौड़ी भारतीय पौराणिक और जादुई कहानियाँ प्रकाशित कीं।

भारत का एसएलएम परिदृश्य
एसएलएम किसी भी बड़े मॉडल के समान पद्धति का उपयोग करके बनाए जाते हैं, लेकिन छोटे तंत्रिका नेटवर्क, कम मापदंडों और कम प्रशिक्षण डेटा पर। हाल ही में घोषित भारतीय भाषाओं में कुछ प्रमुख भाषा मॉडल (एलएलएम) में सर्वम एआई से ओपनहाथी शामिल हैं; मेटा एआई आर्किटेक्चर पर निर्मित हिंदी में एलएलएम, जीपीटी 3.5 जैसा प्रदर्शन का वादा करता है; और ओला का क्रुट्रिम, जो 10 भारतीय भाषाओं को सपोर्ट करेगा और कुल 22 भाषाओं में इनपुट स्वीकार कर सकता है। इसे भारतीय भाषाओं के लिए दो ट्रिलियन से अधिक डेटा टोकन पर प्रशिक्षित किया गया था। AI4भारत का IndicBERT एक बहुभाषी अल्बर्ट मॉडल है जो विशेष रूप से 12 प्रमुख भारतीय भाषाओं पर पूर्व-प्रशिक्षित है। IndicBART एक बहुभाषी, अनुक्रम-दर-अनुक्रम पूर्व-प्रशिक्षित मॉडल है जो भारतीय भाषाओं और अंग्रेजी पर केंद्रित है।

यह वर्तमान में 11 भारतीय भाषाओं को सपोर्ट करता है और mBART आर्किटेक्चर पर आधारित है। IISc, बेंगलुरु और ARTPARK के माध्यम से Google द्वारा वित्त पोषित वाणी परियोजना से भारत के सभी 773 जिलों में लगभग दस लाख लोगों के 150,000 घंटे से अधिक के भाषण और पाठ का डेटा कॉर्पोरा बनाने की उम्मीद है और यह खुला स्रोत होगा।

स्वेचा में, कई विश्वविद्यालयों में जीएलयूजी नामक कई छात्र क्लबों ने 1950 से 1970 के दशक की पत्रिकाओं और कहानियों को इकट्ठा करने की कोशिश करके ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) पर काम करना शुरू किया।

छात्रों ने चंदामामा कहानियों की डिजीटल पीडीएफ फाइलों को भी स्कैन किया। ओसीआर टाइप किए गए, हस्तलिखित या मुद्रित पाठ की छवियों का स्वचालित रूप से एन्कोड किए गए पाठ में इलेक्ट्रॉनिक या यांत्रिक रूपांतरण है, चाहे वह स्कैन किया गया दस्तावेज़ हो, दस्तावेज़ का फोटो हो, दृश्य फोटो हो या छवि पर लगाया गया उपशीर्षक पाठ हो।

“हमने एक ओपन सोर्स ओसीआर टूल से उनकी मदद की और लगभग 70% टेक्स्ट को परिवर्तित किया। डेटाथॉन के दौरान छात्रों ने शेष 30 प्रतिशत टाइप किया। 25 इंजीनियरिंग कॉलेजों के लगभग 8,000 छात्रों ने भाग लिया और चार घंटों में हमारे पास लगभग 45,000 कहानियाँ थीं, ”चोक्कारेड्डी ने कहा।

इसके अलावा, वे बड़ी कहानियाँ थीं, उन्होंने कहा।

उन्होंने कहा, “यह तेलुगु पाठ की लगभग 50-60 पंक्तियाँ थीं, इसलिए हमने पाठ की लगभग पाँच लाख पंक्तियाँ तैयार कीं और फिर इसे खुला स्रोत बना दिया।” उन्होंने कहा कि टूलींग स्वेचा स्वयंसेवकों द्वारा ओसीआर, फ्रंट-एंड और बैकएंड स्टोरेज सहित ओपन सोर्स टूल का उपयोग करके किया गया था।

“फिर हमने इसे हगिंग फेस पर अपलोड किया, ताकि सर्वम.एआई जैसी कंपनियां सैद्धांतिक रूप से इस डेटासेट का उपयोग कर सकें। और जैसा उन्होंने हिंदी के लिए पहले ही किया है, वे कुछ ही दिनों में तेलुगु के लिए भी वैसा ही तैयार कर सकते हैं। हमारा विचार इस डेटासेट को खोलने का था,” उन्होंने कहा।

हगिंग फेस उपयोगकर्ताओं को मशीन लर्निंग मॉडल ब्राउज़र में इंटरैक्टिव डेमो बनाने की अनुमति देता है। इससे उपयोगकर्ताओं के लिए मॉडल प्रस्तुत करना और परीक्षण करना आसान हो जाता है।

आगे क्या?
“हम वर्तमान में यह निर्धारित करने के लिए अपना स्वयं का शोध कर रहे हैं कि किस प्रकार का टोकननाइज़र सबसे अच्छा है और क्या हमें स्क्रैच से एलएलएम बनाना चाहिए और मेटा के LlaMa 2 आर्किटेक्चर का उपयोग नहीं करना चाहिए। इसके लिए, हम IIIT के साथ बातचीत करते हैं, ”उन्होंने कहा। हमने इस डेटासेट को हैदराबाद में सार्वजनिक किया, और IIIT हैदराबाद के प्रोफेसर हमारे पास आए और पूछा कि क्या हम सहयोग कर सकते हैं और प्राकृतिक भाषा प्रसंस्करण का उपयोग करने और अपनी खुद की वास्तुकला बनाने का प्रयास कर सकते हैं, उन्होंने घोषणा की।

“हम एल्प्स जैसे कई स्टार्टअप के साथ भी काम कर रहे हैं, जो एक एआई कंपनी है जिसके पास भारत में निर्मित एल्गोरिदम बनाने के लिए अपना स्वयं का गहन शिक्षण एल्गोरिदम है, और किसी भी खुले स्रोत का उपयोग नहीं करता है,” उन्होंने घोषणा की।

उन्होंने कहा, मुझे लगता है कि हमें अपना एलएलएम हासिल करने में चार या पांच महीने लगेंगे। लेकिन इस बीच, अगले सप्ताह या उसके अगले सप्ताह तक, हम एक ओपन सोर्स LlaMa 2 मॉडल को प्रशिक्षित करना चाहते हैं और तेलुगु कहानियों को पढ़ने या लिखने में सक्षम बनाना चाहते हैं।

“अगले सप्ताह के लिए यह हमारी योजना है,” उन्होंने कहा।

Source link