Apple शोधकर्ता मल्टीमॉडल AI मॉडल के परिवार MM1 पर काम कर रहे हैं
सेब शोधकर्ताओं ने मल्टीमॉडल नेटवर्क बनाने पर अपना काम साझा किया कृत्रिम होशियारी (एआई) बड़े भाषा मॉडल (एलएलएम), एक प्री-प्रिंट लेख में। 14 मार्च को एक ऑनलाइन पोर्टल पर प्रकाशित, यह पेपर इस बात पर प्रकाश डालता है कि कैसे वह मल्टीमॉडलिटी की उन्नत क्षमताओं को हासिल करने में सक्षम था और बेस मॉडल को केवल टेक्स्ट डेटा और छवियों दोनों पर प्रशिक्षित करता था। क्यूपर्टिनो स्थित तकनीकी दिग्गज की नई एआई प्रगति सीईओ टिम कुक की प्रगति का अनुसरण करती है। टिप्पणी कंपनी की विनिंग कॉल के दौरान उन्होंने कहा कि एआई फीचर्स इस साल के अंत में आ सकते हैं।
का पूर्व-मुद्रित संस्करण शोध पत्र arXiv पर प्रकाशित किया गया था, जो ओपन एक्सेस वैज्ञानिक लेखों का एक ऑनलाइन भंडार है। हालाँकि, यहां प्रकाशित लेखों की सहकर्मी-समीक्षा नहीं की जाती है। हालाँकि लेख में स्वयं Apple का उल्लेख नहीं है, उल्लिखित अधिकांश शोधकर्ता कंपनी के मशीन लर्निंग (ML) डिवीजन से संबद्ध हैं, जिससे यह विश्वास हो जाता है कि परियोजना भी Apple से संबद्ध है आई – फ़ोन निर्माता.
शोधकर्ताओं के अनुसार, वे एमएम1 पर काम कर रहे हैं, जो मल्टीमॉडल मॉडल का एक परिवार है जिसमें 30 अरब पैरामीटर तक हैं। इसे “उच्च-प्रदर्शन मल्टीमॉडल एलएलएम (एमएलएलएम)” कहते हुए, पेपर के लेखकों ने बताया कि इमेज एनकोडर, विज़न लैंग्वेज कनेक्टर और अन्य वास्तुशिल्प घटकों और डेटा विकल्पों को बनाने के लिए बनाया गया था। ऐ मॉडल पाठ और छवि-आधारित इनपुट दोनों को समझने में सक्षम है।
एक उदाहरण देते हुए, पेपर में कहा गया है: “हम प्रदर्शित करते हैं कि बड़े पैमाने पर मल्टीमॉडल प्री-ट्रेनिंग के लिए, इमेज कैप्शन, इंटरलीव्ड इमेज टेक्स्ट और टेक्स्ट-ओनली डेटा के विवेकपूर्ण मिश्रण का उपयोग करना कला की स्थिति को प्राप्त करने के लिए महत्वपूर्ण है। (एसओटीए) अन्य प्रकाशित पूर्व-प्रशिक्षण परिणामों की तुलना में कई बेंचमार्क परीक्षणों पर कुछ परिणाम।
संक्षेप में कहें तो AI मॉडल अभी प्री-ट्रेनिंग चरण में है, जिसका अर्थ है कि यह वांछित परिणाम देने के लिए पर्याप्त रूप से प्रशिक्षित नहीं है। यह वह चरण है जहां मॉडल के वर्कफ़्लो को डिज़ाइन करने के लिए एआई एल्गोरिदम और आर्किटेक्चर का उपयोग किया जाता है और यह अंततः डेटा को कैसे संसाधित करता है। Apple के शोधकर्ताओं की टीम इमेज एनकोडर और एक विज़न लैंग्वेज कनेक्टर का उपयोग करके मॉडल में कंप्यूटर विज़न जोड़ने में सक्षम थी। फिर, जब केवल छवियों, छवियों और पाठ और केवल-पाठ डेटासेट के मिश्रण के साथ परीक्षण किया गया, तो टीम ने पाया कि परिणाम उसी स्तर पर मौजूदा मॉडल के साथ प्रतिस्पर्धी थे।
हालांकि यह प्रगति महत्वपूर्ण है, लेकिन यह शोध पत्र यह गारंटी देने के लिए पर्याप्त नहीं है कि ऐप्पल के ऑपरेटिंग सिस्टम में एक मल्टी-मोडल एआई चैटबॉट जोड़ा जाएगा। इस बिंदु पर, यह कहना और भी मुश्किल है कि एआई मॉडल इनपुट लेकर या आउटपुट देकर मल्टीमॉडल है या नहीं (यह एआई छवियां उत्पन्न कर सकता है या नहीं)। लेकिन अगर सहकर्मी समीक्षा के बाद परिणाम सुसंगत साबित होते हैं, तो यह कहा जा सकता है कि तकनीकी दिग्गज ने देशी जेनरेटर एआई के बुनियादी मॉडल के निर्माण की दिशा में एक और महत्वपूर्ण कदम उठाया है।