Google और मेटा ने नए AI मॉडल का अनावरण किया: वह सब कुछ जो आपको जानना आवश्यक है
गूगल और मेटा उल्लेखनीय बना दिया कृत्रिम होशियारी (आईए) ने गुरुवार को महत्वपूर्ण प्रगति के साथ नए मॉडल पेश करने की घोषणा की। खोज दिग्गज ने जेमिनी 1.5 का अनावरण किया, जो एक अद्यतन एआई मॉडल है जो विभिन्न तौर-तरीकों में दीर्घकालिक संदर्भ को समझने में सक्षम बनाता है। इस बीच, मेटा ने अपने वीडियो ज्वाइंट एंबेडिंग प्रेडिक्टिव आर्किटेक्चर (वी-जेईपीए) मॉडल को जारी करने की घोषणा की, जो विजुअल मीडिया के माध्यम से उन्नत मशीन लर्निंग (एमएल) के लिए एक गैर-जेनेरेटिव शिक्षण पद्धति है। दोनों उत्पाद एआई की क्षमताओं का पता लगाने के नए तरीके पेश करते हैं। विशेष रूप से, OpenAI भी पुर: गुरुवार को इसका पहला टेक्स्ट-वीडियो जेनरेशन मॉडल सोरा।
Google जेमिनी 1.5 मॉडल विवरण
Google DeepMind के सीईओ डेमिस हसाबिस ने एक के माध्यम से जेमिनी 1.5 की रिलीज़ की घोषणा की ब्लॉग भेजा. सबसे हालिया मॉडल ट्रांसफार्मर और विशेषज्ञों के मिश्रण (एमओई) वास्तुकला पर बनाया गया है। हालाँकि अलग-अलग संस्करण होने की उम्मीद है, केवल जेमिनी 1.5 प्रो मॉडल को प्रारंभिक परीक्षण के लिए जारी किया गया है। हस्साबिस ने कहा कि मध्यम आकार का मल्टीमॉडल मॉडल जेमिनी 1.0 अल्ट्रा के समान स्तर पर कार्य कर सकता है, जो कंपनी का सबसे बड़ा जेनरेटर मॉडल है और है उपलब्ध Google One AI प्रीमियम प्लान के साथ जेमिनी एडवांस्ड सब्सक्रिप्शन की तरह।
जेमिनी 1.5 में सबसे बड़ा सुधार इसकी लंबी संदर्भ जानकारी को संभालने की क्षमता है। मानक प्रो संस्करण 1,28,000 टोकन पॉप-अप के साथ आता है। इसकी तुलना में, जेमिनी 1.0 में 32,000 टोकन का पॉपअप था। टोकन को शब्दों, छवियों, वीडियो, ऑडियो या कोड के पूरे हिस्सों या उपखंडों के रूप में समझा जा सकता है, जो आधार मॉडल द्वारा सूचना के प्रसंस्करण के लिए बिल्डिंग ब्लॉक्स के रूप में काम करते हैं। “एक मॉडल की पॉप-अप विंडो जितनी बड़ी होगी, वह उतनी ही अधिक जानकारी फिट कर सकता है और दिए गए प्रॉम्प्ट में संसाधित कर सकता है, जिससे उसका आउटपुट अधिक सुसंगत, प्रासंगिक और उपयोगी हो जाता है,” हसाबिस ने समझाया।
मानक प्रो संस्करण के अलावा, Google 1 मिलियन टोकन तक के पॉप-अप के साथ एक विशेष मॉडल भी पेश करता है। यह निजी पूर्वावलोकन में डेवलपर्स और उसके एंटरप्राइज़ ग्राहकों के एक सीमित समूह को पेश किया जाता है। हालाँकि कोई समर्पित प्लेटफ़ॉर्म नहीं है, इसे Google के AI स्टूडियो, जेनरेटिव AI मॉडल के परीक्षण के लिए क्लाउड कंसोल टूल और वर्टेक्स AI के माध्यम से आज़माया जा सकता है। Google का दावा है कि यह संस्करण एक घंटे में एक घंटे का वीडियो, 11 घंटे का ऑडियो, 30,000 से अधिक लाइनों के कोड या 7,00,000 से अधिक शब्दों वाले कोड बेस को प्रोसेस कर सकता है।
में एक काम एक्स (जिसे पहले ट्विटर के नाम से जाना जाता था) पर मेटा ने जनता के लिए वी-जेईपीए जारी किया। यह एक जेनरेटिव एआई मॉडल नहीं है, बल्कि एक शिक्षण पद्धति है जो एमएल सिस्टम को वीडियो देखकर भौतिक दुनिया को समझने और मॉडल करने की अनुमति देती है। कंपनी इसे उन्नत कृत्रिम बुद्धिमत्ता (एएमआई) की दिशा में एक महत्वपूर्ण कदम मानती है, जो तीन “एआई के गॉडफादर” यान लेकुन में से एक का दृष्टिकोण है।
यह अनिवार्य रूप से एक पूर्वानुमानित विश्लेषण मॉडल है जो पूरी तरह से दृश्य मीडिया से सीखता है। यह न केवल समझ सकता है कि वीडियो में क्या हो रहा है, बल्कि यह भी भविष्यवाणी कर सकता है कि आगे क्या होने वाला है। कंपनी का कहना है कि इसे प्रशिक्षित करने के लिए उसने नई मास्किंग तकनीक का इस्तेमाल किया, जहां वीडियो के कुछ हिस्सों को समय और स्थान दोनों में छिपा दिया गया। इसका मतलब यह है कि वीडियो के कुछ फ्रेम पूरी तरह से हटा दिए गए थे, जबकि अन्य फ्रेम में काले टुकड़े थे, जिससे मॉडल को वर्तमान फ्रेम के साथ-साथ अगले फ्रेम दोनों की भविष्यवाणी करने के लिए मजबूर होना पड़ा। कंपनी के मुताबिक, मॉडल दोनों प्रभावी ढंग से करने में सक्षम था। विशेष रूप से, मॉडल 10 सेकंड तक के वीडियो की भविष्यवाणी और विश्लेषण कर सकता है।
उदाहरण के लिए, यदि मॉडल को किसी के पेन डालने, पेन उठाने और पेन डालने का नाटक करने, लेकिन वास्तव में ऐसा नहीं करने के बीच अंतर करने में सक्षम होने की आवश्यकता है, तो वी-जेईपीए पिछले तरीकों की तुलना में काफी प्रभावी है। यह। उच्च स्तरीय कार्रवाई पहचान कार्य, मेटा ने एक में कहा ब्लॉग भेजा.
वर्तमान में, वी-जेईपीए मॉडल केवल दृश्य डेटा का उपयोग करता है, जिसका अर्थ है कि वीडियो में कोई ऑडियो इनपुट नहीं है। मेटा अब एमएल मॉडल में वीडियो के साथ-साथ ऑडियो को भी शामिल करने की योजना बना रहा है। कंपनी का एक अन्य लक्ष्य लंबे वीडियो के लिए अपनी क्षमताओं में सुधार करना है।