Google ने जिनी नामक एआई मॉडल का अनावरण किया जो 2डी वीडियो गेम बनाने में सक्षम है
गूगल एक और जनरेटर पेश किया कृत्रिम होशियारी (एआई) मॉडल अनंत संख्या में 2डी प्लेटफॉर्म वीडियो गेम बनाने में सक्षम है। जिन्न को बिना पर्यवेक्षित वीडियो गेम डेटा पर प्रशिक्षित एक एक्शन-नियंत्रित विश्व मॉडल के रूप में प्रस्तुत किया गया है। यह वीडियो गेम के स्तर उत्पन्न करने के लिए पूर्वानुमानित विश्लेषण का उपयोग करता है और खेलने योग्य चरित्र को भी नियंत्रित कर सकता है और उनकी गतिविधियों को निर्धारित कर सकता है। दिलचस्प बात यह है कि OpenAI भी पुर: इस महीने की शुरुआत में सोरा नामक एक वैश्विक मॉडल, जो एक मिनट तक के हाइपर-यथार्थवादी वीडियो उत्पन्न कर सकता है।
यह घोषणा Google DeepMind के ओपन-एंडेडनेस टीम लीड, टिम रॉकटाशेल द्वारा एक श्रृंखला के माध्यम से की गई थी। पदों एक्स पर (पहले ट्विटर के नाम से जाना जाता था)। उन्होंने कहा: “हम जिनी पेश करते हैं, जो विशेष रूप से इंटरनेट वीडियो से प्रशिक्षित एक बुनियादी विश्व मॉडल है जो छवि संकेतों से कार्रवाई-नियंत्रित 2 डी दुनिया की एक अनंत विविधता उत्पन्न कर सकता है। » जिन्न इस मायने में अद्वितीय है कि यह केवल एक विशिष्ट चीज़ उत्पन्न कर सकता है, और यह एकमात्र वीडियो गेम जेनरेशन मॉडल भी है जिसे अब तक सार्वजनिक रूप से घोषित किया गया है।
Google का जिनी AI मॉडल अभी तक जनता के लिए खुला नहीं है और वर्तमान में केवल एक शोध मॉडल के रूप में मौजूद है। इसलिए इसके उपयोगकर्ता-केंद्रित फीचर्स अभी तक ज्ञात नहीं हैं। यह छवियों का उपयोग करके वीडियो गेम स्तर उत्पन्न कर सकता है, लेकिन यह स्पष्ट नहीं है कि यह टेक्स्ट संकेतों या वीडियो संकेतों को भी स्वीकार कर सकता है या नहीं। दस्तावेज़ का एक पूर्व-मुद्रित संस्करण उपलब्ध है काम ऑनलाइन जो इसके तकनीकी पहलुओं पर प्रकाश डालता है। एआई मॉडल को 2,00,000 घंटे के वीडियो गेम फुटेज पर बिना पर्यवेक्षण के प्रशिक्षित किया गया था और इसमें 11 बिलियन पैरामीटर शामिल हैं। मॉडल आर्किटेक्चर तीन अलग-अलग हिस्सों का उपयोग करता है: एक अनुपात-अस्थायी वीडियो टोकननाइज़र, एक गतिशील ऑटोरेग्रेसिव मॉडल, और एक सरल और स्केलेबल अव्यक्त एक्शन मॉडल।
गूगल जिन्न कैसे काम करता है
सरल बनाने के लिए, अनुपात-अस्थायी वीडियो टोकननाइज़र वीडियो गेम फुटेज लेता है और इसे डेटासेट के छोटे हिस्सों में तोड़ देता है, जिन्हें टोकन कहा जाता है, जिसे बेस मॉडल द्वारा उपभोग किया जा सकता है। स्पैटिओटेम्पोरल बताता है कि डेटा समय और स्थान दोनों में विघटित होता है (उदाहरण के लिए, एक वीडियो को 2-सेकंड क्लिप में विघटित किया गया था, लेकिन प्रत्येक फ्रेम को कई टुकड़ों में भी विघटित किया गया था)।
इसके बाद ऑटोरेग्रेसिव डायनेमिक मॉडल आता है। ऑटोरेग्रेसिव मॉडल अनिवार्य रूप से अतीत में किसी चीज ने कैसा प्रदर्शन किया है, उसके आधार पर भविष्य की भविष्यवाणी करते हैं, जबकि एक गतिशील मॉडल यह समझने के लिए जिम्मेदार है कि समय के साथ चीजें कैसे बदलती हैं और विकसित होती हैं। इसलिए इसी भाग में पूर्वानुमानित विश्लेषण शुरू होता है। अंतिम तत्व अव्यक्त क्रिया मॉडल है। यह वह जगह है जहां एआई समझता है कि खेलने योग्य पात्र वीडियो गेम की दुनिया में कैसे घूमता और घूमता है।
“जिन्न द्वारा सीखा गया अव्यक्त एक्शन स्पेस न केवल विविध और सुसंगत है, बल्कि व्याख्या योग्य भी है। कुछ मोड़ों के बाद, मनुष्य आम तौर पर अर्थपूर्ण रूप से सार्थक क्रियाओं (जैसे बाएँ, दाएँ जाना, कूदना, आदि) का नक्शा तैयार करते हैं,” रॉकटाशेल ने कहा। यह हिस्सा महत्वपूर्ण है क्योंकि यह इस बात पर प्रकाश डालता है कि इस एआई मॉडल द्वारा हल की गई मुख्य समस्या न केवल 2डी वीडियो गेम स्तर उत्पन्न करना है, बल्कि यह समझना भी है कि बुनियादी गतिविधियां कैसे होती हैं और इस जानकारी का उपयोग वास्तविक इलाके को नेविगेट करने के लिए कैसे किया जा सकता है।
उन्होंने इस बात पर जोर देते हुए जोड़ा, “जिन्न मॉडल सामान्य है और 2डी तक सीमित नहीं है। हम जिन्न को बिना किसी क्रिया के रोबोटिक डेटा (आरटी-1) पर भी प्रशिक्षित करते हैं, और प्रदर्शित करते हैं कि हम क्रिया द्वारा नियंत्रित किए जाने वाले सिम्युलेटर को भी सीख सकते हैं। हमारा मानना है कि यह एजीआई के लिए सामान्य वैश्विक मॉडल की दिशा में एक आशाजनक कदम है।
बार्सिलोना में मोबाइल वर्ल्ड कांग्रेस में उपस्थित सैमसंग, श्याओमी, रियलमी, वनप्लस, ओप्पो और अन्य कंपनियों के नवीनतम लॉन्च और समाचारों के बारे में अधिक जानकारी के लिए, हमारी वेबसाइट पर जाएँ। एमडब्ल्यूसी 2024 केंद्र.