OpenAI ने ऑडियो टूल पेश किया है जो 15 सेकंड में आपकी आवाज को क्लोन कर सकता है
ओपनएआई एक ऐसी सुविधा के परीक्षण से शुरुआती परिणाम साझा करता है जो एक ठोस मानवीय आवाज के साथ शब्दों को पढ़ सकता है – कृत्रिम बुद्धिमत्ता के लिए एक नई सीमा को उजागर करता है और डीपफेक जोखिमों के खतरे को बढ़ाता है। कंपनी टेक्स्ट-टू-स्पीच मॉडल के छोटे पैमाने के पूर्वावलोकन के शुरुआती डेमो और उपयोग के मामलों को साझा करती है, जिसे कहा जाता है आवाज इंजनएक प्रवक्ता ने कहा, जिसे उसने अब तक लगभग 10 डेवलपर्स के साथ साझा किया है। OpenAI ने इस सुविधा को अधिक व्यापक रूप से लागू नहीं करने का निर्णय लिया है, जिसके बारे में उसने इस महीने की शुरुआत में पत्रकारों को सूचित किया था।
ओपनएआई के एक प्रवक्ता ने कहा कि कंपनी ने नीति निर्माताओं, उद्योग विशेषज्ञों, शिक्षकों और क्रिएटिव जैसे हितधारकों से प्रतिक्रिया प्राप्त करने के बाद रिलीज को कम करने का फैसला किया। पिछली प्रेस ब्रीफिंग के अनुसार, कंपनी ने शुरू में एक एप्लिकेशन प्रक्रिया के माध्यम से 100 डेवलपर्स तक टूल पेश करने की योजना बनाई थी।
कंपनी ने शुक्रवार को एक ब्लॉग पोस्ट में लिखा, “हम मानते हैं कि लोगों की आवाज से मिलता-जुलता भाषण तैयार करने में गंभीर जोखिम होते हैं, जो चुनाव के दौरान विशेष रूप से महत्वपूर्ण होते हैं।” “हम सरकार, मीडिया, मनोरंजन, शिक्षा, नागरिक समाज और उससे परे अमेरिकी और अंतरराष्ट्रीय भागीदारों के साथ सहयोग कर रहे हैं ताकि यह सुनिश्चित किया जा सके कि हम निर्माण करते समय उनकी प्रतिक्रिया को शामिल करें।”
अन्य ऐ प्रौद्योगिकी का उपयोग पहले से ही कुछ संदर्भों में आवाज़ों का अनुकरण करने के लिए किया जा चुका है। जनवरी में, एक फर्जी लेकिन यथार्थवादी फोन कॉल, जो कथित तौर पर राष्ट्रपति जो बिडेन का था, ने न्यू हैम्पशायर के निवासियों को प्राइमरी में मतदान न करने के लिए प्रोत्साहित किया – एक ऐसी घटना जिसने महत्वपूर्ण वैश्विक चुनाव से पहले एआई के डर को हवा दी।
ऑडियो सामग्री उत्पन्न करने के ओपनएआई के पिछले प्रयासों के विपरीत, वॉयस इंजन अपने विशिष्ट ताल और स्वर के साथ व्यक्तिगत लोगों की तरह लगने वाला भाषण बना सकता है। सॉफ़्टवेयर को अपनी आवाज़ को फिर से बनाने के लिए बोलने वाले व्यक्ति के 15 सेकंड के रिकॉर्ड किए गए ऑडियो की आवश्यकता होती है।
टूल के प्रदर्शन के दौरान, ब्लूमबर्ग ने ओपनएआई सीईओ की एक क्लिप सुनी सैम ऑल्टमैन प्रौद्योगिकी को संक्षेप में उस आवाज़ में समझाते हुए जो उनके वास्तविक भाषण से अप्रभेद्य लगती थी, लेकिन पूरी तरह से AI-जनित थी।
ओपनएआई के उत्पाद प्रबंधक जेफ हैरिस ने कहा, “यदि आपके पास सही ऑडियो सेटअप है, तो आपको अनिवार्य रूप से मानव-क्षमता वाली आवाज मिलेगी।” “यह काफी प्रभावशाली तकनीकी गुणवत्ता है।” हालाँकि, हैरिस ने कहा: “मानव भाषण की बहुत सटीक नकल करने की क्षमता के आसपास स्पष्ट रूप से बहुत सारी सुरक्षा बारीकियाँ हैं।”
टूल का उपयोग करने वाले ओपनएआई के वर्तमान डेवलपर भागीदारों में से एक, गैर-लाभकारी स्वास्थ्य प्रणाली लाइफस्पैन में नॉर्मन प्रिंस न्यूरोसाइंसेज इंस्टीट्यूट, मरीजों को उनकी आवाज वापस पाने में मदद करने के लिए प्रौद्योगिकी का उपयोग कर रहा है। उदाहरण के लिए, इस उपकरण का उपयोग एक युवा रोगी की आवाज़ को बहाल करने के लिए किया गया था, जो ब्रेन ट्यूमर के कारण स्पष्ट रूप से बोलने की क्षमता खो चुकी थी, एक स्कूल प्रोजेक्ट के लिए पिछली रिकॉर्डिंग से उसके भाषण को पुन: प्रस्तुत करके, कंपनी ब्लॉग में कहा गया है।
OpenAI का कस्टम स्पीच मॉडल अपने द्वारा उत्पन्न ऑडियो का विभिन्न भाषाओं में अनुवाद भी कर सकता है। यह इसे Spotify Technology SA जैसी ऑडियो क्षेत्र की कंपनियों के लिए उपयोगी बनाता है। Spotify ने पहले से ही लेक्स फ्रिडमैन जैसे लोकप्रिय होस्ट से पॉडकास्ट का अनुवाद करने के लिए अपने स्वयं के पायलट कार्यक्रम में प्रौद्योगिकी का उपयोग किया है। ओपनएआई ने प्रौद्योगिकी के अन्य लाभकारी अनुप्रयोगों की भी सराहना की है, जैसे कि बच्चों के लिए शैक्षिक सामग्री के लिए आवाजों की एक विस्तृत श्रृंखला तैयार करना।
परीक्षण कार्यक्रम के हिस्से के रूप में, ओपनएआई को अपने भागीदारों को इसकी उपयोग नीतियों से सहमत होने, अपनी आवाज का उपयोग करने से पहले मूल वक्ता से सहमति प्राप्त करने और श्रोताओं को यह बताने की आवश्यकता है कि वे जो आवाजें सुनते हैं वह एआई द्वारा उत्पन्न होती हैं। कंपनी एक अश्रव्य ऑडियो वॉटरमार्क भी स्थापित करती है ताकि यह पता लगाया जा सके कि उसके टूल द्वारा कोई ऑडियो तत्व बनाया गया था या नहीं।
इस सुविधा को अधिक व्यापक रूप से जारी करने का निर्णय लेने से पहले, ओपनएआई ने कहा कि वह बाहरी विशेषज्ञों से प्रतिक्रिया मांग रहा है। कंपनी ने ब्लॉग पोस्ट में कहा, “यह महत्वपूर्ण है कि दुनिया भर के लोग समझें कि यह तकनीक कहां जा रही है, चाहे हम इसे बड़े पैमाने पर तैनात करें या नहीं।”
ओपनएआई ने यह भी लिखा है कि उसे उम्मीद है कि उसके सॉफ्टवेयर का पूर्वावलोकन संस्करण अधिक उन्नत एआई प्रौद्योगिकियों द्वारा उत्पन्न चुनौतियों का सामना करने के लिए “सामाजिक लचीलापन बनाने की आवश्यकता को प्रेरित करेगा”। उदाहरण के लिए, कंपनी ने बैंकों से बैंक खातों और संवेदनशील जानकारी तक पहुंचने के लिए सुरक्षा उपाय के रूप में ध्वनि प्रमाणीकरण को चरणबद्ध तरीके से बंद करने का आह्वान किया। इसका उद्देश्य भ्रामक एआई सामग्री के बारे में जागरूकता बढ़ाना और यह पता लगाने के लिए और अधिक तकनीक विकसित करना है कि ऑडियो सामग्री वास्तविक है या एआई-जनित है।
© 2024 ब्लूमबर्ग एल.पी
(यह कहानी एनडीटीवी स्टाफ द्वारा संपादित नहीं की गई है और एक सिंडिकेटेड फीड से ऑटो-जेनरेट की गई है।)