आर्टिफिशियल इंटेलिजेंस (एआई) की दुनिया में एक नई क्रांति की शुरुआत हो रही है। चीन की अग्रणी स्टार्टअप DeepSeek और प्रतिष्ठित त्सिंगहुआ विश्वविद्यालय मिलकर ऐसे एआई मॉडल्स विकसित कर रहे हैं, जिन्हें पारंपरिक लंबी और महंगी ट्रेनिंग की जरूरत नहीं होगी। इस पहल का लक्ष्य ऑपरेशनल लागत को कम करना और कम संसाधनों में बेहतर प्रदर्शन हासिल करना है। जनवरी में अपने सस्ते रीजनिंग मॉडल से सुर्खियां बटोरने वाली DeepSeek ने अब बीजिंग की त्सिंगहुआ यूनिवर्सिटी के शोधकर्ताओं के साथ मिलकर एक नया शोध-पत्र प्रकाशित किया है, जिसमें रिइन्फोर्समेंट लर्निंग (Reinforcement Learning) को एक अभिनव तरीके से पेश किया गया है। इस तकनीक को “सेल्फ-प्रिंसिपल्ड क्रिटिक ट्यूनिंग” (SPCT) नाम दिया गया है।
क्या है सेल्फ-प्रिंसिपल्ड क्रिटिक ट्यूनिंग?
यह नई तकनीक एआई मॉडल्स को मानवीय प्राथमिकताओं के अनुरूप बेहतर बनाने पर केंद्रित है। इसमें मॉडल को सटीक और उपयोगी उत्तर देने के लिए इनाम (Rewards) दिए जाते हैं, जिससे वह खुद को स्वतः सुधार सके। पारंपरिक रिइन्फोर्समेंट लर्निंग अब तक विशिष्ट कार्यों में ही प्रभावी रही है, लेकिन DeepSeek का यह दृष्टिकोण इसे सामान्य और बहुआयामी उपयोगों के लिए अधिक शक्तिशाली बनाता है। शोध-पत्र के अनुसार, यह तकनीक मौजूदा मॉडलों से बेहतर प्रदर्शन करती है और कम कंप्यूटिंग संसाधनों का उपयोग करती है।
DeepSeek-GRM: जनरलिस्ट रिवॉर्ड मॉडलिंग
DeepSeek ने अपने इन नए मॉडल्स को “DeepSeek-GRM” नाम दिया है, जो “Generalist Reward Modeling” का संक्षिप्त रूप है। यह मॉडल्स स्वयं को विकसित करने की क्षमता रखते हैं, यानी इन्हें न्यूनतम ट्रेनिंग के बाद भी समय के साथ बेहतर होने की उम्मीद है। कंपनी ने घोषणा की है कि ये मॉडल्स ओपन सोर्स होंगे, जिससे वैश्विक डेवलपर समुदाय इसका लाभ उठा सकेगा। हालांकि, अभी रिलीज की तारीख का खुलासा नहीं किया गया है।
क्यों है यह महत्वपूर्ण?
पारंपरिक रूप से, एआई मॉडल्स को तैयार करने में भारी मात्रा में डेटा और कंप्यूटिंग संसाधनों की जरूरत पड़ती है। ट्रेनिंग की यह प्रक्रिया न सिर्फ महंगी होती है, बल्कि समय भी बहुत लेती है। DeepSeek और त्सिंगहुआ यूनिवर्सिटी का यह सहयोग इस मिथक को तोड़ रहा है। “सेल्फ-प्रिंसिपल्ड क्रिटिक ट्यूनिंग” के जरिए मॉडल्स को कम डेटा और संसाधनों में प्रशिक्षित किया जा सकता है, जो उन्हें तेजी से एक्सपर्ट बनने में सक्षम बनाता है। इससे न केवल लागत में कटौती होगी, बल्कि छोटे संगठनों और डेवलपर्स के लिए भी एआई तकनीक सुलभ हो सकेगी।
DeepSeek का उभरता प्रभाव
DeepSeek ने जनवरी 2025 में अपने R1 मॉडल के साथ वैश्विक एआई बाजार में हलचल मचा दी थी। यह मॉडल OpenAI जैसे दिग्गजों के मुकाबले बेहद कम लागत में तैयार किया गया था और फिर भी इसने कई बेंचमार्क में शानदार प्रदर्शन किया। अब DeepSeek-GRM के साथ कंपनी एक कदम और आगे बढ़ रही है। शोधकर्ताओं का दावा है कि यह तकनीक गूगल के Gemini, मेटा के Llama और OpenAI के GPT-4o जैसे मॉडल्स को टक्कर दे सकती है।
भविष्य की संभावनाएं
इस तकनीक के ओपन सोर्स होने से एआई के क्षेत्र में नवाचार को बढ़ावा मिलेगा। छोटे स्टार्टअप्स से लेकर बड़े संगठन तक, सभी इस मॉडल का इस्तेमाल कर अपनी जरूरतों के हिसाब से इसे ढाल सकेंगे। साथ ही, कम संसाधनों में बेहतर प्रदर्शन की यह क्षमता एआई को उन क्षेत्रों में भी ले जा सकती है, जहां पहले इसे लागू करना मुश्किल था।
निष्कर्ष
DeepSeek और त्सिंगहुआ विश्वविद्यालय का यह सहयोग एआई की दुनिया में एक नया अध्याय शुरू करने जा रहा है। “सेल्फ-प्रिंसिपल्ड क्रिटिक ट्यूनिंग” और DeepSeek-GRM मॉडल्स के साथ, ट्रेनिंग की पारंपरिक बाधाएं टूट रही हैं। यह तकनीक न सिर्फ एआई को सस्ता और सुलभ बना रही है, बल्कि इसे स्वयं-विकसित होने वाला भी बना रही है। आने वाले समय में यह देखना रोचक होगा कि यह नवाचार वैश्विक एआई परिदृश्य को कैसे बदलता है।