संयुक्त राज्य अमेरिका - इख़बारी समाचार एजेंसी
Nous Research ने पेश किया NousCoder-14B: ओपन-सोर्स कोडिंग मॉडल, प्रोप्राइटरी दिग्गजों को चुनौती
AI-सहायता प्राप्त सॉफ़्टवेयर विकास के तीव्र विकास को रेखांकित करते हुए, क्रिप्टो वेंचर फर्म Paradigm द्वारा समर्थित ओपन-सोर्स आर्टिफिशियल इंटेलिजेंस स्टार्टअप Nous Research ने एक नया प्रतिस्पर्धी प्रोग्रामिंग मॉडल जारी किया है। NousCoder-14B नामक यह मॉडल, कथित तौर पर कई बड़े प्रोप्राइटरी सिस्टम के बराबर या उनसे बेहतर प्रदर्शन करता है और इसे Nvidia के अत्याधुनिक B200 ग्राफिक्स प्रोसेसर में से 48 का उपयोग करके केवल चार दिनों में प्रशिक्षित किया गया था।
NousCoder-14B, AI कोडिंग सहायकों के तेजी से बढ़ते क्षेत्र में एक अत्यंत उपयुक्त क्षण में प्रवेश कर रहा है। प्रतिद्वंद्वी Anthropic का एजेंटिक प्रोग्रामिंग टूल Claude Code, नए साल के बाद से सोशल मीडिया चर्चाओं पर हावी रहा है, जिसमें डेवलपर्स अपनी क्षमताओं के बारे में उत्साही प्रशंसापत्र साझा कर रहे हैं। ये समकालिक विकास AI-संचालित सॉफ़्टवेयर विकास की तेज गति और सॉफ्टवेयर निर्माण में क्या व्यापक रूप से एक मौलिक तकनीक मानी जाती है, उसे हासिल करने के लिए बड़ी और छोटी कंपनियों के बीच भयंकर प्रतिस्पर्धा को उजागर करते हैं।
यह भी पढ़ें
- टेक्सास में ऑटोपायलट टेस्ला दुर्घटना से महिला की मौत, सुरक्षा चिंताएं बढ़ीं
- टारगेट सर्कल डील डेज़ सेल 23 जून से शुरू: अधिकतम लाभ कैसे उठाएं
- प्राइम डे सेल: निंजा और ब्रेविल किचन गैजेट्स पर 43% तक की छूट
- Apple ने जारी किया iOS 27 बीटा 2: नई सिरी सुविधाएँ और RCS सपोर्ट
- मेटा ने आंतरिक डेटा लीक के बाद कर्मचारी ट्रैकिंग कार्यक्रम रोका
LiveCodeBench v6 पर, जो अगस्त 2024 और मई 2025 के बीच प्रकाशित प्रतिस्पर्धी प्रोग्रामिंग समस्याओं का एक मानकीकृत मूल्यांकन है, NousCoder-14B ने 67.87 प्रतिशत की सटीकता दर हासिल की। Nous Research की तकनीकी रिपोर्ट के अनुसार, यह आंकड़ा Alibaba के Qwen3-14B, इसके आधार मॉडल की तुलना में 7.08 प्रतिशत अंकों का महत्वपूर्ण सुधार दर्शाता है।
AI कोडिंग टूल के आसपास की वर्तमान भावना को Gemini API के लिए जिम्मेदार Google की एक प्रमुख इंजीनियर Jaana Dogan ने स्पष्ट रूप से व्यक्त किया था। पिछले सप्ताह X पर एक वायरल पोस्ट में, Dogan ने अपना अनुभव साझा किया: "मैंने Claude Code को समस्या का विवरण दिया, इसने एक साल पहले हमने जो बनाया था उसे एक घंटे में उत्पन्न कर दिया।" वह एक वितरित एजेंट ऑर्केस्ट्रेशन सिस्टम का उल्लेख कर रही थीं जिसे उनकी टीम ने विकसित करने में एक साल बिताया था, जिसे Claude Code ने तीन-पैराग्राफ के प्रॉम्प्ट से अनुमानित किया था।
यह तुलना शिक्षाप्रद है। जहाँ Anthropic का Claude Code एंड-टू-एंड सॉफ़्टवेयर विकास के प्रदर्शनों से कल्पना पर कब्जा कर चुका है, वहीं Nous Research, NousCoder-14B को एक शक्तिशाली ओपन-सोर्स विकल्प के रूप में स्थापित कर रहा है। उनकी रणनीति इस विश्वास पर आधारित है कि सत्यापित समस्याओं पर प्रशिक्षित मॉडल क्षमता के अंतर को पाट सकते हैं, और मॉडल-निर्माण प्रक्रिया में पारदर्शिता कच्चे प्रदर्शन जितनी ही महत्वपूर्ण है।
पारदर्शिता और पुनरुत्पादकता: NousCoder-14B का अंतर
NousCoder-14B की रिलीज़ को कई प्रतिस्पर्धी घोषणाओं से वास्तव में क्या अलग करता है, वह है इसकी कट्टरपंथी खुलेपन के प्रति प्रतिबद्धता। Nous Research ने न केवल मॉडल के वज़न प्रकाशित किए हैं, बल्कि कंपनी के Atropos फ्रेमवर्क पर निर्मित संपूर्ण सुदृढीकरण सीखने का वातावरण, बेंचमार्क सूट और प्रशिक्षण हार्नेस भी प्रकाशित किया है। यह व्यापक रिलीज़ पर्याप्त कम्प्यूटेशनल संसाधनों वाले किसी भी शोधकर्ता को उनके काम को दोहराने या उस पर निर्माण करने में सक्षम बनाती है।
X पर एक पर्यवेक्षक ने कहा, "Atropos स्टैक को ओपन-सोर्स करना ओलंपिक-स्तरीय तर्क अनुसंधान के पुनरुत्पादनीयता के लिए आवश्यक बुनियादी ढाँचा प्रदान करता है," जो इस दृष्टिकोण के अकादमिक और ओपन-सोर्स समुदायों के लिए गहरे महत्व को सारांशित करता है।
मॉडल को Nous Research में शोधकर्ता और पूर्व प्रतिस्पर्धी प्रोग्रामर Joe Li द्वारा प्रशिक्षित किया गया था। Li की तकनीकी रिपोर्ट एक व्यक्तिगत दृष्टिकोण प्रदान करती है, जो मॉडल के प्रदर्शन प्रक्षेपवक्र की तुलना लोकप्रिय प्रतिस्पर्धी प्रोग्रामिंग प्लेटफॉर्म Codeforces पर उनकी अपनी यात्रा से करती है। उन्होंने LiveCodeBench स्कोर को Codeforces रेटिंग से मैप किया, यह अनुमान लगाते हुए कि NousCoder-14B का सुधार – लगभग 1600-1750 की रेटिंग रेंज से 2100-2200 तक – एक ऐसी छलांग को दर्शाता है जिसमें 14 से 16 साल की उम्र के बीच लगभग दो साल की समर्पित प्रैक्टिस लगी। मॉडल ने केवल चार दिनों में इस समतुल्य प्रगति को हासिल किया।
Li ने तकनीकी रिपोर्ट में लिखा, "अंतिम प्रशिक्षण रन को सामने आते देखना एक बहुत ही अलौकिक अनुभव था।" हालांकि, उन्होंने AI दक्षता के संबंध में एक महत्वपूर्ण चेतावनी भी दी: जबकि उन्होंने अपने दो वर्षों की प्रैक्टिस में लगभग 1000 समस्याओं को हल किया, मॉडल को 24,000 समस्याओं की आवश्यकता थी। यह इस बात पर प्रकाश डालता है कि, फिलहाल, मनुष्य नमूनों की संख्या के मामले में काफी अधिक नमूना-कुशल शिक्षार्थी बने हुए हैं।
सुदृढीकरण सीखने की प्रणाली के अंदर: 24,000 समस्याओं पर प्रशिक्षण
NousCoder-14B की प्रशिक्षण प्रक्रिया शोधकर्ताओं द्वारा सुदृढीकरण सीखने के माध्यम से AI तर्क क्षमताओं को बढ़ाने के लिए नियोजित परिष्कृत तकनीकों में एक झलक प्रदान करती है। मुख्य कार्यप्रणाली उस पर निर्भर करती है जिसे शोधकर्ता "सत्यापन योग्य पुरस्कार" कहते हैं। इस प्रणाली में, मॉडल कोड समाधान उत्पन्न करता है, जिन्हें फिर परीक्षण मामलों के विरुद्ध निष्पादित किया जाता है। मॉडल को एक सरल बाइनरी फीडबैक सिग्नल प्राप्त होता है: सही या गलत। हालांकि वैचारिक रूप से सरल, इस फीडबैक लूप के लिए बड़े पैमाने पर निष्पादन हेतु पर्याप्त बुनियादी ढांचे की आवश्यकता होती है।
Nous Research ने समानांतर में सैंडबॉक्स किए गए कोड निष्पादन को चलाने के लिए क्लाउड कंप्यूटिंग प्लेटफॉर्म Modal का उपयोग किया। 24,000 प्रशिक्षण समस्याओं में से प्रत्येक में औसतन सैकड़ों परीक्षण मामले शामिल हैं। सिस्टम को कड़ाई से सत्यापित करना चाहिए कि उत्पन्न कोड सख्त समय और मेमोरी सीमाओं - क्रमशः 15 सेकंड और 4 गीगाबाइट - के भीतर सही आउटपुट उत्पन्न करता है।
प्रशिक्षण में DAPO (Dynamic Sampling Policy Optimization) नामक एक तकनीक का उपयोग किया गया, जिसे शोधकर्ताओं ने अपने प्रयोगों में विकल्पों की तुलना में थोड़ा बेहतर प्रदर्शन करते पाया। एक प्रमुख नवाचार "गतिशील नमूनाकरण" है - उन प्रशिक्षण उदाहरणों को छोड़ना जहां मॉडल या तो सभी प्रयासों को हल करता है या सभी प्रयासों में विफल रहता है, क्योंकि ये सीखने के लिए कोई उपयोगी ग्रेडिएंट सिग्नल प्रदान नहीं करते हैं।
शोधकर्ताओं ने "पुनरावृत्ति संदर्भ विस्तार" को भी अपनाया, पहले मॉडल को 32,000-टोकन संदर्भ विंडो के साथ प्रशिक्षित किया और फिर इसे 40,000 टोकन तक विस्तारित किया। मूल्यांकन के दौरान, संदर्भ को लगभग 80,000 टोकन तक विस्तारित करने से 67.87 प्रतिशत सटीकता दर तक पहुँचने वाले सर्वोत्तम परिणाम प्राप्त हुए।
सबसे महत्वपूर्ण बात यह है कि प्रशिक्षण पाइपलाइन अनुमान और सत्यापन को ओवरलैप करती है – जैसे ही मॉडल एक समाधान उत्पन्न करता है, वह अगले समस्या पर काम करना शुरू कर देता है जबकि पिछले समाधान की जाँच की जा रही होती है। यह पाइपलाइनिंग, अतुल्यकालिक प्रशिक्षण के साथ मिलकर जहां कई मॉडल इंस्टेंस समानांतर में काम करते हैं, महंगे GPU क्लस्टर पर हार्डवेयर उपयोग को अधिकतम करती है।
संबंधित समाचार
- टॉम डूमोलिन ने वॉट वैन एर्ट से क्लासिक्स में 'वास्तविक साहस' दिखाने का आग्रह किया
- टूर डू रवांडा के चौथे चरण में मैथिज डे क्लर्क ने शुरुआती ब्रेकअवे से जीत हासिल की
- UCI ने विवादास्पद व्हील डेप्थ नियम को स्पष्ट किया, आलोचना के बीच स्थिरता को मुख्य कारक बताया
- नाटकीय यू-टर्न: शुरुआती बहिष्कार के बाद डिफेंडिंग चैंपियन लोटे क्लेस को ओमलोप हेट न्यूज़ब्लाड में दौड़ने की अनुमति मिली
- यूरोपीय संघ का रणनीतिक पुनर्संतुलन: होराइजन यूरोप में चीन के साथ अनुसंधान साझेदारी को फिर से परिभाषित करना
आसन्न डेटा की कमी: AI प्रगति के लिए संभावित बाधा
Li की तकनीकी रिपोर्ट में एक महत्वपूर्ण खोज छिपी है, जिसका AI विकास के भविष्य के लिए महत्वपूर्ण निहितार्थ हैं: NousCoder-14B के लिए प्रशिक्षण डेटासेट में "एक मानकीकृत डेटासेट प्रारूप में सभी आसानी से उपलब्ध, सत्यापन योग्य प्रतिस्पर्धी प्रोग्रामिंग समस्याओं का एक महत्वपूर्ण हिस्सा" शामिल है।
दूसरे शब्दों में, इस विशेष डोमेन के लिए, शोधकर्ता उच्च-गुणवत्ता वाले प्रशिक्षण डेटा की सीमाओं के करीब पहुंच रहे हैं। Li ने प्रशिक्षण के लिए उपयोग की जाने वाली 24,000 समस्याओं का उल्लेख करते हुए लिखा, "इंटरनेट पर प्रतिस्पर्धी प्रोग्रामिंग समस्याओं की कुल संख्या लगभग उसी परिमाण की है।" "यह बताता है कि प्रतिस्पर्धी प्रोग्रामिंग डोमेन के भीतर, हम उच्च-गुणवत्ता वाले डेटा की सीमाओं तक पहुँच चुके हैं।"
यह अवलोकन विशेष रूप से विशेष क्षेत्रों में डेटा की कमी के बारे में AI समुदाय में बढ़ती चिंताओं को दर्शाता है। जबकि पारदर्शिता और खुला अभिगम सामूहिक प्रगति के लिए महत्वपूर्ण हैं, उच्च-गुणवत्ता वाले प्रशिक्षण डेटा की उपलब्धता जल्द ही उन्नत AI विकास के लिए एक प्राथमिक बाधा बन सकती है।