‘दीपसेक ने 5 मीटर के लिए ओपनई का निर्माण नहीं किया’: बर्नस्टीन ने चीनी कंपनी के दावों को खारिज कर दिया | HCP TIMES

hcp times

'दीपसेक ने 5 मीटर के लिए ओपनई का निर्माण नहीं किया': बर्नस्टीन ने चीनी कंपनी के दावों को खारिज कर दिया

ओपनई के संभावित प्रतिद्वंद्वी के रूप में देखी जाने वाली एक नई एआई कंपनी दीपसेक ने सोशल मीडिया में बड़े पैमाने पर सफलता हासिल की है, जो वैश्विक शेयर बाजारों को एक उन्माद में भेजती है। हालांकि, बर्नस्टीन की एक हालिया रिपोर्ट ने चेतावनी दी कि जबकि कंपनी की उपलब्धियां प्रभावशाली हैं, केवल $ 5 मिलियन के लिए Openai के बराबर AI प्रणाली के निर्माण के दावे सच नहीं हैं।
रिपोर्ट में कहा गया है कि दावा भ्रामक है और बड़ी तस्वीर को प्रतिबिंबित नहीं करता है।
बर्नस्टीन ने कहा, “हम मानते हैं कि दीपसेक ने” यूएसडी 5 एम के लिए ओपनई का निर्माण नहीं किया “; मॉडल शानदार दिखते हैं, लेकिन हमें नहीं लगता कि वे चमत्कार हैं; और सप्ताहांत में ट्विटर-वर्स पैनिक ओवरब्लाउन लगता है”।
रिपोर्ट में कहा गया है कि दीपसेक ने दो मुख्य एआई मॉडल विकसित किए: द डीपसेक-वी 3 और डीपसेक आर 1। V3 मॉडल, एक बड़ी भाषा मॉडल, एक मिश्रण-के-विशेषज्ञों (MOE) वास्तुकला का उपयोग करता है, जो पारंपरिक बड़े मॉडलों की तुलना में कम कंप्यूटिंग संसाधनों का उपयोग करते हुए उच्च प्रदर्शन को प्राप्त करने के लिए कई छोटे मॉडल को जोड़ती है।
दूसरी ओर, वी 3 मॉडल 671 बिलियन पैरामीटर का दावा करता है, किसी भी समय 37 बिलियन सक्रिय है, और मेमोरी के उपयोग को कम करने के लिए मल्टी-हेड लेटेंट ध्यान (एमएचएलए) जैसे नवाचारों के साथ शामिल किया गया है और अधिक दक्षता के लिए एफपी 8 कम्प्यूटेशन के साथ मिश्रित-सटीक प्रशिक्षण को कम करता है। ।
क्या यह वास्तव में $ 5 मिलियन था?
V3 मॉडल के प्रशिक्षण में दो महीने की अवधि में 2,048 NVIDIA H800 GPU का एक क्लस्टर शामिल था, जो लगभग 5.5 मिलियन GPU घंटे तक है।
जबकि कुछ अनुमानों ने प्रशिक्षण की लागत को लगभग $ 5 मिलियन में रखा, रिपोर्ट में उजागर किया गया कि यह आंकड़ा केवल कम्प्यूटेशनल संसाधनों पर विचार करता है, जिससे अनुसंधान, प्रयोग और अन्य विकासात्मक खर्चों से संबंधित महत्वपूर्ण लागतों को छोड़ दिया जाता है।
दीपसेक आर 1 मॉडल तर्क क्षमताओं को बढ़ाने के लिए सुदृढीकरण सीखने (आरएल) और अन्य तकनीकों का उपयोग करके वी 3 की नींव पर बनाता है। R1 मॉडल ने तर्क कार्यों में Openai के मॉडल के साथ प्रतिस्पर्धी रूप से प्रदर्शन किया है। हालांकि, बर्नस्टीन ने बताया कि आर 1 मॉडल को विकसित करने के लिए आवश्यक अतिरिक्त संसाधन पर्याप्त थे, हालांकि डीपसेक के शोध पत्र में विस्तृत नहीं थे।
प्रचार पर टिप्पणी करते हुए, बर्नस्टीन ने कहा कि दीपसेक के मॉडल प्रभावशाली हैं।
उदाहरण के लिए, V3 मॉडल कम्प्यूटेशनल संसाधनों के एक अंश का उपभोग करते हुए भाषा, कोडिंग और गणित में अन्य बड़े मॉडलों की तुलना में बेहतर प्रदर्शन करता है। वी 3 मॉडल को पूर्व-प्रशिक्षण के लिए केवल 2.7 मिलियन जीपीयू घंटे, या कुछ प्रमुख मॉडलों के लिए आवश्यक गणना संसाधनों का केवल 9 प्रतिशत आवश्यक था।
अंत में, जबकि दीपसेक की प्रगति उल्लेखनीय है, रिपोर्ट ने अतिरंजित दावों के सामने सावधानी का आग्रह किया। जबकि कंपनी का काम ग्राउंडब्रेकिंग है, एक बनाने की धारणा ओपनई प्रतियोगी केवल $ 5 मिलियन के लिए झूठा प्रतीत होता है।


Leave a Comment