ओपनई के संभावित प्रतिद्वंद्वी के रूप में देखी जाने वाली एक नई एआई कंपनी दीपसेक ने सोशल मीडिया में बड़े पैमाने पर सफलता हासिल की है, जो वैश्विक शेयर बाजारों को एक उन्माद में भेजती है। हालांकि, बर्नस्टीन की एक हालिया रिपोर्ट ने चेतावनी दी कि जबकि कंपनी की उपलब्धियां प्रभावशाली हैं, केवल $ 5 मिलियन के लिए Openai के बराबर AI प्रणाली के निर्माण के दावे सच नहीं हैं।
रिपोर्ट में कहा गया है कि दावा भ्रामक है और बड़ी तस्वीर को प्रतिबिंबित नहीं करता है।
बर्नस्टीन ने कहा, “हम मानते हैं कि दीपसेक ने” यूएसडी 5 एम के लिए ओपनई का निर्माण नहीं किया “; मॉडल शानदार दिखते हैं, लेकिन हमें नहीं लगता कि वे चमत्कार हैं; और सप्ताहांत में ट्विटर-वर्स पैनिक ओवरब्लाउन लगता है”।
रिपोर्ट में कहा गया है कि दीपसेक ने दो मुख्य एआई मॉडल विकसित किए: द डीपसेक-वी 3 और डीपसेक आर 1। V3 मॉडल, एक बड़ी भाषा मॉडल, एक मिश्रण-के-विशेषज्ञों (MOE) वास्तुकला का उपयोग करता है, जो पारंपरिक बड़े मॉडलों की तुलना में कम कंप्यूटिंग संसाधनों का उपयोग करते हुए उच्च प्रदर्शन को प्राप्त करने के लिए कई छोटे मॉडल को जोड़ती है।
दूसरी ओर, वी 3 मॉडल 671 बिलियन पैरामीटर का दावा करता है, किसी भी समय 37 बिलियन सक्रिय है, और मेमोरी के उपयोग को कम करने के लिए मल्टी-हेड लेटेंट ध्यान (एमएचएलए) जैसे नवाचारों के साथ शामिल किया गया है और अधिक दक्षता के लिए एफपी 8 कम्प्यूटेशन के साथ मिश्रित-सटीक प्रशिक्षण को कम करता है। ।
क्या यह वास्तव में $ 5 मिलियन था?
V3 मॉडल के प्रशिक्षण में दो महीने की अवधि में 2,048 NVIDIA H800 GPU का एक क्लस्टर शामिल था, जो लगभग 5.5 मिलियन GPU घंटे तक है।
जबकि कुछ अनुमानों ने प्रशिक्षण की लागत को लगभग $ 5 मिलियन में रखा, रिपोर्ट में उजागर किया गया कि यह आंकड़ा केवल कम्प्यूटेशनल संसाधनों पर विचार करता है, जिससे अनुसंधान, प्रयोग और अन्य विकासात्मक खर्चों से संबंधित महत्वपूर्ण लागतों को छोड़ दिया जाता है।
दीपसेक आर 1 मॉडल तर्क क्षमताओं को बढ़ाने के लिए सुदृढीकरण सीखने (आरएल) और अन्य तकनीकों का उपयोग करके वी 3 की नींव पर बनाता है। R1 मॉडल ने तर्क कार्यों में Openai के मॉडल के साथ प्रतिस्पर्धी रूप से प्रदर्शन किया है। हालांकि, बर्नस्टीन ने बताया कि आर 1 मॉडल को विकसित करने के लिए आवश्यक अतिरिक्त संसाधन पर्याप्त थे, हालांकि डीपसेक के शोध पत्र में विस्तृत नहीं थे।
प्रचार पर टिप्पणी करते हुए, बर्नस्टीन ने कहा कि दीपसेक के मॉडल प्रभावशाली हैं।
उदाहरण के लिए, V3 मॉडल कम्प्यूटेशनल संसाधनों के एक अंश का उपभोग करते हुए भाषा, कोडिंग और गणित में अन्य बड़े मॉडलों की तुलना में बेहतर प्रदर्शन करता है। वी 3 मॉडल को पूर्व-प्रशिक्षण के लिए केवल 2.7 मिलियन जीपीयू घंटे, या कुछ प्रमुख मॉडलों के लिए आवश्यक गणना संसाधनों का केवल 9 प्रतिशत आवश्यक था।
अंत में, जबकि दीपसेक की प्रगति उल्लेखनीय है, रिपोर्ट ने अतिरंजित दावों के सामने सावधानी का आग्रह किया। जबकि कंपनी का काम ग्राउंडब्रेकिंग है, एक बनाने की धारणा ओपनई प्रतियोगी केवल $ 5 मिलियन के लिए झूठा प्रतीत होता है।