أحدث إصدار لشركة ناشئة صينية DeepSeek لنموذج لغة كبيرة جديد (LLM) ضجة في صناعة الذكاء الاصطناعي العالمية، حيث تميزت بالتفوق على تفوق منافس من أمثال Meta Platforms و OpenAI من شئ ChatGPT.
وتوقفت الشركة عن مقرها في هانغتشو في منشور على WeChat إنها الذي عصر نفس الاسم، DeepSeek V3، يأتي بـ 671 مليار معلمة ويتم تدريبه في حوالي الساعة 5.58 مليون دولار أمريكي، باستخدام موارد حساب أقل بكثير من التقدمات التي تقدمها شركات التكنولوجيا الكبرى.
يشير LLM إلى التكنولوجيا التي تدعم خدمات الذكاء الاصطناعي التوليدي مثل ChatGPT، في الذكاء الاصطناعي، يعد العدد الكبير من المعلمات محوريا في إذن LLM من التكيف مع البيانات الضرورية الأكثر أهمية، وتنبؤات دقيقة.
ووردًا في التقرير الفني للشركة الناشئة الصينية حول نموذج الذكاء الاصطناعي الجديد، قال عالم الكمبيوتر أندريه كارباثي – أحد أعضاء الفريق الوطني في OpenAI – في منشور على منصة التواصل الاجتماعي Social X: “تجعل برنامج DeepSeek الأمر يبدو سهلاً … من خلال إصدار الوزن للأرضيات ماجستير في القانون من الدرجة الأولى تم تدريبه بميزانية محدودة”.
شاهد الإستخدام المفتوح لإصدار المعلمات المدربة ليمتد أو الوزن فقط لنموذج الذكاء الاصطناعي، مما يسمح للجهة الخارجية باستخدام نموذج للاستدلال والضبط الدقيق فقط، ولا يتم توفير رمز تدريب نموذج NRF الأصلي وتفاصيل البنية ومنهجية التدريب.
يتم عرض روبوتات DeepSeek وChatGPT من OpenAI على شاشة الهاتف الذكية. الصورة: Shutterstock alt=يتم عرض روبوتات الدردشة DeepSeek وChatGPT من OpenAI على شاشة الهاتف الذكي.
يُظهِر تطوير DeepSeek لـ LLM strong – جزء بسيط من رأس المال الذي استثمره في شركات كبيرة مثل Meta و OpenAI – مدى تقدم شركات الذكاء الاصطناعي الصيني، على الرغم من العقوبات الأمريكية التي منعت وصولها إلى أشباه الموصلات المتقدمة المستخدمة في نماذج التدريب.
بالاستفادة من البنية الجديدة، تمكننا من العمل من حيث التكلفة، ووصلت DeepSeek إلى 2.78 مليون ساعة GPU فقط – وهو إجمالي الوقت الذي استخدمته وحدة رسومات لتدريب LLM – لنموذج V3 الخاص بها، وتمكنت من إنشاء شركة ناشئة وحدات الرسوميات H800 خصيصًا للصين من نفيديا.
وتشمل هذه أقل من 30.8 مليون مشاهدة GPU التي تغطيها Meta، الشركة الأم لفيسبوك، لتدريب نموذج Llama 3.1 على شرائح H100 الأكثر تقدمًا من Nvidia، والتي لم يتم تصديرها إلى الصين.
كتب كارباثي في منشوره على X: “يبدو أن DeepSeek V3 هو النموذج الشجاع حيث يبلغ 2.8 مليون ساعة GPU فقط”.
عرض النظام الفني الذي قدمته شركة DeepSeek عن V3 أن برنامجها LLM يتفوق على برنامج Meta’s Llama 3.1 وبرنامج Qwen 2.5 التابع لـ Alibaba في سلسلة من الفرق الفاحصة حرية اكتشاف قدرات الذكاء الاصطناعي من فهم النصوص وتوليدها، ومعرفة في المجال، والترم الخبراء لحل المشاكل الرياضية، وتمتلك شركة علي بابا صحيفة ساوث تشاينا مورنينج بوست.
وتم فصل DeepSeek في يوليو من العام الماضي بواسطة High-Flyer Quant، التي تستخدم الذكاء الاصطناعي لتشغيل أحد أكبر صناديق التجميل، حيث يدخل في البر الرئيسي للصين.
وأنفقت شركة High-Flyer 200 مليون يوان (27.4 مليون دولار أمريكي) وبدأت مجموعة الذكاء الاصطناعي Fire Flyer I بين عامي 2019 و2020، ثم فقرت مليار يوان لبناء Fire-Flyer II، وفقًا لشركة الإنترنت.
في إعلان في أبريل الماضي، قالت شركة High-Flyer إن هدف تطوير DeepSeek هو إنشاء “ذكاء اصطناعي للفوائد البشرية جمعاء”، وأصبح DeepSeek في وقت سابق من سلسلة نماذج الذكاء الاصطناعي، والتي يستخدمها المطورون لبناء تطبيقات الطرف الثالث، بالإضافة إلى روبوتات الدردشة الخاصة بها .
اكتشاف المزيد من موقع شبرون
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.