لذلك فإن شركة DeepSeek عن الجيل الأول من نماذج DeepSeek-R1 وDeepSeek-R1-Zero تعمل على مهام الاستدلال المعقدة، ويتم تدريب DeepSeek-R1-Zero فقط من خلال التعلم التعزيزي واسع النطاق (RL) دون الاعتماد على الضبط المضيئ للإشراف (SFT) كخطوة أولية.
وفقاً لشركة DeepSeek، ليوبث هذا المتوقع لظهور طبيعي لـ “العديد من السيطرة على الاستدلال العنيفة”، بما في ذلك الاعتماد الذاتي والتأمل وسلاسل فكرية للتنوع (CoT).
وشرح باحثو DeepSeek: “أن [DeepSeek-R1-Zero] “هو أول بحث يظل ثابتًا على أن قدرات الاستدلال لدى طلاب الماجستير في القانون يمكن تحفيزها من خلال التعلم التعزيزي فقط، دون الحاجة إلى ضبط الدقيق الدقيق للإشراف”.
ولم تؤكد هذا الإنجاز في الأسس المبتكرة للنموذج المشارك، بل يمهد الطريق أيضًا للتقدم الذي يسهم في التعلم التعزيزي في مجال الذكاء الاصطناعي والاستدلالي.
ومع ذلك، فإن قدرات DeepSeek-R1-Zero تأتي مع بعض القيود، ولكن التحديات الرئيسية “التكرارات اللانهائية، وضعف قابلية القراءة، وخلط اللغات”، والتي قد لا تعد ولا تحصى من عقبات كبيرة في التطبيقات في العالم، ولم تعالج هذه العيوب حقًا، وأصبحت DeepSeek نموذجها الرائد: ديب سيك-R1.
التفكير في DeepSeek-R1
يعتمد DeepSeek-R1 على سابقه من خلال دمج البيانات الأولية قبل تدريب التدريب البارد المعزز، الاشتراك في التدريب المتقدم على تعزيز قدرات التفكير في النموذج والعديد من القيود المذكورة في DeepSeek-R1-Zero.
كما أن DeepSeek-R1 يؤدي أداءً متساويًا لـ o1 الذي نال استحسانًا بشكل غير مناسب من OpenAI عبر مهام الرياضيات والتميز العام والمنطق، مما ينتج مكانته كمنافس رائد.
تم اختيار DeepSeek إتاحة كل من DeepSeek-R1-Zero وDeepSeek-R1 كم صدر مفتوحًا لجزء ستة أصغر حجمًا.
ومن بين هذه التوقعات، أظهرت نتائج DeepSeek-R1-Distill-Qwen-32B نتائج مذهلة، حتى أنها تفوقت على o1-mini من OpenAI عبر معايير متعددة.
المساهمة في DeepSeek رؤى حول خط تطوير نموذج التفكير، والذي يدمج أيضًا من الضبط الدقيق للضوء للإشراف والتعلم التعزيزي.
وذلك بموجب الشركة، التي تنطوي على مرحلتين من SFT الابتكارات الأساسية للعقلانية وغيرها من الأمور، بالإضافة إلى مرحلتين من التعلم التعزيزي مصممتين للتوصل إلى أساليب التفكير المتقدمة ومواءمة هذه القدرات مع التفضيلات البشرية.
تبنت DeepSeek MIT لمستودعاتها وأوزانها، مما يوسع الأذونات للاستخدام التجاري والتعديلات اللاحقة.
ويسمح بالأعمال المشتقة، مثل استخدام DeepSeek-R1 لتدريب نماذج اللغات الكبرى الأخرى (LLMs).
اكتشاف المزيد من موقع شبرون
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.