انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح. يتعلم أكثر
أعلنت شركة Stability AI ، الشركة التي تمول تطوير نماذج الذكاء الاصطناعي التوليدية مفتوحة المصدر مثل Stable Diffusion و Dance Diffusion ، اليوم عن إطلاق مجموعة StableLM لنماذج اللغات.
بعد تطوير نماذج لمجالات متعددة ، بما في ذلك الصور والصوت والفيديو والأبعاد الثلاثية والبيولوجيا ، فهذه هي المرة الأولى التي يقفز فيها المطور إلى لعبة نموذج اللغة التي تهيمن عليها حاليًا شركات التكنولوجيا الثقيلة مثل OpenAI و Meta و Stanford.
العرض الأول للجناح ، وهو نموذج اللغة مفتوح المصدر StableLM ، متاح الآن بلغة ألفا ، ويضم 3 مليارات و 7 مليارات من المعلمات ، وكلاهما مدربين على 800 مليار رمز بيانات ، مع نموذج أكبر من 15 إلى 65 مليار معلمة لمتابعة.
>> لا تفوّت أحدث إصدار خاص لدينا: مراكز البيانات في عام 2023: كيفية إنجاز المزيد بموارد أقل. <<
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
في عام 2022 ، قدم Stability AI نشر Stable Diffusion ، وهو نموذج صور مفتوح المصدر رائد يوفر بديلاً شفافًا وقابلًا للتطوير للذكاء الاصطناعي الخاص. مع إطلاق مجموعة StableLM ، تهدف الشركة إلى توضيح كيف يمكن للنماذج الصغيرة والفعالة أن توفر أداءً عاليًا مع التدريب المناسب.
يعد StableLM امتدادًا لتقنية الذكاء الاصطناعي التأسيسية للشركة ، والتي تعزز الشفافية وإمكانية الوصول والدعم في تصميم الذكاء الاصطناعي. الاستقرار تعتقد منظمة العفو الدولية أن الإصدار يمثل خطوة مهمة أخرى نحو جعل تقنية الذكاء الاصطناعي الأساسية في متناول الجميع ، مع العديد من التطبيقات ، بما في ذلك إنشاء النصوص والتعليمات البرمجية.
المصدر المفتوح هو الجديد الرائع
تعتمد مجموعة StableLM على العمل السابق لـ Stability AI ، بما في ذلك نموذج صورة Stable Diffusion الرائد ، والذي قدم بديلاً مفتوح المصدر لنماذج صور AI التوليدية الملكية مثل DALL-E. بالإضافة إلى ذلك ، يمكن لنموذج اللغة المستقرة إنشاء نص ورمز ، مما يجعله مثاليًا للعديد من تطبيقات المصب.
على الرغم من صغر حجمه ، إلا أن النموذج فعال بشكل مدهش في مهام المحادثة والتشفير (على غرار ChatGPT من OpenAI) نظرًا لتدريبه على مجموعة بيانات تجريبية. يتمتع الذكاء الاصطناعي بالثبات بسجل حافل من نماذج اللغات السابقة ذات المصادر المفتوحة ، مثل GPT-J و GPT-NeoX ومجموعة Pythia ، المدربة على مجموعة بيانات The Pile مفتوحة المصدر.
يتم تدريب نماذج StableLM-Alpha على مجموعة البيانات الجديدة التي تعتمد على The Pile ، والتي تحتوي على 1.5 تريليون رمز مميز. من المفترض أن تكون “مجموعة البيانات التجريبية” الجديدة أكبر بثلاث مرات من The Pile ، وطول السياق لنماذج StableLM هو 4096 رمزًا مميزًا.
الاستقرار تلتزم منظمة العفو الدولية بشدة بالشفافية وإمكانية الوصول في تصميم الذكاء الاصطناعي ، ومجموعة StableLM ليست استثناءً. يتم تشجيع المطورين على فحص واستخدام وتكييف نماذج قاعدة StableLM للأغراض التجارية أو البحثية ، وفقًا لشروط ترخيص CC BY-SA-4.0. بموجب الترخيص ، يجب عليك منح الفضل لـ Stability AI ، وتوفير رابط للترخيص ، والإشارة إلى ما إذا تم إجراء تغييرات.
وفقًا لوثيقة الترخيص ، يجوز للمستخدمين القيام بذلك بأي طريقة معقولة ، ولكن ليس بأي طريقة توحي بأن شركة Stability AI تدعمها أو تدعم استخدامها.
في منشور ، أعلنت الشركة أن مجموعة StableLM تتضمن أيضًا مجموعة من نماذج البحث التي تم ضبط التعليمات بدقة ، باستخدام مزيج من خمس مجموعات بيانات حديثة مفتوحة المصدر لوكلاء المحادثة. كدليل على المفهوم ، قامت الشركة بضبط نموذج StableLM مع إجراء Stanford Alpaca باستخدام مزيج من خمس مجموعات بيانات حديثة لوكلاء المحادثة: Stanford’s Alpaca و Nomic-AI’s gpt4all و RyokoAI’s ShareGPT52K ومجموعات بيانات Databricks لمختبرات Dolly و Anthropic’s HH و سيتم إطلاق هذه النماذج كـ StableLM-Tuned-Alpha.
قالت منظمة العفو الدولية الاستقرار إن التقرير الفني القادم سيوثق مواصفات النموذج وإعدادات التدريب.
هذه النماذج مخصصة أيضًا للاستخدام البحثي فقط ويتم إصدارها بموجب ترخيص CC BY-NC-SA 4.0 غير التجاري ، بما يتماشى مع ترخيص Alpaca الخاص بجامعة ستانفورد.
أصبح سباق LLM أكبر
تعد مجموعة بيانات التدريب التي يبلغ حجمها 800 مليار رمز جديرة بالملاحظة مقارنة بنموذج لغة Meta LLaMA ، الذي تم تدريبه على 1 تريليون رمز لـ 7 مليارات معلمة.
في الآونة الأخيرة ، أعلنت شركة Together ومقرها مينلو بارك إطلاق RedPajama ، وهو مشروع مفتوح المصدر تم تطويره بالتعاون مع العديد من مؤسسات الذكاء الاصطناعي بما في ذلك Ontocord.ai و ETH DS3Lab و Stanford CRFM و Hazy Research و MILA Québec AI Institute.
يشبه هذا المشروع تمامًا نهج Stability AI ، الذي يهدف إلى إنشاء نماذج لغة كبيرة (LLMs) مفتوحة المصدر بالكامل وتقود الصناعة في الأداء. تحتوي مجموعة البيانات الأولية الصادرة عن RedPajama على 1.2 تريليون رمز وتلتزم بوصفة LLaMA ، على الرغم من كونها أصغر بكثير من نموذج Meta LLaMA. مجموعة البيانات الخاصة به متاحة للجمهور على Hugging Face ، بينما يمكن استخدام نصوص Apache 2.0 على Github لإعادة إنتاج النتائج.
وفقًا لـ Stability AI ، تعد نماذج اللغة العمود الفقري للاقتصاد الرقمي ، ويجب أن يكون لكل شخص صوت في تصميمها. من خلال توفير وصول دقيق إلى النماذج ، تأمل الشركة في تشجيع تطوير تقنيات القابلية للتفسير والسلامة بما يتجاوز ما هو ممكن مع النماذج المغلقة. تتوفر نماذج الشركة الآن في مستودع GitHub الخاص بها ، وتخطط Stability AI لنشر تقرير تقني كامل في المستقبل القريب.
الاستقرار تسعى AI أيضًا إلى تنمية فريقها وتبحث عن الأفراد المتحمسين لإضفاء الطابع الديمقراطي على الوصول إلى هذه التكنولوجيا وذوي الخبرة في LLMs. للمهتمين ، تقبل الشركة الطلبات على موقعها على الإنترنت.
بالإضافة إلى عملها على مجموعة StableLM ، تطلق Stability AI برنامج RLHF الذي يعتمد على الجمهور ويعمل مع جهود المجتمع مثل Open Assistant ، وهي مبادرة لإنشاء مجموعة بيانات مفتوحة المصدر لمساعدي الذكاء الاصطناعي.
تخطط الشركة لإصدار المزيد من النماذج قريبًا وتقول إنها متحمسة للتعاون مع المطورين والباحثين لطرح مجموعة StableLM.
مهمة VentureBeat هو أن تكون ساحة المدينة الرقمية لصناع القرار التقنيين لاكتساب المعرفة حول تكنولوجيا المؤسسات التحويلية والمعاملات. اكتشف إحاطاتنا.
اكتشاف المزيد من موقع شبرون
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.