ستقوم مجموعة بيانات Meta الأحدث بتدريب محركات التعرف على الكلام على “مجموعات” مكبرات الصوت

ستقوم مجموعة بيانات Meta الأحدث بتدريب محركات التعرف على الكلام على “مجموعات” مكبرات الصوت

موقع شبرون للتقنية وأخبار العالم- متابعات تقنية: [ad_1]

إنه عام 2023 ، ومع الأسف ، لم يكتشف Siri ذلك بطريقة ما. على الرغم من تسونامي التطورات التي تمتعت بها أنظمة الذكاء الاصطناعي المولدة في الأشهر الأخيرة ، فإن المساعدين الاصطناعية على أجهزتنا المحمولة لا يزالون يعانون من صعوبة السمع تقريبًا كما كانوا في عام 2011. ومع ذلك ، تعد مجموعة البيانات المطورة حديثًا من Meta AI بتحسين أداء مثل أدوات التعرف التلقائي على الكلام (ASR) من خلال تجميع الكلام على “مستوى الكلام”.

لطالما سعت Meta إلى تحسين أداء ASRs ، وتعليمهم التدريب دون مساعدة النصوص ، والتعرف على أكثر من 4000 لغة منطوقة وحتى قراءة الشفاه بكفاءة أعلى من الخبراء البشريين. ومع ذلك ، يتم تنظيم العديد من مجموعات البيانات المستخدمة لتدريب نماذج ASR حسب الفئة العمرية والجنس والجنسية واللهجة الإنجليزية – مما يحد من تنوع النطق التي يتم تدريب النماذج عليها ، مما يعيق وظيفتها في النهاية في فهم قطاع عريض من المستخدمين .

للتغلب على هذا ، طورت Meta AI مجموعة بيانات تعتمد بدلاً من ذلك على طريقة تجميع الكلام. أوضح فريق Meta AI في منشور المدونة يوم الأربعاء “بدلاً من تقسيم مجموعة بيانات استنادًا إلى المعلومات الديموغرافية للمتحدثين … تجمع الخوارزمية المقترحة خطابنا على مستوى الكلام”. ستحتوي مجموعة واحدة على أقوال مماثلة من مجموعة متنوعة من المتحدثين. يمكننا بعد ذلك تدريب نموذجنا باستخدام المجموعات المختلفة واستخدام مجموعات بيانات الإنصاف لقياس كيفية تأثير النموذج على النتائج عبر المجموعات الديموغرافية المختلفة “.

تتضمن مجموعة البيانات الناتجة عن Meta ما يزيد قليلاً عن 27000 كلام أمر تم جمعها من 595 متطوعًا أمريكيًا مدفوع الأجر. تدور أقوالهم حول سبعة موضوعات رئيسية – الموسيقى ، والتقاط ، والمرافق ، والتحكم في الإشعارات ، والرسائل ، والاتصال والإملاء – يمكن للباحثين الآخرين استخدامها لتدريب نماذجهم الخاصة والمساعدين الرقميين عليها. تضمنت الموجهات سؤال المتحدثين عن كيفية البحث الصوتي عن أغنية أو وضع خطط مع الأصدقاء وتحديد مكان الاجتماع.

لتقييم هذا النظام الجديد ، قامت Meta أولاً بتدريب نموذج على مقاطع فيديو Facebook باللغة الإنجليزية المتاحة للجمهور. قام الباحثون بعد ذلك بتقييم هذا النموذج باستخدام مجموعتي بيانات أخريين: المحادثات العرضية الإصدار 1 ، والتي أصدرتها Meta في عام 2021 ، و “مجموعة بيانات غير محددة تم جمعها من مورد بيانات لـ ASR” ، والتي تتضمن 48000 كلام منطوق من 867 فردًا.

أثبتت النتائج الأولية أنها واعدة ، مع تحسينات في أداء النموذج “على جميع المجموعات الديموغرافية في مجموعات بيانات التقييم لدينا ، على الرغم من أن أكبر المكاسب إلى حد بعيد هي فيما يتعلق بمزيد من الشمولية لللهجات ،” بحسب المدونة. بشكل عام ، زاد أداء ASR بنسبة 10 بالمائة باستخدام طريقة التجميع ، مع تحقيق مكاسب كبيرة من الحشد الذين تتراوح أعمارهم بين 66 و 85 عامًا أيضًا ، وهي فئة ديموغرافية ناقصة التمثيل تقليديًا في مساحة الأوامر الصوتية.

كتب الباحثون: “تعد الخوارزمية المقترحة لدينا جزءًا من تركيز Meta طويل المدى على الذكاء الاصطناعي المسؤول وجزءًا واحدًا فقط من نهجنا الشامل لمعالجة قضايا الإنصاف”. بالنظر إلى المستقبل ، يستكشف الفريق تكييف النظام مع اللغات الأخرى.

[ad_2]

Comments

No comments yet. Why don’t you start the discussion?

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *