مقالات التقنية

مرحبًا أليكسا ، ما التالي؟ اختراق سقف تكنولوجيا الصوت


الإعلان الأخير من أمازون عن خفض عدد الموظفين والميزانية لقسم Alexa قد اعتبر المساعد الصوتي “فشلًا ذريعًا”. في أعقاب ذلك ، كان هناك نقاش حول أن الصوت كصناعة في حالة ركود (أو أسوأ من ذلك ، في حالة تراجع).

يجب أن أقول ، أنا لا أوافق.

في حين أنه من الصحيح أن هذا الصوت قد وصل إلى سقف حالة الاستخدام ، فإن هذا لا يعني الركود. إنه يعني ببساطة أن الحالة الحالية للتكنولوجيا لها بعض القيود التي تعتبر مهمة لفهم ما إذا كنا نريدها أن تتطور.

ببساطة ، لا تعمل تقنيات اليوم بطريقة تلبي المعايير البشرية. للقيام بذلك يتطلب ثلاث قدرات:

  1. فهم متفوق للغة الطبيعية (NLU): هناك الكثير من الشركات الجيدة التي غزت هذا الجانب. القدرات التكنولوجية تسمح لهم بالتقاط ما تقوله ومعرفة الطرق المعتادة التي قد يذكر بها الناس ما يريدون. على سبيل المثال ، إذا قلت ، “أريد هامبرغر مع البصل” ، فهذا يعلم أنك تريد البصل على الهامبرغر ، وليس في كيس منفصل.
  2. استخراج البيانات الوصفية الصوتية: يجب أن تكون تقنية الصوت قادرة على تحديد ما إذا كان المتحدث سعيدًا أو محبطًا ، ومدى بعده عن الميكروفون وهوياتهم وحساباتهم. يحتاج إلى التعرف على الصوت بدرجة كافية حتى يعرف متى تتحدث أنت أو أي شخص آخر.
  3. تغلب على الحديث المتبادل والضوضاء غير المقيدة: القدرة على الفهم في وجود الحديث المتبادل حتى عندما يتحدث الآخرون وعندما يكون هناك ضوضاء (حركة المرور ، الموسيقى ، الثرثرة) لا يمكن الوصول إليها بشكل مستقل من خلال خوارزميات إلغاء الضوضاء.

هناك شركات تحقق أول اثنين. تم تصميم هذه الحلول عادةً للعمل في بيئات الصوت التي تفترض وجود مكبر صوت واحد مع ضوضاء خلفية تم إلغاؤها في الغالب. ومع ذلك ، في بيئة عامة نموذجية مع مصادر متعددة للضوضاء ، هذا افتراض مشكوك فيه.

تحقيق “الكأس المقدسة” لتكنولوجيا الصوت

من المهم أيضًا أن نتوقف لحظة وشرح ما أعنيه بالضوضاء التي يمكن ولا يمكن إلغاؤها. يمكن إلغاء الضوضاء التي تتمتع بوصول مستقل لها (الضوضاء المقيدة). على سبيل المثال ، تتمتع السيارات المجهزة بالتحكم الصوتي بوصول إلكتروني مستقل (عبر خدمة البث المباشر) إلى المحتوى الذي يتم تشغيله على مكبرات الصوت في السيارة.

يضمن هذا الوصول إمكانية إلغاء الإصدار الصوتي لهذا المحتوى كما تم التقاطه على الميكروفونات باستخدام خوارزميات راسخة. ومع ذلك ، لا يتمتع النظام بوصول إلكتروني مستقل إلى المحتوى الذي يتحدث به ركاب السيارة. هذا ما أسميه ضوضاء غير مقيدة ولا يمكن إلغاؤها.

هذا هو السبب في أن القدرة الثالثة – التغلب على الحديث المتبادل والضوضاء غير المقيدة – هي سقف تكنولوجيا الصوت الحالية. تحقيق ذلك جنبًا إلى جنب مع الاثنين الآخرين هو مفتاح اختراق السقف.

يمنحك كل منها بمفرده إمكانات مهمة ، لكن الثلاثة معًا – الكأس المقدسة لتكنولوجيا الصوت – تمنحك الوظائف.

احاديث المدينة

مع استعداد Alexa لخسارة 10 مليارات دولار هذا العام ، من الطبيعي أن تصبح حالة اختبار للخطأ الذي حدث. فكر في كيفية تفاعل الأشخاص عادةً مع مساعد الصوت الخاص بهم:

“أي ساعة؟”

“ضبط مؤقت على …”

“ذكرني لكي…”

“اتصل بأمي – لا تتصل بأمي.”

“استدعاء رون.”

لا يتفاعل المساعدون الصوتيون معك بشكل هادف أو يقدمون الكثير من المساعدة التي لا يمكنك تحقيقها في بضع دقائق. إنهم يوفرون لك بعض الوقت ، بالتأكيد ، لكنهم لا ينجزون مهام ذات مغزى ، أو حتى مهام معقدة بعض الشيء.

من المؤكد أن Alexa كانت رائدة في مجال المساعدة الصوتية العامة ، ولكن كانت لديها قيود عندما يتعلق الأمر بعمليات النشر التجارية المتخصصة والمستقبلية. في هذه الحالات ، من الضروري أن يكون للمساعدين الصوتيين أو الواجهات إمكانيات متخصصة لحالة الاستخدام مثل استخراج البيانات الوصفية الصوتية ، والتفاعل الشبيه بالبشر مع المستخدم ومقاومة الحديث المتبادل في الأماكن العامة.

كما كتب مارك بيسكي ، “[Voice assistants] لم يتم تصميمها أبدًا لتلبية احتياجات المستخدم. مستخدمو المساعدين الصوتيين ليسوا من عملائها – إنهم المنتج “.

هناك عدد من الصناعات التي يمكن أن تتحول من خلال تفاعلات عالية الجودة مدفوعة بالصوت. خذ مثلاً صناعات المطاعم والضيافة. نرغب في تجارب شخصية.

نعم ، أريد إضافة البطاطس المقلية إلى طلبي.

نعم، أريد تسجيل وصول متأخر، شكرًا لك على تذكيري بأن رحلتي وصلت في وقت متأخر من ذلك اليوم.

تستثمر سلاسل الوجبات السريعة الوطنية مثل ماكدونالدز وتاكو بيل في الذكاء الاصطناعي للمحادثة لتبسيط وتخصيص أنظمة طلب السيارات.

بمجرد أن يكون لديك تقنية صوتية تلبي المعايير البشرية ، يمكن أن تدخل في إعدادات تجارية ومؤسساتية حيث لا تعد تقنية الصوت مجرد رفاهية ، ولكنها في الواقع تخلق كفاءات أعلى وتوفر قيمة ذات مغزى.

لعبها بالاذن

لتمكين التحكم الذكي عن طريق الصوت في هذه السيناريوهات ، تحتاج التكنولوجيا إلى التغلب على الضوضاء غير المقيدة والتحديات التي يمثلها الحديث المتبادل.

لا يحتاج فقط إلى سماع صوت الاهتمام ولكن لديه القدرة على استخراج البيانات الوصفية في الصوت ، مثل بعض المؤشرات الحيوية. إذا تمكنا من استخراج البيانات الوصفية ، فيمكننا أيضًا البدء في فتح قدرة تقنية الصوت على فهم المشاعر والنية والمزاج.

ستسمح البيانات الوصفية الصوتية أيضًا بالتخصيص. سوف يتعرف الكشك على هويتك ، ويسحب حساب المكافآت الخاص بك ويسأل عما إذا كنت تريد فرض رسوم على بطاقتك.

إذا كنت تتفاعل مع كشك مطعم لطلب الطعام عبر الصوت ، فمن المحتمل أن يكون هناك كشك آخر قريب مع أشخاص آخرين يتحدثون ويطلبون. لا يجب أن يتعرف فقط على صوتك على أنه مختلف ، ولكنه يحتاج أيضًا إلى التمييز بين صوتك وصوتهم وعدم الخلط بين أوامرك.

هذا ما يعنيه أداء تقنية الصوت إلى مستوى المعيار البشري.

أستمع لي

كيف نتأكد من اختراق الصوت لهذا السقف الحالي؟

أود أن أزعم أن الأمر لا يتعلق بالقدرات التكنولوجية. لدينا القدرات. طورت الشركات NLU لا يصدق. إذا كان بإمكانك تجميع أهم ثلاث إمكانيات لتقنية الصوت لتلبي المعايير البشرية ، فأنت على وشك الوصول إلى 90٪.

يتطلب الميل الأخير لتكنولوجيا الصوت بعض الأشياء.

أولاً ، نحتاج إلى المطالبة باختبار تقنية الصوت في العالم الحقيقي. في كثير من الأحيان ، يتم اختباره في إعدادات معملية أو بمحاكاة ضوضاء. عندما تكون “في البرية” ، فأنت تتعامل مع بيئات صوتية ديناميكية حيث تتقاطع الأصوات والأصوات المختلفة.

ستفشل دائمًا تقنية الصوت التي لم يتم اختبارها في العالم الحقيقي عندما يتم نشرها في العالم الحقيقي. علاوة على ذلك ، يجب أن تكون هناك معايير معيارية يجب أن تلبيها تكنولوجيا الصوت.

ثانيًا ، يجب نشر تقنية الصوت في بيئات محددة حيث يمكن حقًا دفعها إلى أقصى حدودها وحل المشكلات الحرجة وخلق الكفاءات. سيؤدي ذلك إلى اعتماد أوسع لتقنيات الصوت في جميع المجالات.

نحن على وشك الانتهاء. اليكسا ليست بأي حال من الأحوال إشارة إلى أن تقنية الصوت آخذة في الانخفاض. في الواقع ، كان هذا بالضبط ما تحتاجه الصناعة لإلقاء الضوء على مسار جديد للمضي قدمًا وتحقيق كل ما تقدمه تقنية الصوت بالكامل.

حميد نواب د. هو مؤسس وكبير العلماء في Yobe.

صانعي القرار

مرحبًا بك في مجتمع VentureBeat!

DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص الفنيون الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.

إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.

يمكنك حتى التفكير في المساهمة بمقال خاص بك!

قراءة المزيد من DataDecisionMakers

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى