قرقرة المعدة. هذا امر عادي. يتحرك صوت عضلات الجهاز الهضمي. يقوم جسم الإنسان بعمله. في بعض الأحيان ، إذا كان هناك ميكروفون في مكان قريب ، يتم التقاط تلك الأصوات المزعجة والغرغرة.
لا داعي للقلق على رواة الكتب المسموعة بالذكاء الاصطناعي بشأن ضوضاء الجهاز الهضمي الغريبة ، لكن ليا أليرز والمهندس كريج هينكل ليسا روبوتات. إنهم بشر ، يسجلون لـ Nashville Audiobook Productions في منتصف شهر يناير ، قلقون بشأن القرقرة ، ويناقشون مكان التركيز على كلمة “زيادة” ، ويميلون إلى العمل التفصيلي لإعطاء صوت “حقيقي” لكتاب حول كيف يتواصل الأزواج.
يقع استوديو NAP في The Rukkus Room في ناشفيل بولاية تينيسي ، وهو نفس المكان الذي سجلت فيه تايلور سويفت ألبومها الأول الذي يحمل العنوان البلاتيني سبع مرات. رائحة القهوة تتغلغل في غرفة الانتظار. يتم ضبط Hinkle على كل كلمة تخرج من فم Allers ، وهي تنظر من جهاز iPad مع نص الكتاب إلى شاشة كبيرة تجلس على لوحة الصوت في الاستوديو.
“أريد الحصول على المزيد من المشاعر في هذه الأسئلة ،” قال أليرز لهينكل قبل إعادة تشغيل قسم من فصل.
الكتب المسموعة تزدهر. من المتوقع أن يصل حجم السوق إلى 33.5 مليار دولار بحلول عام 2030 ، ارتفاعًا من حوالي 4.2 مليار دولار في عام 2021 ، وفقًا لشركة أكيومن للأبحاث والاستشارات. سواء كان هذا نتيجة لارتفاع شعبية البودكاست ، أو مسألة راحة الاستماع ، أو نتيجة ثانوية للوباء ، فإنه لم يفلت من اهتمام شركات التكنولوجيا والزحف الحتمي للذكاء الاصطناعي.
في عام 2023 ، كانت الإثارة حول إمكانات الذكاء الاصطناعي عالية ، وكذلك القلق بشأن سرقة الوظائف من المبدعين المتعثرين. يمكن لـ ChatGPT كتابة أي شيء بدءًا من خطابات التفويض المسبق للتأمين وحتى السير على تطبيق المواعدة ، بدرجات متفاوتة من النجاح. منصات الذكاء الاصطناعي مثل Lensa AI و أوبن إيه آي من Dall-E ابصق الفن الذي تم إنشاؤه بواسطة الذكاء الاصطناعي ، تاركًا الكثيرين الذين يكسبون لقمة العيش في إنشاء الفن الرقمي قلقين بشأن مستقبلهم.
تعمل شركات التكنولوجيا بما في ذلك Apple و Google على سرد الكتب الصوتية بالذكاء الاصطناعي منذ فترة حتى الآن. في عام 2022 ، طرحت Google خدماتها للناشرين في ستة بلدان ، بما في ذلك الولايات المتحدة وكندا. لدى رواة الذكاء الاصطناعي في Google أسماء مثل أرشي ، الذي يبدو بريطانيًا ، وسانتياغو ، الذي يتحدث الإسبانية. في أوائل يناير ، قدمت شركة آبل مجموعة مستقرة من أصوات الذكاء الاصطناعي بأسماء مثل Madison و Jackson ، يمكن للمؤلفين والناشرين المستقلين الذين يبيعون كتبهم على Apple Books النقر لقراءة الأنواع من القصص الخيالية إلى الرومانسية.
الوجود المتزايد للذكاء الاصطناعي في روايات الكتب المسموعة له رواة بشريون مثل تانيا إيبي في مراحل مختلفة من التوتر.
الراوية الحائزة على جائزة تانيا إيبي.
قال إيبي ، الراوي المقيم في غراند رابيدز بولاية ميشيغان والذي سجل أكثر من 1000 كتاب في السنوات الـ 21 الماضية: “لا أعرف ما إذا كانت هذه ستكون عملي بدوام كامل بعد خمس سنوات”.
يقول الرواة مثل إبي إن إنسانيتهم هي بالضبط ما يساعدهم على أداء وظائفهم. يتخذ الرواة قرارات بشأن كل شيء ، خاصة مع الخيال ، من صوت الشخصية إلى كيفية توصيل الفروق الدقيقة والعاطفة بطريقة تعكس القصة.
قالت كاثلين لي ، الراوية في أوستن بولاية تكساس: “إذا كانت إحدى الشخصيات تبكي بعد وفاة والدها ، يجب أن أنقل تلك الدموع والصيحات في خطابها”.
يصف الرواة العلاقة الحميمة لكونك صوتًا في أذن المستمع ، ويتساءلون عما إذا كان حتى أكثر الذكاء الاصطناعي حيويًا سيقع في الوادي الخارق. إنهم قلقون من أن الخطر يكمن في تعطيل التجربة.
يمكن أن تتراوح أصوات الذكاء الاصطناعي من المتكلمة إلى المقنعة تمامًا. ولكن حتى أكثر السوائل يمكن أن تفجر أسلاك التعثر الخارقة للوادي مع إيصال أو إيقاع يبدو متوقفًا.
قال جوناثان سليب ، الراوي الذي يعيش خارج أتلانتا ، جورجيا: “كل ما يتعلق باستهلاك الوسائط هو أننا نريد أن نكون محاطين بها”.
محادثات المال
قد يواجه المتشددون في الكتب المسموعة صعوبة في فهم سبب اختيار أي شخص للصوت الاصطناعي على صوت الإنسان. لكن بالنسبة إلى صغار الناشرين والمؤلفين ، يمكن للوقت والمال تقديم حجة أقوى من قدسية الأداء الإبداعي.
لا تجني الكتب المسموعة الكثير من المال لمطبعة جامعة ميشيغان. يقوم الناشر بإصدار حوالي 100 كتاب أكاديمي سنويًا – من قبل العلماء للعلماء أو الطلاب.
قد يكلف ما يصل إلى 6000 دولار لتوظيف راوي لكتاب قد يكسب بضع مئات فقط. وهذا لا يعني شيئًا عن عملية الإنتاج المكثفة. قد يستغرق الأمر حوالي ست ساعات لإنتاج ساعة واحدة منتهية من كتاب مسموع ، وفقًا لـ ACX ، Audiobook Creation Exchange من أمازون.
قال تشارلز واتكينسون ، مدير مطبعة جامعة ميشيغان وأمين مكتبة الجامعة للنشر في مكتبة جامعة ميشيغان: “الحقيقة هي أنه ما لم يكن لديك نوع من الكتب الأكثر مبيعًا ، فإن الاقتصاد لن ينجح”. وهو أيضًا رئيس جمعية المطابع الجامعية ، وهي منظمة مهنية للناشرين في المجال الأكاديمي.
بالنسبة للمؤلفين والناشرين الصغار ، قد يكون وقت وتكلفة إنتاج كتاب صوتي بعيد المنال. يمكن للذكاء الاصطناعي تغيير ذلك.
منذ حوالي عامين ، اتصلت Google بمطبعة جامعة ميشيغان بشأن المشاركة في برنامج تجريبي. تمكنت الصحافة من استخدام أداة Google لإنشاء حوالي 100 كتاب صوتي تم إنتاجه رقميًا. لا تزال هناك درجة من التدخل البشري مطلوب. قال واتكينسون إن بعض الأساتذة الذين استخدموا Google سيطلبون من الطلاب الاستماع إلى التسجيل للتحقق من أنه مقابل النص. قد لا تزال المطابع الصغيرة تواجه مشكلات في التوظيف ، على الرغم من تسريع عملية التسجيل باستخدام الذكاء الاصطناعي.
قال واتكينسون إن جامعة ميشيغان مهتمة بالكيفية التي يمكن بها للذكاء الاصطناعي أن يزيد من إمكانية الوصول إلى الكتب التي قد لا تكون متاحة في شكل صوتي.
في الأيام الأولى من التجربة ، وصلوا إلى حوالي 900 كاتب بعينة من السرد ، وكان الرد العام هو أن سرد الذكاء الاصطناعي كان أفضل قليلاً مما يمكن أن يقدمه قارئ الشاشة لشخص ضعيف البصر. ومع ذلك ، بالنسبة لأولئك الذين يعانون من مشاكل في الرؤية والذين قد لا يكون لديهم قارئ شاشة أو ما شابه ، ربما يمكن أن يساعد الذكاء الاصطناعي في سد فجوة في الوصول.
في حالات أخرى ، قد يسعد المستمعون بحصولهم على كتاب مسجل بأي شكل من الأشكال. ستستخدم متدربة في Watkinson الكتب الصوتية لمواصلة الدراسة في لحظات لم يكن لديها كتاب مفتوح أمامها ، مثل الحافلة أو المشي إلى الفصل. أطلقت عليه اسم “الاستماع البيني”.
صعود الأصوات الرقمية
بالإضافة إلى الأسماء الكبيرة مثل Apple و Google ، هناك مجموعة مزدهرة من الشركات الصغيرة تدخل مجال صوت AI.
يحاول DeepZen جعل صوت السرد الصوتي بتقنية الذكاء الاصطناعي أكثر طبيعية.
DeepZen هو واحد منهم. تأسس DeepZen في عام 2018 ومستوحى من فيلم Her لعام 2013 ، وهو يدور حول رجل يقع في حب مساعده الافتراضي للذكاء الاصطناعي ، وقد أنشأ نظام معالجة لغة طبيعيًا يمكنه أخذ إشارات من النص ويستخدم أصوات AI التي تم إنشاؤها من رواة بشريين مرخصين ، تم تصنيفها باسم مستعار .
قال الرئيس التنفيذي والمؤسس المشارك تايلان كاميس ، إن أحد أكبر التحديات كان إنشاء منصة لن تقوم ببغاء النص بشكل قاطع بل تضفي عليه طابعًا مميزًا.
استغرق الأمر بضع سنوات للوصول إلى السوق ، ولكن DeepZen الآن يتيح للعملاء تحميل مخطوطة ، واعتمادًا على خطة التسعير الخاصة بهم ، حدد خدمة مؤتمتة أو مُدارة. يأتي كلاهما بمستويات من مراقبة الجودة ، مثل فحص النطق ، لكن الخيار المُدار يتميز بفحص تدقيق بواسطة محررين بشريين وجولتين من التصحيحات.
ستعمل الخدمة الآلية على تشغيل العميل 69 دولارًا لكل ساعة منتهية مقابل 129 دولارًا للخيار المُدار. أنتج DeepZen ما يقرب من 3000 كتاب حتى الآن ، سواء كانت روائية أو واقعية.
على موقعه على الإنترنت ، يمكنك الاستماع إلى عينات من 10 أصوات ، بأسماء مثل تود وداليا وأليس.
في مكان ما في العالم ، يعتبر تود وداليا وأليس أناسًا حقيقيين. يعتقد كاميس أن الترخيص الصوتي يمكن أن يكون وسيلة للرواة للتعايش مع الذكاء الاصطناعي في السرد.
“هذا الراوي سيكسب المال أثناء نومه وسيجني صوته عائدات في اليابان [or] الصين او جنوب افريقيا “.
تعمل DeepZen أيضًا على طريقة لجعل أصوات الذكاء الاصطناعي تتحدث لغات أخرى ، لزيادة الوصول إلى السوق.
ولا تهتم بالتغلب على تحديات التحدث بلغة واحدة فقط – فالموت لا يجب أن يعيق الطريق. اقترب DeepZen من عائلة الممثل الصوتي الشهير والراوي إدوارد هيرمان ، الذي توفي في عام 2014 ، بشأن ترخيص صوته. وقعوا على. بمعنى ما ، لا يزال هيرمان يعمل بعد وفاته.
نتحدث مرة أخرى
كاميس ليس الشخص الوحيد الذي يعتقد أن هناك طريقة للذكاء الاصطناعي والبشر للتوافق في السرد الصوتي.
يريد واتكينسون ، من جامعة ميشيغان ، استخدام الذكاء الاصطناعي كطريقة لاختبار الكتب التي تستحق توظيف إنسان لتسجيلها. إذا كان المرء يبيع بشكل جيد ، فقد يبرر النجاح التكلفة. إنه من محبي الكتب المسموعة.
قال: “هذا هو الطريق المنحدر بالنسبة لنا للحصول على رواة بشريين”.
ليس الجميع متفائلين. يشعر البعض في الصناعة بالقلق من أنه سيكون هناك عدد أقل من الوظائف للرواة الذين ليسوا مشهورين أو ليس لديهم أتباع خاص بهم.
قال أندريا فليك نيسبت ، الرئيس التنفيذي لجمعية ناشري الكتب المستقلة: “كل هؤلاء الرواة من الطبقة المتوسطة ، والصلابة حقًا … يقومون بعمل ممتاز وهو مصدر رزقهم – لكنهم لن يكونوا بالضرورة بمثابة تعادل”.
بعد عقدين من العمل في هذا المجال ، قالت إيبي إنها تتساءل عما سيحدث إذا لم تتمكن في النهاية من العثور على العمل الذي يرويه بدوام كامل.
“ما هي المهارات التي أمتلكها والتي تعتبر تنافسية؟ وكيف سأدخل إلى مكتب ، وما الذي سأقدمه؟” هي سألت.
قال الراوي جوناثان سليب إنه يعلم أن عليه واجبًا منزليًا – وأنه أصبح مهتمًا جدًا بالعقود التي يوقعها ، وما هي الحقوق التي يسلمها فيما يتعلق بصوته.
ويريد آخرون ، مثل الراوي آندي جارسيا روس ، أن يستغلوا نقاط قوتهم: “كل ما يمكننا فعله هو أن نجعلهم يقعون في حب عروضنا ومواصلة العمل.”
يرفض بعض المؤلفين استخدام الصوت الرقمي.
قالت الكاتبة إليزابيث بيل: “أشعر أن الغرض من الرواية هو إثارة مشاعر القارئ أو المستمع ، وأن الخيال يدور حول ما يعنيه أن تكون إنسانًا. ولا يمكن للآلة أن تكرر ذلك”.
استخدم المؤلف Chris Stokel-Walker Google ليروي كتابه الواقعي TikTok Boom لعام 2021 ، حول تطبيق الفيديو الشهير ، وكتب عن النتيجة في Inverse.
كتب Stokel-Walker: “ما عاد كان كتابًا صوتيًا ، بينما كان يفتقر إلى بعض المشاعر والدراما التي كنت تأملها ، بدا لائقًا”.
لا يزال هناك الكثير من الأسئلة. في عالم يسمع فيه الناس بالفعل أصواتًا رقمية مثل Siri و Alexa كل يوم ، هل سيتوقف البشر عن الاهتمام إذا كان الصوت الرقمي لا يبدو إنسانيًا تمامًا؟ بالنسبة إلى Fleck-Nisbet ، يعد السرد بالذكاء الاصطناعي واحدًا فقط من العديد من الأسئلة التي ستواجهها صناعة النشر. هناك شكوك أخرى حول الذكاء الاصطناعي وحقوق النشر أو الملكية الفكرية.
بعبارة أخرى ، هذه ليست سوى البداية.
التحدث
لا يعني أي من هذا أن الرواة سيكونون في خط البطالة الأسبوع المقبل.
عمل John Behrens ، الذي يمتلك Nashville Audiobook Productions ، مع كتابين تم إنشاؤهما بواسطة الذكاء الاصطناعي في السنوات القليلة الماضية ، مما يوفر بشكل أساسي مراقبة الجودة. لا تزال منظمة العفو الدولية تواجه مشكلات. لم يستطع نطق آيات الكتاب المقدس ، وواجه صعوبة في طرح الأسئلة البلاغية في النص.
قال بيرنس إن كتابًا صوتيًا سيئًا قد ينتج من 50 إلى 100 إدخال للمشكلات التي تحتاج إلى الإصلاح. أنتجت منظمة العفو الدولية المئات. هذا يقوده إلى الاعتقاد بأن الرواة من البشر لن يذهبوا إلى أي مكان – لفترة على الأقل. ينصح بعدم الذعر.
“إذا كنت ستعيش في خوف … فلماذا ستستمر في الاستثمار في هذه المهنة إذا كنت تعتقد أنها ستنضب؟” هو قال.
بالعودة إلى غرفة Rukkus ، يأخذ Allers و Hinkle استراحة للدردشة حول الروبوتات.
إنها المرة الأولى التي تروي فيها Allers كتابًا صوتيًا ، على الرغم من أنها قامت بالكثير من أعمال التعليق الصوتي والدبلجة ، بما في ذلك Netflix.
Hinkle غير معجب بالذكاء الاصطناعي.
قال “روبوت يقرأ كتابا”. “ما زلت أعتقد أن الأمر سيستغرق وقتًا طويلاً قبل أن يبدو طبيعيًا وموهوبًا.”
فقط لا تخبر ماديسون وجاكسون.
ملاحظة المحررين: تستخدم CNET محركًا للذكاء الاصطناعي لإنشاء بعض توضيحات التمويل الشخصي التي يتم تحريرها والتحقق منها من قبل المحررين لدينا. للمزيد انظر هذا المشنور.
اكتشاف المزيد من موقع شبرون
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.