أدوات الذكاء الاصطناعي التوليدية مثل ChatGPT و Dall-E لن تذهب بعيدًا. هنا لماذا

icshebron 23 فبراير، 2023No Comments

[ad_1]

منذ أكثر من سبع سنوات ، دعت CNET القراء للمساعدة في كتابة ملف رواية الخيال العلمي. استغرقت جهود التعهيد الجماعي عدة أشهر وتضمنت مساهمات من عشرات الكتاب والمحررين المتطوعين من جميع أنحاء العالم. يمكننا اليوم إنشاء قصة متماسكة بطول مماثل في ساعات قليلة – أو ربما بضع دقائق مع المطالبات الصحيحة – باستخدام أدوات الذكاء الاصطناعي التوليدية مثل ChatGPT التي أحدثت ثورة في العالم في الأشهر الأخيرة.

أكثر جنونًا: الرسوم التوضيحية التي أنشأها فنانو CNET وغيرهم لروايتنا الروائية في ذلك الوقت يمكن إجراؤها اليوم بواسطة أدوات الذكاء الاصطناعي مثل Dall-E 2 في دقائق ، ولن يلاحظ سوى القليل الفرق (الحيلة هي لا تنظر إلى الأصابع – المزيد عن ذلك لاحقًا).

أصبح ChatGPT بالفعل أحد أسرع المنتجات التكنولوجية الجديدة التي تم تبنيها في التاريخ. ربما سمعت عن استخدامه للمساعدة في تكوين كل شيء من رسائل البريد الإلكتروني ورسائل الغلاف إلى مهام المدرسة. وفي الوقت نفسه ، لا يمكن للنماذج المتشابهة أن تولد فقط صورًا بأنماط لا حصر لها ، ولكن أيضًا مقاطع فيديو وحتى موسيقى.

من الصعب تذكر أي شيء يُحدث المزيد من الضجة ، ربما مثل Siri أو iPhone. من الصعب مواكبة كل ذلك ، لذا إليك بعض الإجابات السريعة على جميع أسئلتك الأكثر إلحاحًا حول الذكاء الاصطناعي التوليدي.

ما هذا؟

على الرغم من ما حتى البعض قد يخبرك مهندسو Googleأو روبوتات الدردشة مثل ChatGPT أو روبوت Bing الجديد من Microsoft، التي تسمي نفسها على ما يبدو سيدني ، ليست واعية أو واعية. ما أوصلنا إلى هذه النقطة ليس سحرًا أو مؤامرة شريرة لاستعبادنا جميعًا. بدلاً من ذلك ، فهو نتاج الرياضيات المعقدة ، والتعليمات البرمجية ، وقيمة المكتبات من البيانات والكثير من قوة الحوسبة.

تعتمد الأنظمة الأساسية على ما يسمى نماذج اللغة الكبيرة (LLMs) أو أحيانًا نماذج اللغة التوليدية أو نماذج لغة المحولات – يرمز GPT في ChatGPT إلى “المحولات المولدة مسبقًا”. هذه هي أنظمة التعلم الآلي التي تعالج ما يعادل تيرابايت من البيانات ، وغالبًا ما يتم كشطها مباشرة من الإنترنت ، وتدوين الأنماط والارتباطات داخل مجموعة البيانات ، والتي تسمى بيانات التدريب.

في حالة ChatGPT ، تكون مجموعات البيانات النصية كافية. يتم تدريب منشئي الصور مثل Dall-E و Stable Diffusion و Midjourney من خلال النظر إلى مجموعة كبيرة من الصور ومعرفة ما هي عليه من خلال قراءة التعليقات المصاحبة لها ، لذلك لا تزال النماذج تعتمد على اللغة.

رسم AI يرسم صورة للذكاء الاصطناعي يرسم صورة — هذه الصورة هي نتيجة مطالبة Dall-E 2 بـ “ارسم لي صورة Dall-E ترسم صورة Dall-E وهي ترسم صورة”.

إريك ماك / CNET / Dall-E 2

الشبكة العصبية هي نوع من أنظمة التعلم الآلي التي يمكن تدريبها على الكثير من البيانات ويمكنها بعد ذلك استنباط رؤى من الأنماط. هذه الشبكة العصبية ليست جديدة. ما يحدث مع الأنظمة التوليدية المتاحة للجمهور والتي ظهرت لأول مرة في العام الماضي هو أن هذه الأنماط لا تتعلم فقط ، بل يتم إقرانها أيضًا بشبكة عصبية ثانية تعمل على عكس هندسة عملية إنشاء المحتوى وفحصه مقابل الشبكة العصبية الأولى للتأكد من مطابقته للموجه المعطى للنظام.

في الأساس ، أنت تعطي ChatGPT أو Dall-E موجهًا ويقومان بصياغة استجابة من خلال التنبؤ بما يجب أن تستند إليه الكلمة التالية (أو البكسل في حالة الصورة) على جميع الأنماط والارتباطات المستقاة من بيانات التدريب.

ما الذي يمكن أن تفعله LLM أيضًا؟

بالإضافة إلى إنشاء النصوص والصور ، فإن أنظمة الذكاء الاصطناعي الأخرى ، مثل Runway’s Gen1 و Meta Make-a-Video، إنشاء تأثيرات فيديو وفلاتر ومشاهد كاملة بوسائل مماثلة.

في الآونة الأخيرة ، أصدر ذراع البحث في Google إصدارًا مبكرًا من MusicLM ، والذي يمكنه أخذ المطالبات المستندة إلى النصوص وتحويلها إلى عينات من الموسيقى. كانت النتائج مبهرة.

تُستخدم الأنظمة التوليدية أيضًا لإنشاء رموز وتصميمات ثلاثية الأبعاد لجميع أنواع الكائنات ، من الملابس إلى المباني. نظريًا ، إذا كان هناك شكل أو وسيط للمحتوى أو حتى مجرد مجموعة بيانات كافية لتدريب الذكاء الاصطناعي عليه ، فيجب أن يكون الذكاء الاصطناعي قادرًا على إنشاء هذا النوع من المحتوى بمفرده.

تستخدم شركة IBM أنظمة إنتاجية لتطوير أشباه موصلات وجزيئات جديدة يمكن أن تساعد في مكافحة السرطان أو العدوى البكتيرية. قد لا يكون هناك حد لما يمكن إنشاؤه ، وهو أمر مثير ومخيف بعض الشيء في نفس الوقت.

كيف يمكنني استخدام هذه الأشياء؟

يمكن القول إن هناك فقاعة ذكاء اصطناعي متضخمة بسرعة ، حيث تدعي الشركات الناشئة فجأة أنها تستخدم الذكاء الاصطناعي لتوليد كل شيء بدءًا من المزيد من رسائل البريد الإلكتروني العشوائية للأعمال التي تؤدي إلى مقاطع فيديو تسويقية كاملة. يستمتع الأشخاص بالتأكيد مع روبوتات الدردشة ومولدات الصور ، ويجد بعض التصميمات الأدوات مفيدة عند العمل على المفاهيم أو المسودات المبكرة للعمل الجديد.

أحدثت الأشكال المجاورة من الذكاء الاصطناعي ثورة بهدوء في أشياء مثل التنبؤ بالطقس وتحليل التصوير الطبي.

من المزايا التي نادرًا ما يتم ذكرها للحالة الحالية للذكاء الاصطناعي أنها جيدة بشكل ملحوظ في الأشياء التي قد يستغرق البشر سنوات لإكمالها ، مثل معالجة الشريعة الكاملة لحركة أدبية أو فنية معينة أو التلميح عن البنية النغمية لنوع معين من الموسيقى. في الوقت نفسه ، فإن بعض نقاط ضعف الذكاء الاصطناعي – فهم السياقات المعقدة ، والتصرف بطرق مبتكرة أو غير متوقعة وتقييم المشاعر أو المدخلات الحسية – هي أشياء يتفوق فيها البشر دون بذل مجهود يذكر.

قد تكمن العديد من استخدامات هذه التكنولوجيا في طرق جديدة للتعاون مع الذكاء الاصطناعي لإبراز أفضل ما يفعله كل من الذكاء البيولوجي والاصطناعي.

كيف يمكنك التأكد من أنها ليست حساسة؟

بسيط ، حقًا: المعلومات ليست معرفة. تشبه LLMs وجود أمينة مكتبة مرجعية يمكنها تجاوز مجرد توجيهك إلى القسم الصحيح من المكتبة – يمكنها اقتباس أي سطر من أي كتاب في المكتبة لأنها قرأتها وحفظتها جميعًا. لكن هناك مشكلة. لم يقم أمين المكتبة هذا الذي يبدو مثاليًا بأي شيء آخر سوى قراءة كل شيء في المكتبة.

إن افتقارها إلى الخبرة الحياتية يجعل من الصعب عليها تفسير السياقات والنصوص الفرعية والنوايا والفروق الدقيقة الأخرى غير الحرفية وراء كل كلمة تناولتها بشكل صحيح. ما هو أسوأ: الأمر نفسه ينطبق على قدرتها على فهم الأسئلة بشكل صحيح والمطالبات التي تحصل عليها من رعاة المكتبة. لذلك غالبا ما تفهم الأمور بشكل خاطئ.

يبدو الأمر كما لو أن الكلمة المكتوبة بأكملها تم حفظها من قبل شخص واحد مستعد للإجابة على أسئلتنا حول أي شيء. المصيد الوحيد هو أن الشخص أيضًا أجنبي.

لاحظ الكثير من مستخدمي ChatGPT أخطاء واقعية متكررة وتناقضات في الردود التي يقدمها النظام. هذا لأنه تم تدريبه على ثروة من البيانات التي لم يتم التحقق منها ولا تتحقق من صحة نفسها ، بل يتنبأ فقط بالكلمة التي يجب أن تكون بعد ذلك بناءً على كل ما يتم قراءته. حرفيا ليس له منطق سليم. هذا يمكن أن يؤدي إلى أخطاء ، شيء ما شهدت CNET نفسها في استخدام نموذج الذكاء الاصطناعي التوليدي.

تحدث أشياء غريبة أيضًا مع مولدات الصور ، والتي تواجه صعوبة في العد ، من بين أشياء أخرى. الأرقام ذات العدد الخاطئ من الأصابع شائعة بشكل هزلي.

صورة تم إنشاؤها بواسطة الذكاء الاصطناعي لشخص يكتب على جهاز كمبيوتر محمول — لا تنظر عن كثب في الأصابع (أو العينين). هذا هو نتيجة محاولة استخراج صورة ذاتية من Dall-E 2 مع “الصحفي إيريك ماك يكتب عن الذكاء الاصطناعي التوليدي باستخدام الكمبيوتر المحمول الخاص به في المقهى”.

إريك ماك / CNET / Dall-E 2

إذن هناك مشاكل ، أليس كذلك؟

هناك مخاطر أن كل تقنية وأداة جديدة سوف تستخدم للمرض، ومع الذكاء الاصطناعي لا يزال هناك الكثير من الأشياء المجهولة ، مما يجعل الأمر مخيفًا أكثر. ربما تكون قد سمعت بالفعل مخاوف من المعلمين الذين يرون الطلاب يرسلون مهامًا تم إنشاؤها بواسطة الذكاء الاصطناعي ، أو الكتاب والمبدعين الآخرين الذين يهتمون بالاستعاضة عنهم بأنظمة الذكاء الاصطناعي التي تعمل أرخص وأسرع من الأشخاص.

كل هذه المخاوف صحيحة وربما تدل على واقع جديد يجب أن نتعرف فيه على بعض من يخبرنا أن المحتوى قد تم إنشاؤه بواسطة الذكاء الاصطناعي ، مثل العيون والأصابع في الصورة أعلاه. بالطبع ، بمجرد أن نتعلم هذا ، من المحتمل أن تتحسن مولدات الذكاء الاصطناعي وسيصبح تمييز العمل الذي تنتجه أكثر صعوبة من العمل الذي يولده الإنسان.

هناك أيضًا عدد من المخاوف الأخلاقية والقانونية التي لم تتم الإجابة عليها. يقاضي عدد قليل من الفنانين بعض الشركات التي تقف وراء شركات إنشاء الصور بالذكاء الاصطناعي ، بدعوى أنه تم حذف أعمالهم الفنية من الويب لتدريب الأنظمة دون إذن ، وأنه قد يحق لهم الحصول على تعويض. رفعت Getty Images ، التي تعاقدت معها CNET والعديد من وسائل الإعلام الأخرى لترخيص الصور للمحتوى ، دعوى مماثلة تطالب بتعويضات تزيد عن تريليون دولار.

وهذه مجرد البداية ، لأن أنظمة الذكاء الاصطناعي التوليدية هي بطريقة ما انعكاس للإنترنت بالكامل. هذا يعني أن العنصرية والتمييز على أساس الجنس وأنواع أخرى من التحيز والقبح يمكن أن تتسلل إلى النتائج ، على الرغم من أفضل الجهود التي تبذلها المنصات للسيطرة عليها. هناك أيضًا مخاوف تتعلق بالخصوصية على نفس المنوال وفكرة مزعجة مفادها أن “حبوب منع الحمل السامة” يمكن أن تنزلق إلى بيانات التدريب للتلاعب بالنتائج. الأخبار المزيفة التي تم إنشاؤها بواسطة الروبوتات على وسائل التواصل الاجتماعي كما رأينا في السنوات الأخيرة شيء واحد. تخيل لو أن روبوت محادثة يستخدمه الملايين أو المليارات بدأ في إطلاق ردود مزيفة أو تم التلاعب بها لأنه تم تدريبه على بيانات مشوهة.

هل يجب أن أفزع إذن؟

إنه أمر مفهوم إذا كنت مضطربًا أو غارقًا في كل هذا. إنه كثير ، وقد أصاب الثقافة بسرعة خلال فترة زمنية قصيرة. هناك بعض الأشياء التي قلتها لنفسي عن الطبيعة الأساسية للبشر أجدها معزية ، على الأقل على المدى القصير.

أولاً ، هناك سؤال حول مدى إبداع LLM حقًا. يمكن أن يبدأ مولّدو الصور في التكرار ، ويفتقرون أيضًا إلى شرارة الإلهام وكمية معينة من النية التي نحب تخمينها عند مراقبة عمل فني من صنع الإنسان. في الواقع ، هذا هو بيت القصيد من دفع هذه الأنظمة ؛ لقد صُممت للاعتماد على البشر في النية والإلهام.

بالطبع ، قد تكون هناك طرق لتعديل الذكاء الاصطناعي ليكون أكثر إبداعًا من تلقاء نفسه ، من خلال مطالبتهم ، على سبيل المثال ، بإنشاء محتوى جديد على وجه التحديد استنادًا إلى الارتباطات الأضعف التي يجدها في بيانات التدريب. قد تكون هذه طريقة لمحاكاة الإبداع البشري باستخدام الرياضيات والرموز. لكن أي شخص لديه اختراق إبداعي أو لحظة يوريكا أثناء الاستحمام سيخبرك أنه غالبًا ما يبدو أنه يأتي من العدم.

نحن لا نفهم إبداعنا بأنفسنا حتى الآن ، لذلك لا يمكننا بعد ترجمته إلى رمز يمكن للآلة فهمه ومحاولة تكراره. هذا لا يعني شيئًا عن المشاعر البشرية ، أو العديد من التجارب الحسية أو الكثير من الوظائف الأساسية للدماغ التي لا تزال غير مفهومة جيدًا من قبل العلم.

ثم مرة أخرى ، هذه فقط البداية. يعتقد البعض أننا الاهتمام بالذكاء العام الاصطناعي في العقد أو العقدين المقبلين – سيكون هذا نظامًا يمتلك بالفعل نفس القدرات التي يتمتع بها الإنسان بطريقة لا يمكن تمييزها. للتسجيل ، يعتقد خبراء آخرون أن هذا لن يحدث لفترة طويلة ، هذا إن حدث.

في الوقت الحالي ، أفضل ما يجب فعله هو التعرف على هذه الأنظمة ، وكيفية عملها وما يمكنها فعله وما لا يمكنها فعله. المعرفة أقوى من مجرد المعلومات ، حتى تيرابايت منها ، وهذه ميزة واحدة ما زلنا نمتلكها على الذكاء الاصطناعي. على الأقل لغاية الآن.

ملاحظة المحررين: تستخدم CNET محركًا للذكاء الاصطناعي لإنشاء بعض توضيحات التمويل الشخصي التي يتم تحريرها والتحقق منها من قبل المحررين لدينا. للمزيد انظر هذا المشنور.

[ad_2]