Meta ، Google AI تم تدريبهم جزئيًا على Breitbart ، RT: Study

0 45 3 دقائق

موقع شبرون للتقنية والأخبار- متابعات تقنية:

الذكاء الاصطناعي معقد ، لكنه ليس ذكيًا حقًا. نماذج اللغات الكبيرة المستخدمة اليوم لتشغيل برامج مثل ChatGPT ، هي عبارة عن اندماج للنص المقطوع الموجود على الإنترنت. اذن متى قدمت Meta “أحدث ما توصلت إليه التكنولوجيا” LLaMA AI مرة أخرى في فبراير ، تحولت الأنظار إلى بعض البياناتالمجموعات المستخدمة لتدريبه ، وخاصة “الهيكل الزاحف Colossal Clean Clean، “ أو C4. اتضح ، مثل الاسم نفسه ، أن بعض النص المسروق ينفجر حقًا.

مراجعة تابلت الألعاب Asus ROG Flow Z13

إذن ما مدى انفجار مجموعة بيانات C4 هذه؟ تحليل البيانات المقشوطة من واشنطن بوست يوم الأربعاء يظهر أن C4 يعتمد في الغالب على بعض الأشياء الشنيعة مصادر لنصها. كانت المواقع الأربعة الأكثر استخدامًا هي براءات اختراع Google (التي تشكل .46٪ من جميع الرموز) ، ويكيبيديا (.19٪) ، Scribd (.07٪) ، وموقع نيويورك تايمز على الويب (.06٪). في نفس الوقت ، استخدمت C4 رقعة كبيرةنص من موقع الدعاية الروسية روسيا اليوم واليمين المتطرف-جناح بريتبارت. كان هذان الموقعان ضمن أفضل 200 موقع تم البحث فيهما بحثًا عن نصوص.

عملت The Post جنبًا إلى جنب مع باحثين في معهد ألين للذكاء الاصطناعي أعاد إنشاء مجموعة البيانات. بعض المواقع أقل تواجدًا في بيانات التدريب ولكنها جديرة بالملاحظة لمحتواها الفظيع. أمام العاصفة، موقع للمتفوقين البيض ، تم تضمينه في البيانات ، في المرتبة 27505. مزارع الكيوي، الموقع المعروف بحملات التحرش الدنيئة عبر الإنترنت ، شكل 0،00004٪ من الرموز المميزة. 4chan، وجميع نظريات المؤامرة الجامحة الخاصة بها ، تم تضمينها أيضًا في البيانات ، على الرغم من احتلالها المرتبة 484297 منخفضة. هناك أمثلة صغيرة أخرى للنص المقتبس من المواقع التي تروّج للمؤامرات والإباحية والمحتوى الذي يحض على الكراهية. ولم ترد ميتا وجوجل على الفور على طلبات التعليق.

بالإضافة إلى ذلك ، أخذت بيانات التدريب بيانات من نصف مليون مدونة شخصية من مواقع مثل Medium و Blogspot و WordPress. تشتمل مجموعة البيانات على نصوص من Kickstarter و Etsy و Patreon ، تحذف نص وأسلوب الأشخاص الذين يروجون لعملهم عبر الإنترنت. اثنان من أكبر المواقع التي تم حذفها تضمنت قواعد بيانات تسجيل الناخبين في كولورادو وفلوريدا. على الرغم من أن كلا الموقعين عبارة عن معلومات عامة من الناحية الفنية ، فقد تكون البيانات قد خدشت بيانات المواطنين.

تم استخدام مجموعة البيانات المحددة هذه في مشاريع الذكاء الاصطناعي الرئيسية الأخرى بخلاف Meta LLaMA ، مثل جوجل T5 نموذج محول AI من نص إلى نص. وفقًا لجوجل ، ج 4 تم تطويره في الأصل بواسطة الشركة باعتباره “نسخة نظيفة” من المؤسسة غير الربحية بيانات التدريب على الذكاء الاصطناعي في الزحف المشترك. قالت Google إنها أزالت المحتوى المسيء أو “الصاخب” من مجموعة البيانات ، بما في ذلك أي لغة قذرة وإهانات مسيئة. جوجل LaMDA AI، والذي يستخدم ل برنامج الدردشة Bard الخاص بالشركة، شيء من الصندوق الأسود. تم تدريبه على مجموعة بيانات تسمى Infiniset ، والتي توصف بأنها 1.56 تريليون مربع حوار (الكلمات المستخدمة في السياق) ، 50 ٪ منها تأتي من المنتديات العامة. 12.5٪ أخرى من مجموعة التدريب الخاصة بها هي بيانات C4 ، بينما يأتي الباقي من ويكيبيديا باللغة الإنجليزية ومستندات الويب الأخرى.

بحسب ال ورقة ابحاث تم إصداره جنبًا إلى جنب مع LLaMA ، جاء 15٪ من بيانات ما قبل التدريب من C4. 67٪ أخرى جاءت من مقالب CommonCrawl المفلترة من 2017 إلى 2020. وتأتي بقية بياناتها مباشرة من مواقع مثل Wikipedia و Gutenberg Project و GitHub. العام الماضي، قام مبرمج بمقاضاة جيثب بسبب أداة مساعد الذكاء الاصطناعي الخاصة به يقول إنه كان يأخذ عمله وغيره من المبرمجين دون إذن.

يعتبر تقرير واشنطن بوست أكثر تنويرًا نظرًا لمدى صعوبة العثور على معلومات حول تدريب الذكاء الاصطناعي. لم تكشف شركة OpenAI عن تفاصيل واحدة عارية عن GPT-4 LLM الخاص بها صدر الشهر الماضي ، مشيرًا إلى “المشهد التنافسي” لتطوير الذكاء الاصطناعي. يمكن أن تساعد معرفة ما يدخل في التدريب شرح بعض التحيزات في المخرجات. أظهر الباحثون مؤخرًا كيف يمكن استخدام ChatGPT لإنتاج ردود عنصرية صريحة من خلال بعض الهندسة السريعة البسيطة.

قام معهد ألين أيضًا بتضمين وظيفة البحث الخاصة للمستخدمين لمعرفة ما إذا كان C4 يستخدم نصوصهم. يُظهر البحث السريع عن “Gizmodo” مجموعة البيانات التي تم كشطها بالآلاف من المقالات من وحول موقعنا طوال العقد الأول من القرن الحادي والعشرين. وفقًا لإحصاءات المنشورات ، تم تصنيف موقعنا في 275 فقط مقارنةً بـ RT و Breitbart.

هل تريد معرفة المزيد عن الذكاء الاصطناعي وروبوتات المحادثة ومستقبل التعلم الآلي؟ تحقق من تغطيتنا الكاملة لـ الذكاء الاصطناعي، أو تصفح أدلةنا إلى أفضل مولدات فنية مجانية لمنظمة العفو الدوليةو أفضل بدائل ChatGPTو و كل ما نعرفه عن ChatGPT الخاص بـ OpenAI.

مرتبط

الوسوم

icshebron

0 45 3 دقائق

Meta ، Google AI تم تدريبهم جزئيًا على Breitbart ، RT: Study

مرتبط

icshebron

اترك تعليقاً إلغاء الرد

وكالة الفضاء الروسية تخطط لإطلاق مركبة بديلة لإعادة أفراد طاقمها إلى الأرض

10 Tricks to Naturally Boost Your Eye Health

How to Completely Remove McAfee From Windows 11

انخفاض طفيف فى أسعار عملة البيتكوين بنسبة 0.28% خلال الـ24 ساعة الماضية

Facebook, Instagram, and Threads Are Down in a Major Outage

كل ما تريد معرفته عن أدوات تحرير الصور والفيديو بالذكاء الاصطناعى من فيس بوك

Headspace’s Black Friday deal knocks half off annual and monthly memberships

10 Free Notion Habit-Tracking Templates

بدلة سبايدر مان نو واي هوم النهائية باللونين الأحمر والأزرق: أفضل مظهر حتى الآن

أفضل 15 تجربة في مدن الملاهي ووجهات المشجعين 2022

ما هى مجرة العنكبوت المخيفة التى صورها تلسكوب هابل؟ تقرير يجيبك

سلسلة iPhone 16 Pro ستوفر مميزات الذكاء الاصطناعي مع معالجات A18 Pro

استوديو الألعاب Toys for Bob يتعاون مع يعمل مع Xbox لتطوير لعبة جديدة

كيفية استخدام ميزة Miniplayer لسبوتيفاي على أجهزة الكمبيوتر

إيه الفرق؟.. أبرز الاختلافات بين هاتفى Google Pixel 7a وPixel 4a

ما هى مجرة العنكبوت المخيفة التى صورها تلسكوب هابل؟ تقرير يجيبك

بدلة سبايدر مان نو واي هوم النهائية باللونين الأحمر والأزرق: أفضل مظهر حتى الآن

أفضل 15 تجربة في مدن الملاهي ووجهات المشجعين 2022

منشأة ناسا في جزيرة والوبس تدخل عصرًا تجاريًا جديدًا

أفضل هواتف 2022 وأكثرها ابتكارًا

لماذا يعتبر القمر الصناعي الخاص بالتحليل عن المياه التابع لناسا صفقة ضخمة

ما هى مجرة العنكبوت المخيفة التى صورها تلسكوب هابل؟ تقرير يجيبك

بدلة سبايدر مان نو واي هوم النهائية باللونين الأحمر والأزرق: أفضل مظهر حتى الآن

أفضل 15 تجربة في مدن الملاهي ووجهات المشجعين 2022

منشأة ناسا في جزيرة والوبس تدخل عصرًا تجاريًا جديدًا

أفضل هواتف 2022 وأكثرها ابتكارًا

لماذا يعتبر القمر الصناعي الخاص بالتحليل عن المياه التابع لناسا صفقة ضخمة

ما هى مجرة العنكبوت المخيفة التى صورها تلسكوب هابل؟ تقرير يجيبك

سلسلة iPhone 16 Pro ستوفر مميزات الذكاء الاصطناعي مع معالجات A18 Pro

استوديو الألعاب Toys for Bob يتعاون مع يعمل مع Xbox لتطوير لعبة جديدة

كيفية استخدام ميزة Miniplayer لسبوتيفاي على أجهزة الكمبيوتر

إيه الفرق؟.. أبرز الاختلافات بين هاتفى Google Pixel 7a وPixel 4a

ما يجب معرفته عن أعراض الحساسية الشائعة وماذا تفعل حيالها

مرتبط

الثلاجة والمكيفات التي تعمل بالطاقة الشمسية من EcoFlow جاهزة لحفلات الصيف الرائعة

إليك كيفية المطالبة بقطعك من تسوية دعوى Cambridge Analytica الجماعية من Meta البالغة 725 مليون دولار

مقالات ذات صلة

اترك تعليقاً إلغاء الرد

ما هى مجرة العنكبوت المخيفة التى صورها تلسكوب هابل؟ تقرير يجيبك

بدلة سبايدر مان نو واي هوم النهائية باللونين الأحمر والأزرق: أفضل مظهر حتى الآن

أفضل 15 تجربة في مدن الملاهي ووجهات المشجعين 2022

منشأة ناسا في جزيرة والوبس تدخل عصرًا تجاريًا جديدًا

أفضل هواتف 2022 وأكثرها ابتكارًا

لماذا يعتبر القمر الصناعي الخاص بالتحليل عن المياه التابع لناسا صفقة ضخمة

ما هى مجرة العنكبوت المخيفة التى صورها تلسكوب هابل؟ تقرير يجيبك

بدلة سبايدر مان نو واي هوم النهائية باللونين الأحمر والأزرق: أفضل مظهر حتى الآن

أفضل 15 تجربة في مدن الملاهي ووجهات المشجعين 2022

منشأة ناسا في جزيرة والوبس تدخل عصرًا تجاريًا جديدًا

أفضل هواتف 2022 وأكثرها ابتكارًا

لماذا يعتبر القمر الصناعي الخاص بالتحليل عن المياه التابع لناسا صفقة ضخمة

ما هى مجرة العنكبوت المخيفة التى صورها تلسكوب هابل؟ تقرير يجيبك

سلسلة iPhone 16 Pro ستوفر مميزات الذكاء الاصطناعي مع معالجات A18 Pro

استوديو الألعاب Toys for Bob يتعاون مع يعمل مع Xbox لتطوير لعبة جديدة

كيفية استخدام ميزة Miniplayer لسبوتيفاي على أجهزة الكمبيوتر

إيه الفرق؟.. أبرز الاختلافات بين هاتفى Google Pixel 7a وPixel 4a

ما يجب معرفته عن أعراض الحساسية الشائعة وماذا تفعل حيالها