وسائل الترفيهوسائل تكنولوجية

تقوم OpenAI بإصدار Point-E ، والذي يشبه DALL-E ولكن للنمذجة ثلاثية الأبعاد

موقع شبرون للتقنية وأخبار العالم- متابعات تقنية:

أعلنت شركة أوبن إيه آي ، شركة الذكاء الاصطناعي الناشئة التي أسسها إيلون ماسك والتي تقف وراء مولد النص إلى الصورة الشهير DALL-E ، يوم الثلاثاء عن إطلاق أحدث آلة لصنع الصور POINT-E ، والتي يمكنها إنتاج سحب نقطية ثلاثية الأبعاد مباشرة من الرسائل النصية. في حين أن الأنظمة الحالية مثل DreamFusion من Google تتطلب عادةً عدة ساعات – ووحدات معالجة الرسومات – لإنشاء صورها ، فإن Point-E تحتاج فقط إلى GPU واحد ودقيقة أو دقيقتين.

أوبن إيه آي

تستخدم النمذجة ثلاثية الأبعاد عبر مجموعة متنوعة من الصناعات والتطبيقات. تعتمد تأثيرات CGI لأفلام الأفلام الحديثة وألعاب الفيديو والواقع الافتراضي والواقع المعزز ومهام رسم خرائط فوهة القمر التابعة لناسا ومشاريع الحفاظ على مواقع التراث من Google ورؤية Meta لـ Metaverse على إمكانات النمذجة ثلاثية الأبعاد. ومع ذلك ، فإن إنشاء صور ثلاثية الأبعاد الواقعية لا يزال يمثل عملية موارد وتستغرق وقتًا طويلاً ، على الرغم من عمل NVIDIA لأتمتة إنشاء الكائنات وتطبيق RealityCapture للهاتف المحمول من Epic Game ، والذي يسمح لأي شخص لديه هاتف iOS بمسح كائنات العالم الحقيقي كصور ثلاثية الأبعاد.

اكتسبت أنظمة تحويل النص إلى صورة مثل OpenAI’s DALL-E 2 و Craiyon أو DeepAI أو Prisma Lab’s Lensa أو HuggingFace’s Stable Diffusion ، شعبية وشهرة وشهرة في السنوات الأخيرة. Text-to-3D هو فرع من هذا البحث. على عكس الأنظمة المماثلة ، “تستفيد Point-E من مجموعة كبيرة من أزواج (النص والصورة) ، مما يسمح لها باتباع المطالبات المتنوعة والمعقدة ، بينما يتم تدريب نموذج الصورة إلى 3D على مجموعة بيانات أصغر من (صورة ، ثلاثية الأبعاد) أزواج ، “كتب فريق بحث OpenAI بقيادة أليكس نيكول في Point · E: نظام لتوليد غيوم ثلاثية الأبعاد من موجهات معقدة ، نُشر الأسبوع الماضي. “لإنتاج كائن ثلاثي الأبعاد من موجه نصي ، نقوم أولاً بأخذ عينة من صورة باستخدام نموذج تحويل النص إلى صورة ، ثم أخذ عينة من كائن ثلاثي الأبعاد مشروط بالصورة التي تم اختبار العينة بها. يمكن تنفيذ هاتين الخطوتين في عدد من الثواني ، ولا تتطلب إجراءات تحسين باهظة الثمن “.

أوبن إيه آي

إذا كنت تريد إدخال رسالة نصية ، على سبيل المثال ، “قطة تأكل بوريتو” ، ستنشئ Point-E أولاً عرضًا اصطناعيًا ثلاثي الأبعاد للقطط الذي يأكل البوريتو. سيتم بعد ذلك تشغيل تلك الصورة التي تم إنشاؤها من خلال سلسلة من نماذج الانتشار لإنشاء سحابة نقطية ثلاثية الأبعاد RGB للصورة الأولية – ينتج أولاً نموذج سحابة خشن من 1،024 نقطة ، ثم 4096 نقطة أدق. ويشير فريق البحث إلى أنه “من الناحية العملية ، نفترض أن الصورة تحتوي على المعلومات ذات الصلة من النص ، ولا يتم تحديد غيوم النقاط بشكل صريح على النص”.

تم تدريب كل من نماذج الانتشار هذه على “ملايين” النماذج ثلاثية الأبعاد ، والتي تم تحويلها جميعها إلى تنسيق موحد. “بينما يكون أداء طريقتنا في هذا التقييم أسوأ من أحدث التقنيات ،” يعترف الفريق ، “أنها تنتج عينات في جزء صغير من الوقت”. إذا كنت ترغب في تجربته بنفسك ، فقد نشر OpenAI كود المشاريع مفتوح المصدر على Github.

يتم اختيار جميع المنتجات التي أوصت بها Engadget بواسطة فريق التحرير لدينا ، بشكل مستقل عن الشركة الأم. تتضمن بعض قصصنا روابط تابعة. إذا اشتريت شيئًا من خلال أحد هذه الروابط ، فقد نربح عمولة تابعة. جميع الأسعار صحيحة وقت النشر.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى