مولد Google للفيديو ينهي الواقع

القاهرة: الأمير كمال فرج.

في تطور مذهل يثير الدهشة والقلق، أعلنت شركة Google عن مولدها الجديد للفيديو المدعوم بالذكاء الاصطناعي، Veo 3. هذا النموذج المتقدم لا يثير الإعجاب بجودته وواقعيته فحسب، بل يمتلك قدرة غير مسبوقة على توليد الصوت المصاحب للمقاطع.

ذكر تقرير نشره موقع Futurism إن "جوجل أطلقت للتو مولد فيديو جديدًا يعتمد على الذكاء الاصطناعي، وهو متطور لدرجة أننا بدأنا نشعر ببعض القلق، فهو يفتح آفاقًا جديدة ومثيرة للتساؤلات حول مستقبل الواقع والسينما والإبداع البشري".

تصف شركة Google Deep Mind نموذجها الجديد، Veo 3، بأنه قادر على تقديم "أفضل جودة في فئته، متفوقًا في محاكاة الفيزياء والواقعية والالتزام بالتعليمات". وكما تشير مقاطع الفيديو المنشورة على وسائل التواصل الاجتماعي، فإن هذا التسويق لا يبتعد كثيرًا عن الحقيقة.

جودة الفيديو المولد بهذا النموذج مذهلة حقًا. لكن القفزة النوعية الحقيقية تكمن في قدرة النظام على إنتاج صوت يتناسب مع المقطع، بدءًا من المؤثرات الصوتية والموسيقى وصولاً إلى الكلام البشري والغناء.

سارع مستخدمو الإنترنت إلى استكشاف هذه الإمكانيات، بإنتاج مقطع فيديو باستخدام نموذج الذكاء الاصطناعي، فكان المحتوى الذي يتم إنشاؤه واقعيا بشكل لافت.

ففي أحد المقاطع المنشورة على منتدى "r/Singularity" على Reddit ، يناقش "ممثلون" يشبهون البشر بشكل واقعي ما يمكن للنموذج الجديد توليده من أفعال، وكما علق المستخدمون في الموضوع، فإن الإعلانات التجارية والإبداعات البشرية الأخرى قد تُصنع قريبًا بفضل هذه التكنولوجيا سريعة التطور.

وتنبأ آخرقائلا : "ستكون Netflix أول من يطرح هذا. يجب أن أشتري بعض الأسهم. سيشاهد الناس هذا الجنون بشغف".

على منصة X التابعة لإيلون ماسك، كان هذا المزيج من الكره والإثارة ملموسًا بالمثل، ففي سلسلة طويلة، عرض حساب "TechHalla" الذي يدعم الذكاء الاصطناعي مقاطع فيديو من Veo 3 تتراوح بين الخيال (زرافة تركب دراجة نارية في مانهاتن) والواقعية (رجل يعلم فصلًا مليئًا بكبار السن).

كانت فيزياء مولد الفيديو الاصطناعية معروضة بالكامل في مجموعة "TechHalla"، حيث يظهر أحد المقاطع قاربًا ورقيًا يطفو في بركة قبل أن يسقط في حفرة شارع، ويبدو أكثر واقعية وأقل شبهاً باللوحة الجامدة المتحركة من سابقات Veo 3.

المقطع الأبرز في هذه السلسلة، في رأينا، كان يظهر فتاة تكتب على لوحة مفاتيح مخصصة في محاكاة لاستجابة الزوال الحسي الذاتي (ASMR). للوهلة الأولى، لا يبدو أن هناك شيئًا استثنائيًا يحدث — حتى يتذكر المرء أن مولدات الصور والفيديو بالذكاء الاصطناعي غالبًا ما كانت تواجه صعوبة في صنع أيدٍ وأصابع نابضة بالحياة. أما الشخصيات على الإنترنت التي تنشئ محتوى ASMR بشكل احترافي؟ فسيشعرون بالارتعاش بعد هذا الإنجاز.

نظرًا لمدى تطورها، ليس من المستغرب أن يكون أحدث إبداعات Google Deep Mind قادرًا على توليد محتوى مرعب أيضًا.

في مقطع نُشر على Reddit ، يظهر رجل ذو مظهر متسخ في حانة خافتة الإضاءة يتوسل إلى من أنشأه، حسنًا، ألا ينهي ذلك.

يتوسل الرجل "الرجاء عدم إنهاء كتابة ذلك الأمر، لا أريد أن أكون في فيلمك الذي صنعه الذكاء الاصطناعي!"

ثم ينتقل الفيديو إلى مشهد شارع يبدو وكأنه بعد نهاية العالم، حيث يظهر الرجل ورفيقة له يترنحان عبر الأنقاض. تركض المرأة نحو الكاميرا غير الموجودة وتتوسل إلى المشاهد أن "يكتب أمرًا يجعلنا سعداء".. "افعلها لمرة واحدة!" تصرخ — وللحظة واحدة، كدنا نصدقها.

من الواضح أن "الأشخاص" في هذا المقطع، مثل المقاطع الأخرى التي سبقته، ليسوا حقيقيين وقد تم تصميمهم عمداً عبر الأوامر لجذب مشاعرنا — لكن قدرة هذه الفيديوهات على القيام بذلك أمر مخيف للغاية.