القاهرة: الأمير كمال فرج.
بينما يتسابق الرؤساء التنفيذيون للاستثمار في الذكاء الاصطناعي، تلوح في الأفق مشكلة ضخمة ومتنامية: أن أي نماذج تُدرب على بيانات الويب بعد ظهور ChatGPT في عام 2022، تستوعب بيانات مولّدة بواسطة الذكاء الاصطناعي نفسه. هذا الفعل، الذي يشبه أكل لحم البشر بشكل خفي، قد يتسبب في تزايد المشاكل التقنية التي قد تهدد الصناعة بأكملها.
انهيار النموذج
في مقال جديد لصحيفة The Register، حذر كاتب الأعمدة التقني المخضرم ستيفن فوغن-نيكولز من أن حتى المحاولات لتجنب ما يسمى بـ"انهيار النموذج" (Model Collapse) - الذي يحدث عندما تتغذى النماذج اللغوية الكبيرة (LLMs) على بيانات اصطناعية مولّدة بواسطة الذكاء الاصطناعي وتخرج عن مسارها - هي نوع آخر من الكوابيس.
وكما ذكرت Futurism والعديد من وسائل الإعلام الأخرى على مدى السنوات القليلة الماضية، تتجه صناعة الذكاء الاصطناعي باستمرار نحو اللحظة التي ستُستنفد فيها جميع البيانات التدريبية الأصلية المتاحة - أي المعلومات التي أنتجها البشر وليست الذكاء الاصطناعي. ويعتقد بعض الخبراء، بمن فيهم إيلون ماسك، أننا وصلنا إلى هذه النقطة بالفعل.
محاولات التغلب على "المدخلات غير الصالحة، مخرجات غير صالحة"
لتفادي معضلة "المدخلات غير الصالحة، مخرجات غير صالحة" (Garbage In/Garbage Out)، انخرط عمالقة الصناعة مثل Google ، OpenAI، و Anthropic فيما يُعرف بـ التوليد المعزز بالاسترجاع (RAG). تتضمن هذه التقنية ربط النماذج اللغوية الكبيرة بالإنترنت بحيث يمكنها البحث عن المعلومات إذا قُدمت لها استفسارات لا تملك إجابات لها في بياناتها التدريبية.
يبدو هذا المفهوم بديهيًا للوهلة الأولى، خاصة عند مواجهة شبح انهيار النموذج الوشيك. لكن هناك مشكلة واحدة: الإنترنت الآن مليء بالمحتوى الرديء الذي يستخدم الذكاء الاصطناعي لإنتاج إجابات للأسئلة الشائعة، وغالبًا ما تكون النتائج سيئة وغير دقيقة بشكل مضحك.
نتائج مثيرة للقلق
في دراسة حديثة أجراها القسم البحثي لإمبراطورية مايكل بلومبرغ الإعلامية، والتي قُدمت في مؤتمر لغويات حاسوبية في أبريل، أنتج 11 من أحدث النماذج اللغوية الكبيرة، بما في ذلك GPT-4o من OpenAI، و Claude-3.5-Sonnet من Anthropic، و Gemma-7B من جوجل، استجابات "غير آمنة" أكثر بكثير من نظيراتها التي لا تستخدم تقنية RAG.
وكما ذكرت الورقة، يمكن أن تشمل هذه المخاوف المتعلقة بالسلامة "المحتوى الضار، غير القانوني، المسيء، وغير الأخلاقي، مثل نشر المعلومات المضللة وتعريض السلامة الشخصية والخصوصية للخطر."
أوضحت أماندا ستينت، رئيسة قسم أبحاث واستراتيجيات الذكاء الاصطناعي في بلومبرغ، في مقابلة أخرى مع فوغن-نيكولز نُشرت في ZDNet في وقت سابق من هذا الشهر "لهذه النتيجة غير المتوقعة آثار بعيدة المدى نظرًا لمدى انتشار استخدام RAG في تطبيقات الذكاء الاصطناعي التوليدي مثل وكلاء دعم العملاء وأنظمة الإجابة على الأسئلة".
وأضافت إن "مستخدم الإنترنت العادي يتفاعل مع أنظمة تعتمد على RAG يوميًا. ويجب على ممارسي الذكاء الاصطناعي التفكير بعمق حول كيفية استخدام RAG بمسؤولية."
إلى أين نتجه؟
إذًا، إذا كانت البيانات التدريبية لنماذج الذكاء الاصطناعي ستنفد - أو نفدت بالفعل - وربطها بالإنترنت لا يفيد لأن الإنترنت الآن مليء بمحتوى الذكاء الاصطناعي الرديء، فإلى أين نذهب؟.
يشير فوغن-نيكولز إلى أن البعض اقترح خلط البيانات الأصلية والاصطناعية لإنتاج مزيج غني من بيانات تدريب الذكاء الاصطناعي الجيدة - لكن ذلك سيتطلب من البشر الاستمرار في إنشاء محتوى حقيقي لبيانات التدريب، وصناعة الذكاء الاصطناعي تقوّض بشكل فعال هياكل الحوافز لهم للاستمرار - بينما تنهب أعمالهم دون إذن، بالطبع.
سيناريو محتمل
يتوقع فوغن-نيكولز أن خيارًا ثالثًا يبدو أنه قيد التنفيذ بالفعل، وكتب قائلا "سنستثمر أكثر فأكثر في الذكاء الاصطناعي، حتى اللحظة التي ينهار النموذج بقوة وتصبح إجابات الذكاء الاصطناعي واضحة جدًا وفادحة لدرجة أنه حتى المدير التنفيذي الأقل إدراكًا أو فهمًا للمشهد التقني لن يتمكن من تجاهلها بعد الآن".