94 % من إجابات Grok 3 خاطئة

القاهرة: الأمير كمال فرج.

كشفت دراسة حديثة نشرتها مجلة Columbia أن محركات البحث المدعومة بالذكاء الاصطناعي تقدم معلومات خاطئة بنسبة مذهلة. قد يبدو هذا صادمًا، لكنه الواقع.

ذكر تقرير نشره موقع Futurism أن "باحثون من مركز "تاو" للصحافة الرقمية أجروا تحليلًا شمل ثمانية نماذج للذكاء الاصطناعي، بما في ذلك "بحث ChatGPT" من OpenAI و"Gemini" من Google. وخلص التحليل إلى أن هذه النماذج قدمت إجابات غير صحيحة لأكثر من 60% من الاستفسارات المطروحة".

ومن المثير للقلق أن النموذج الأكثر دقة في هذه الاختبارات، "Perplexity" من شركة Perplexity AI، لا يزال يقدم إجابات خاطئة بنسبة 37%. أما جائزة "الأداء الأسوأ" فكانت من نصيب روبوت المحادثة "Grok 3" من إيلون ماسك، الذي قدم معلومات خاطئة بنسبة صادمة بلغت 94%.

حذر الباحثون من أن "محركات البحث التقليدية تعمل كوسيط، توجه المستخدمين إلى المواقع الإخبارية والمحتوى عالي الجودة، بينما تقوم أدوات البحث التوليدية بتحليل المعلومات وإعادة تجميعها، مما يقطع تدفق الزيارات إلى المصادر الأصلية. وغالبًا ما تخفي مخرجات هذه الروبوتات المحادثة مشاكل خطيرة تتعلق بجودة المعلومات".

لقد تم توثيق ميل نماذج اللغة الكبيرة إلى الكذب أو تقديم معلومات خاطئة بشكل جيد. ومع ذلك، لم يمنع ذلك شركات التكنولوجيا من محاولة استبدال البحث التقليدي على الويب، حيث أصدر البعض نسخًا من روبوتات المحادثة الحالية مصممة خصيصًا لهذا الغرض، مثل "بحث ChatGPT". حتى أن جوجل قدمت "AI Mode" الذي يعرض ملخصات "Gemini" فقط بدلاً من روابط الويب.

توضح هذه الدراسة الأخيرة سبب كون هذا التوجه فكرة سيئة. تم إجراء الدراسة عن طريق اختيار عشر مقالات عشوائية من مجموعة تضم عشرين منشورًا، تتراوح بين Wall Street Journal وTechCrunch.

في اختبار كان من المفترض أن يكون سهلاً، طُلب من روبوتات المحادثة تحديد عنوان المقال، والناشر، وتاريخ النشر، وعنوان URL الخاص به. ولتسهيل الأمر، حرص الباحثون على اختيار مقتطفات من المقالات التي أظهرت المصدر الأصلي ضمن النتائج الثلاث الأولى في بحث Google التقليدي.

بالإضافة إلى إظهار أن نماذج الذكاء الاصطناعي كانت مخطئة في أكثر من نصف الحالات، كشفت هذه الاختبارات عن ميول أخرى غير منطقية. من بينها، تقديم "حكمتها المشكوك فيها بثقة مثيرة للقلق"، إما بعدم تحديد إجاباتها أو الفشل في رفض الأسئلة التي لا تعرف إجابتها.

يتماشى هذا مع أبحاث أخرى توثق كيف تفضل نماذج الذكاء الاصطناعي "التوهم" - أو اختلاق الإجابات - بدلاً من الاعتراف بأنها خارج نطاق معرفتها. ربما يكون ذلك لأن سياسة الصدق ستكشف مدى عدم جدوى نماذج الذكاء الاصطناعي. على سبيل المثال، رفض "Copilot" من Microsoft أسئلة أكثر مما أجاب عليها، حسبما ذكر الباحثون.

كانت أدوات البحث المدعومة بالذكاء الاصطناعي سيئة أيضًا في الاستشهاد بمصادرها. ربط "بحث ChatGPT" بمقال مصدر خاطئ في حوالي 40% من الحالات، ولم يكلف نفسه عناء تقديم مصدر في 21% من الحالات الأخرى.

هذا أمر سيء من وجهة نظر التحقق من الحقائق، ومحبط بنفس القدر للناشرين، الذين سيحرمون من فرصة الحصول على زيارات من نموذج ذكاء اصطناعي قام بجمع محتواهم. هذا لا يبشر بالخير لبقاء اقتصاد وسائل الإعلام عبر الإنترنت، أليس كذلك؟