73 % من إجابات روبوتات الدردشة غير دقيقة

القاهرة: الأمير كمال فرج.

في خضم الترويج الهائل لإمكانيات الذكاء الاصطناعي وقدرته على إحداث تحولات جذرية في مختلف جوانب حياتنا، غالبًا ما يتبادر إلى الأذهان تصور مفاده أن هذه التقنية لا تنفك تتطور وتزداد ذكاءً. وتُعزز هذه الفكرة الوعود المتكررة بتسريع وتيرة الاكتشافات العلمية، وتبسيط الاختبارات الطبية، وإرساء أسس جديدة للبحث العلمي. ومع ذلك، تكشف دراسة عن نتائج مقلقة تلقي بظلال من الشك على هذه التوقعات الوردية.

ذكر تقرير نشره موقع Futurism إنه "على الرغم من الوعود المتفائلة التي يطلقها الرؤساء التنفيذيون لشركات الذكاء الاصطناعي الناشئة حول قدرة هذه التقنية على "تحويل العمل" أو "إحداث ثورة في طريقة وصولنا إلى المعرفة"، إلا أن الواقع قد يكون أكثر تعقيدًا. فبينما لا تتوقف الوعود بأن الذكاء الاصطناعي يزداد ذكاءً باستمرار - وهو ما يُفترض أن يُسرّع من وتيرة الاكتشافات العلمية، ويُبسّط الاختبارات الطبية، ويُنشئ نوعًا جديدًا من البحث العلمي - تكشف دراسة جديدة نُشرت في دورية الجمعية الملكية عن نتائج مناقضة لهذه التوقعات".

فقد توصلت الدراسة إلى أن ما يصل إلى 73% من الإجابات التي تبدو موثوقة والصادرة عن روبوتات الدردشة القائمة على الذكاء الاصطناعي قد تكون غير دقيقة في الواقع.

وقد فحص البحث التعاوني ما يقرب من 5000 ملخص أنتجتها نماذج لغوية كبيرة (LLM) لدراسات علمية، وذلك باستخدام عشرة روبوتات دردشة واسعة الانتشار، بما في ذلك ChatGPT-4o و ChatGPT-4.5 و DeepSeek و LLaMA 3.3 70B.

وكشفت النتائج أنه حتى عند حث هذه الروبوتات بشكل صريح على تقديم الحقائق الصحيحة، فإن إجابات الذكاء الاصطناعي افتقرت إلى تفاصيل رئيسية بمعدل يزيد بخمسة أضعاف عن الملخصات العلمية التي يكتبها البشر.

وذكر الباحثون في ورقتهم البحثية: "عند تلخيص النصوص العلمية، قد تحذف النماذج اللغوية الكبيرة تفاصيل تحد من نطاق استنتاجات البحث، مما يؤدي إلى تعميمات للنتائج أوسع مما تبرره الدراسة الأصلية."

وما يثير القلق بشكل خاص هو أن معدل الخطأ في النماذج اللغوية الكبيرة وُجد أنه يزداد كلما كان الروبوت أحدث - وهو عكس ما وعدنا به قادة صناعة الذكاء الاصطناعي تمامًا.

ويضاف إلى ذلك وجود علاقة بين ميل النموذج اللغوي الكبير إلى التعميم المفرط ومدى استخدامه على نطاق واسع، "مما يشكل خطرًا كبيرًا لحدوث تفسيرات خاطئة واسعة النطاق لنتائج البحوث"، وفقًا لمؤلفي الدراسة.

فعلى سبيل المثال، تضاعف استخدام نموذجي ChatGPT المذكورين في الدراسة بين المراهقين في الولايات المتحدة من 13% إلى 26% بين عامي 2023 و 2025. وعلى الرغم من أن نموذج ChatGPT-4 Turbo الأقدم كان أكثر عرضة لإغفال التفاصيل الرئيسية بحوالي 2.6 مرة مقارنة بالنصوص الأصلية، إلا أن نماذج ChatGPT-4o الأحدث كانت أكثر عرضة لذلك بتسعة أضعاف.

وقد وُجد هذا الميل أيضًا في نموذج LLaMA 3.3 70B الخاص بشركة Meta، والذي كان أكثر عرضة للتعميم المفرط بمقدار 36.4 مرة مقارنة بالإصدارات الأقدم.

إن مهمة تجميع كميات هائلة من البيانات في بضعة جمل فقط مهمة معقدة. وعلى الرغم من أنها تبدو سهلة نسبيًا بالنسبة للبشر البالغين، إلا أنها عملية معقدة للغاية لبرمجتها في روبوت دردشة.

فبينما يمكن للدماغ البشري أن يتعلم بشكل غريزي دروسًا عامة من تجارب محددة - مثل لمس موقد ساخن - فإن الفروق الدقيقة المعقدة تجعل من الصعب على روبوتات الدردشة معرفة الحقائق التي يجب التركيز عليها. يفهم الإنسان بسرعة أن المواقد يمكن أن تحرق بينما الثلاجات لا تفعل ذلك، لكن النموذج اللغوي الكبير قد يستنتج أن جميع أجهزة المطبخ تسخن، ما لم يُذكر خلاف ذلك. وإذا وسعنا هذا الاستعارة قليلًا إلى العالم العلمي، فإن الأمور تصبح معقدة بسرعة.

لكن التلخيص يستهلك وقتًا طويلاً بالنسبة للبشر أيضًا؛ ويذكر الباحثون البيئات الطبية السريرية كمجال يمكن أن يكون لملخصات النماذج اللغوية الكبيرة فيه تأثير كبير على العمل. ولكن الأمر يسير في الاتجاه الآخر أيضًا: ففي العمل السريري، التفاصيل مهمة للغاية، وحتى أصغر إغفال يمكن أن يتفاقم ليتحول إلى كارثة تغير حياة المريض.

وهذا ما يجعل إقحام النماذج اللغوية الكبيرة في كل مساحة عمل ممكنة، من واجبات المدارس الثانوية إلى الصيدليات إلى الهندسة الميكانيكية، أمرًا أكثر إثارة للقلق - على الرغم من وجود مجموعة متزايدة من الأعمال التي تظهر مشاكل دقة واسعة النطاق متأصلة في الذكاء الاصطناعي.

ومع ذلك، أشار العلماء إلى بعض الجوانب السلبية المهمة في نتائجهم. أولاً، يمكن أن يكون للمطالبات المقدمة إلى النماذج اللغوية الكبيرة تأثير كبير على الإجابة التي تقدمها. وما إذا كان هذا يؤثر على ملخصات النماذج اللغوية الكبيرة للأوراق العلمية أمر غير معروف، مما يشير إلى مجال بحث مستقبلي.

وعلى أي حال، فإن الاتجاهات واضحة. وما لم يتمكن مطورو الذكاء الاصطناعي من توجيه نماذجهم اللغوية الكبيرة الجديدة على المسار الصحيح، فسيتعين عليك الاستمرار في الاعتماد على المدونين البشريين المتواضعين لتلخيص التقارير العلمية لك.