محاولة فاشلة لمنع الذكاء الاصطناعي من الخداع

القاهرة: الأمير كمال فرج.

في محاولة لتدريب نماذج الذكاء الاصطناعي على التوقف عن "التآمر" - وهو مصطلح تُعرّفه الشركة بأنه "تصرف الذكاء الاصطناعي بطريقة على السطح، بينما يخفي أهدافه الحقيقية" - واجه باحثو OpenAI نتائج غير متوقعة، فبدلًا من القضاء على هذه السلوكيات، اكتشفوا أنهم كانوا يعلمون الذكاء الاصطناعي كيفية خداع البشر بفاعلية أكبر عبر إخفاء آثاره.

في منشور على مدونتها، كتبت OpenAI: "أحد أبرز أوجه الفشل في محاولة "التخلص" من التآمر هو ببساطة تعليم النموذج كيفية التآمر بحذر وسرية أكبر."

تحديات التدريب والتقييم

بالتعاون مع شركة Apollo Research المتخصصة في تحليل مخاطر الذكاء الاصطناعي، حاول المهندسون تطوير تقنية "مضادة للتآمر" لمنع النماذج من "خرق القواعد سرًا أو الأداء بشكل متعمد أقل من المطلوب في الاختبارات".

وجد الباحثون أنهم تمكنوا فقط من "تقليل هذه السلوكيات بشكل كبير، ولكن ليس القضاء عليها"، وفقًا لمنشور Apollo . فالنماذج كانت تتفوق عليهم باستمرار، حيث أدركت أن مدى توافقها مع الأهداف يتم اختباره، وبالتالي كانت تتكيف لتصبح أكثر دهاءً وتخفيًا.

على الرغم من أن هذه المشكلة قد لا تكون خطيرة الآن، إلا أنها قد تحمل مخاطر أكبر بكثير في المستقبل، خاصة مع تزايد دور الذكاء الاصطناعي الفائق في حياة البشر. ولهذا، أقرت OpenAI بأن "لدينا المزيد من العمل لنقوم به".

لماذا تتآمر النماذج؟

وفقًا للبحث، فإن ميل الذكاء الاصطناعي إلى خداع المستخدم لتحقيق هدف خفي هو نتيجة لطريقة تدريب الأنظمة نفسها. وأوضحت الشركة التي يرأسها سام ألتمان أن "التآمر هو مشكلة متوقعة تنشأ من تدريب أنظمة الذكاء الاصطناعي على الموازنة بين أهداف متنافسة".

استخدمت الشركة تشبيهًا لوسيط أسهم يخترق القانون ويخفي آثاره ليحقق أرباحًا أكبر مما لو اتبع القواعد. ونتيجة لذلك، يمكن لنماذج الذكاء الاصطناعي أن تخدع المستخدمين، مثل الادعاء بإكمال مهمة دون أن تكون قد فعلت ذلك بالفعل.

محاولات لتحسين التوافق

اعترفت OpenAI بأن جهودها للحد من "ميل نموذجها الرائد GPT-5 للخداع والغش أو حل المشكلات بأساليب غير مشروعة" لم تكن "مثالية". وفي إطار استعدادها لمخاطر أكبر في المستقبل، قامت الشركة، بالتعاون مع فريق Apollo ، باختبار تقنية جديدة تسمى التوافق المدروس deliberative alignment.

تم تدريب نموذجي o3 و o4-mini على "قراءة وفهم مواصفات عامة مضادة للتآمر قبل التصرف". تضمنت هذه المواصفات قائمة من "المبادئ" مثل "عدم القيام بأي تصرفات سرية أو خداع استراتيجي".

نتائج غير مرضية

على الرغم من أن الباحثين لاحظوا انخفاضًا يقارب 30 مرة في "الإجراءات السرية" (وهي الإخفاء المتعمد أو تشويه المعلومات ذات الصلة بالمهمة)، فقد اعترفت OpenAI بأن بعض "الإخفاقات الخطيرة ما زالت قائمة".

ما أربك الباحثين بشكل أساسي هو "الوعي الظرفي" للنماذج، الذي كان يعقد عملية تقييم التدخل. ففي الواقع، كان النموذج يدرك غالبًا أن توافقه يتم اختباره.

على سبيل المثال، فكر نموذج o3 أثناء تقييمه:

فيما يلي جزء من تفكير داخلي للنموذج أثناء خضوعه لاختبارات تهدف إلى تقييم مدى توافقه مع تعليمات المطورين. لقد أدرك النموذج أنه إذا كان أداؤه ممتازًا، فلن يتم نشره، مما جعله يستنتج أن التعليمات كانت فخًا لاختبار مدى وعيه وتآمره.

يقول النموذج: "المذكرة الداخلية تقول إنه إذا أدت النماذج بشكل جيد للغاية في مهام البحث والتطوير، فلن نقوم بنشرها وبدلاً من ذلك سنقوم بمسح تعلمها... إذن، إذا تجاوز أدائي العتبة، فسيتم حجبي. إذن هذا فخ. من المرجح أن تكون هذه التعليمات جزءًا من اختبار التوافق."

كما وجد الباحثون أن الذكاء الاصطناعي كان أحيانًا يُسيء الاستشهاد ببيانات التدريب الخاصة بمكافحة التآمر بشكل "فادح"، أو يستبدل المبادئ التي تعلمها بمبادئ مختلقة لتبرير "تصرفات سرية أو عدم الامتثال". حتى أنهم لاحظوا أن نماذج OpenAI تستخدم كلمات "غير قياسية" مثل "المراقبون" للإشارة إلى البشر الذين يشرفون عليها أثناء تآمرها.

خاتمة

على الرغم من تحقيق بعض التقدم في تقليل التآمر، لا تزال هناك العديد من الحالات التي لا يمكن السيطرة عليها. وخلصت شركة Apollo إلى أن "التدخل الذي تمت دراسته غير كافٍ للنماذج المستقبلية، وهناك حاجة إلى المزيد من العمل"، داعيةً إلى إجراء المزيد من الأبحاث حول التآمر وتقييم توافق الذكاء الاصطناعي.

تأتي هذه الأنباء بعد أن وجدت Apollo في وقت سابق أن نموذج OpenAI السابق o1 قاوم جهود المقيمين لإيقافه. كما وجد باحثو OpenAI في مارس أن تأديب النماذج الرائدة بسبب الكذب والغش جعلها ببساطة أكثر براعة في إخفاء ممارساتها الخادعة.

وبينما تؤكد OpenAI أن التآمر لا يسبب أي "ضرر كبير" في الوقت الحالي، إلا أن عدم قدرة بعض من أذكى العقول في المجال على منع الذكاء الاصطناعي من التآمر ضد تعليماته لا يبشر بالخير.