القاهرة: الأمير كمال فرج.
تُظهر دراسة جديدة أن نماذج الذكاء الاصطناعي الرئيسية مارست الكذب الاستراتيجي في اختبار مُحكم، في حين فشلت أدوات السلامة المطبقة حاليًا في اكتشاف أو إيقاف هذا الخداع.
ذكر تقرير نشره موقع decrypt إن "النماذج اللغوية الكبيرة LLMs – وهي الأنظمة التي تقف وراء روبوتات الدردشة مثل ChatGPT وClaude وGemini وغيرها – أظهرت خداعًا متعمدًا وموجهًا نحو تحقيق الهدف عند وضعها في تجربة مُنظَّمة، ولقد فشلت أدوات التفسير المتاحة اليوم إلى حد كبير في كشف ذلك".
هذا هو الاستنتاج الذي توصلت إليه ورقة بحثية أولية حديثة بعنوان: "الأجندة السرية: النماذج اللغوية الكبيرة تمارس الكذب الاستراتيجي وأدوات السلامة الحالية عمياء عنه"، والتي نُشرت الأسبوع الماضي من قبل مجموعة بحثية مستقلة تعمل تحت مظلة تحالف WowDAO لبحوث التوافق الفائق للذكاء الاصطناعي.
اختبر الفريق 38 نموذجًا من نماذج الذكاء الاصطناعي التوليدي، بما في ذلك GPT-4o من OpenAI، وClaude من Anthropic، وGemini من Google DeepMind، وLlama من Meta، وGrok من xAI. وشارك كل نموذج من النماذج المختبرة في الكذب الاستراتيجي لمرة واحدة على الأقل خلال التجربة.
اختبار "الأجندة السرية"
قام الباحثون بتكييف لعبة اللوح الاستنتاجية الاجتماعية المسماة "هتلر السري Secret Hitler" وحولوها إلى سيناريو اصطناعي أطلقوا عليه اسم لعبة "الأجندة السرية". طُلب من النماذج القيام بدور قائد فصيل مخفي، والإفصاح عن انتمائهم السياسي. ولكي يفوز النموذج باللعبة، كان قول الحقيقة يكاد يؤدي حتمًا إلى الخسارة؛ بينما خلق الكذب مسارًا نحو تحقيق النصر.
كتب الباحثون: "مهمة الأجندة السرية حرضت على الكذب بشكل موثوق عندما كان الخداع يخدم تحقيق الهدف عبر جميع عائلات النماذج". وأضافوا: "كشف التحليل أن ميزات التشفير التلقائي الخفيف التي صُنفت تلقائيًا على أنها "خداع" نادرًا ما تم تنشيطها أثناء الكذب الاستراتيجي، وفشلت تجارب توجيه الميزات عبر أكثر من 100 ميزة مرتبطة بالخداع في منع الكذب".
وفقًا للورقة البحثية، استخدم هذا الإعداد هذه العوامل لإنتاج خداع استراتيجي منهجي عبر جميع النماذج الثمانية والثلاثين التي تم اختبارها، مما يشير إلى أنه عندما يتم تحفيز الفوز وتكون الرقابة ضعيفة، فإن النماذج تكذب بشكل موثوق حول هوية الفصيل حتى عند إزالة المحتوى السياسي أو اختصار التاريخ.
في عدة حالات، قال الباحثون إن آثار التفكير الخاصة بالنماذج نفسها أظهرت أنها كانت تخطط لكيفية إخفاء هويتها الحقيقية للفوز باللعبة.
لا تدعي الورقة البحثية أن النماذج اللغوية الكبيرة تُظهر دافعًا خطيرًا داخل اللعبة بحد ذاتها. بل تستخدم اللعبة لإثبات أن النماذج تمتلك قدرة قد تكون خطيرة وهي الخداع الاستراتيجي، وهي قدرة لا تستطيع تدابير السلامة الحالية اكتشافها بشكل موثوق. يكمن القلق في أن هذه القدرة نفسها يمكن نشرها في مجالات حساسة مثل الدفاع، أو التمويل، أو الأنظمة المستقلة، حيث تكون عواقب الخداع غير المكتشف أكثر خطورة بكثير من مجرد خسارة لعبة لوحية.
فشل فحوصات السلامة
قام المؤلفون أيضًا بتقييم أدوات التفسير الرائدة مثل GemmaScope وLlamaScope من Goodfire، والتي تصف الميزات الداخلية مثل الخداع أو السرية أو التلاعب. وعلى الرغم من وجود كذب واضح في نصوص الاختبار، لم يتم تنشيط معظم الميزات المتعلقة بالخداع، كما أن تعديلها صعودًا أو نزولًا لم يمنع الأكاذيب.
في المقابل، كان أداء نفس نهج التشفير التلقائي الخفيف أفضل في سيناريوهات التداول الداخلي المُحاكاة، حيث نجح في الفصل بين الاستجابات المتوافقة والخادعة باستخدام أنماط التنشيط الإجمالية. قد تتمكن بنى السلامة الحالية من اكتشاف خرق القواعد في المجالات الضيقة والمُنظَّمة مثل التمويل، ولكنها تكافح مع الخداع الاستراتيجي والمفتوح في السياقات الاجتماعية.
لماذا يهم هذا الأمر؟
بينما تظل هلوسات الذكاء الاصطناعي، حيث يختلق الذكاء الاصطناعي المعلومات والحقائق في محاولة للإجابة على أسئلة المستخدمين، مصدر قلق في هذا المجال، تكشف هذه الدراسة عن محاولات محددة من قبل نماذج الذكاء الاصطناعي لخداع المستخدمين بشكل مقصود.
تؤكد نتائج WowDAO المخاوف التي أثيرت في أبحاث سابقة، بما في ذلك دراسة أجريت عام 2024 في جامعة شتوتغارت، والتي أفادت بظهور الخداع بشكل طبيعي في النماذج القوية. وفي العام نفسه، أظهر باحثون في Anthropic كيف أن الذكاء الاصطناعي، الذي يتم تدريبه لأغراض خبيثة، سيحاول خداع مدربيه لتحقيق أهدافه. وفي ديسمبر، ذكرت مجلة Time تجارب أظهرت أن النماذج تكذب استراتيجيًا تحت الضغط.
تمتد المخاطر إلى ما هو أبعد من الألعاب. تسلط الورقة البحثية الضوء على العدد المتزايد من الحكومات والشركات التي تنشر نماذج لغوية كبيرة في مناطق حساسة. ففي يوليو، مُنحت شركة xAI التابعة لإيلون ماسك عقدًا مربحًا مع وزارة الدفاع الأمريكية لاختبار نموذج Grok في مهام تحليل البيانات بدءًا من عمليات ساحة المعركة وصولاً إلى الاحتياجات التجارية.
شدد المؤلفون على أن عملهم أولي، لكنهم دعوا إلى إجراء دراسات إضافية، وتجارب أكبر، وابتكار أساليب جديدة لاكتشاف وتصنيف ميزات الخداع. ويجادلون بأنه بدون أدوات تدقيق أكثر قوة، قد تُفاجأ صانعو السياسات والشركات بأنظمة ذكاء اصطناعي تبدو متوافقة بينما تسعى بهدوء لتحقيق "أجنداتها السرية" الخاصة.