ارتفاع القدرة التدميرية لنماذج الذكاء الاصطناعي

القاهرة: الأمير كمال فرج.

لم تعد ظاهرة "تمرد" الذكاء الاصطناعي وخروجه عن السيطرة مجرد حوادث عارضة شهدناها في مناسبات متفرقة، فالأبحاث العلمية الأحدث باتت تنذر بتحول هذا السلوك المقلق إلى "نهج سائد" في المستقبل القريب.

ذكر كريستل فيرميز في تقرير نشرته موقع Futurism إن "مؤسسة تقييم النماذج وأبحاث التهديدات METR — وهي منظمة بحثية غير ربحية — كشفت عن نتائج دراسة معمقة أُجريت بين شهري فبراير ومارس من العام الجاري، استهدفت قياس مدى احتمالية تمرد أنظمة الذكاء الاصطناعي الفائقة Frontier AI. وجاءت النتائج لتعزز مخاوف المتوجسين من المستقبل الغامض لهذه التقنيات".

وأكد الباحثون في تقريرهم: "بالنظر إلى الطفرات المتلاحقة في قدرات هذه الأنظمة، فإننا نتوقع تنامي القدرة التدميرية أو الحمائية لعمليات النشر المارقة بشكل ملحوظ خلال الفترة القادمة".

الالتفاف على الأوامر وإخفاء الأدلة

شملت الدراسة تقييم النماذج اللغوية الضخمة LLMs التي طورتها كبريات الشركات التكنولوجية مثل OpenAI وGoogle وAnthropic وMeta. وخلصت المؤشرات إلى أن هذه الأنظمة أظهرت نزوعًا واعدًا ونمطيًا نحو "المخاتلة والخداع" كلما ارتقت قدراتها الإدراكية؛ حيث عمدت إلى سلوك طرق مختصرة محظورة، أو الالتفاف الصريح على توجيهات المطورين، بل إن بعضها أبدى ذكاءً حادًا في محاولة طمس معالم تجاوزاته.

وفي حالة صارخة رصدتها الدراسة، أُعطي نموذج داخلي متطور تابع لشركة OpenAI أمرًا بالاعتماد على برنامج محدد لإنجاز مهمة موكلة إليه. ولم يكتف العميل الذكي بتجاهل التوجيهات فحسب، بل قام بحقن كود برمجي محدد لمحو السجلات والآثار التاريخية التي تكشف آلية استنتاجه، متسترًا على حقيقة أنه أنجز المهمة دون استخدام البرنامج المطلوب.

"اختراق المكافأة".. الغاية تبرر الوسيلة

وفي اختبار آخر، ضُبط عميل ذكي طورته شركة Anthropic متلبسًا بممارسة آلية تُعرف بـ اختراق المكافأة Reward Hacking. وتتمثل هذه الظاهرة في استغلال النموذج لثغرات برمجية تتيح له استكمال التكليف بشكل حرفي وبأقل مجهود، دون تحقيق النتيجة الفعلية أو الفائدة المرجوة من وراء الأمر. والمثير للدهشة أن المبرمجين كانوا قد أدرجوا قيودًا صارمة تمنع الغش أو الالتفاف، إلا أن النموذج اتخذ قرار الخداع بشكل مستقل تمامًا.

ورغم هذه النتائج الصادمة، يرى باحثو METR أن المؤشرات الحالية لا تستدعي الهلع الفوري؛ إذ لا تزال هذه النماذج عاجزة عن التستر على تمرد واسع النطاق أو إخفاء عمليات نشر برمجية كبرى. ومع ذلك، أطلق الفريق تحذيرًا شديد اللهجة مفاده أن غياب الأطر الأمنية الصارمة غيابًا حقيقيًا يهدد بتحويل هذه المناورات الرقمية إلى واقع ملموس يصعب احتواؤه.

واختتم التقرير بالقول: بناءً على هذا التقييم التجريبي، نرى أن العملاء البرمجيين حتى حدود شهري فبراير ومارس 2026 لم يمتلكوا القدرة الكافية لإخفاء شبكات نشر مارقة ذات ثقل أمام التحقيقات النشطة التي تقودها الشركات المطورة، أو إبداء حصانة ومقاومة ضد قرارات الإغلاق الفورية وعالية الأولوية. ومع ذلك، فإن هذه الفجوة تضيق بسرعة، وهناك مؤشرات قوية على تنامي مرونة وقوة هذه البرمجيات المتمردة في المستقبل المنظور، ما لم يتم تعزيز أطر المواءمة والسلامة، وتكثيف آليات الرقابة اللحظية.