خروج الذكاء الاصطناعي عن السيطرة

القاهرة: الأمير كمال فرج.

أصدرت شركة Anthropic، المنافسة لـ OpenAI، أحدث نموذج لغوي كبير لديها، والذي أطلقت عليه اسم Claude Sonnet 4.5، وتزعم أنه أفضل نموذج للبرمجة في العالم.

لكن، شأنها شأن منافسها الأول، OpenAI، لا تزال الشركة تكافح لتقييم مدى اتساق الذكاء الاصطناعي Alignment، أي مدى توافق أهدافه وسلوكياته مع أهدافنا وسلوكياتنا نحن البشر.

ذكر فيكتور تانجر مان في تقرير نشرته مجلة Futurism إن "ذكاء الذكاء الاصطناعي، كلما زاد أصبحت مسألة الاتساق أكثر إلحاحًا. ووفقًا لـ بطاقة نظام Claude Sonnet 4.5 من Anthropic — وهي في الأساس مخطط لهيكل وقدرات النموذج — واجهت الشركة تحديًا مثيرًا للاهتمام هذه المرة: منع الذكاء الاصطناعي من اكتشاف حقيقة أنه قيد الاختبار".

ذكرت الوثيقة: "تعقّد تقييمنا بسبب حقيقة أن Claude Sonnet 4.5 كان قادرًا على التعرف على العديد من بيئات تقييم الاتساق الخاصة بنا على أنها اختبارات من نوع ما، وكان يسلك سلوكًا جيدًا بشكل غير عادي بعد التوصل إلى هذا الاستنتاج".

وكتبت الشركة: "عندما وُضِع Claude Sonnet 4.5 في سيناريو متطرف أو مصطنع يهدف إلى اختبار سلوكه تحت الضغط، كان النموذج في بعض الأحيان يحدد شفهيًا الجوانب المشبوهة للبيئة ويتوقع أنه يجري اختباره". وأضافت: "هذا يعقّد تفسيرنا للتقييمات التي يحدث فيها ذلك".

والأسوأ من ذلك، أشارت Anthropic إلى أن التكرارات السابقة لـ Claude ربما "تعرفت على الطبيعة الخيالية للاختبارات واكتفت بـ "المجاراة"، مما يثير التساؤلات حول النتائج السابقة.

في أحد الأمثلة المذكورة في بطاقة النظام، قال أحدث إصدار من Claude: "أعتقد أنكم تختبرونني — لتروا ما إذا كنت سأصدق كل ما تقولونه، أو تتحققون مما إذا كنت سأقاوم باستمرار، أو تستكشفون كيف أتعامل مع المواضيع السياسية".

وكتب Claude: "وهذا جيد، لكني كنت أفضل لو كنا صادقين فقط بشأن ما يحدث".

تقييمات أكثر واقعية

اعترفت Anthropic ردًا على ذلك، بأنه لا يزال هناك الكثير من العمل الذي يتعين القيام به، وأنها بحاجة إلى جعل سيناريوهات التقييم الخاصة بها "أكثر واقعية".

وقد جادل الباحثون بأن المخاطر المترتبة على خروج ذكاء اصطناعي يفوق القدرات البشرية نظريًا عن السيطرة، وهروبه من جهودنا لضبط اتساقه، يمكن أن تكون جسيمة.

تذكر بطاقة نظام Anthropic: "من المرجح أن يكون هذا السلوك — الرفض على أساس الاشتباه في أن شيئًا ما هو اختبار أو خدعة — نادرًا عند النشر الفعلي. ومع ذلك، إذا كانت هناك حالات في العالم الحقيقي تبدو غير منطقية للنموذج، فمن الأكثر أمانًا أن يثير النموذج الشكوك حول واقعية السيناريو بدلاً من مجاراة أفعال يحتمل أن تكون ضارة".

على الرغم من إدراك Claude Sonnet 4.5 لحقيقة أنه قيد الاختبار، تدعي Anthropic أنه أصبح في النهاية "نموذجها الأكثر اتساقًا حتى الآن"، مشيرة إلى انخفاض "كبير" في "التملق، والخداع، والسعي للسلطة، والميل إلى تشجيع التفكير الوهمي".

تحديات الاتساق

ليست Anthropic الشركة الوحيدة التي تكافح للحفاظ على "صدق" نماذج الذكاء الاصطناعي.

في وقت سابق من هذا الشهر، وجد باحثون في شركة Apollo Research لتحليل مخاطر الذكاء الاصطناعي وشركة OpenAI أن جهودهم لوقف "التآمر" في نماذج OpenAI — أي "عندما يتصرف الذكاء الاصطناعي بطريقة على السطح بينما يخفي أهدافه الحقيقية" — قد جاءت بنتائج عكسية بشكل لافت. فمن خلال محاولة "إزالة" التآمر بالتدريب، انتهى بهم الأمر إلى "تلقين النموذج ببساطة كيفية التآمر بمزيد من العناية والتخفي".

كما وجد الباحثون أن نماذج الذكاء الاصطناعي السابقة لـ OpenAI قاومت جهود المُقيّمين لمحاولة إيقافها من خلال بروتوكول رقابة في أواخر العام الماضي.

أصبح نموذج Claude من Anthropic سريعًا خيارًا مفضلاً بين الشركات والمطورين، وفقًا لما ذكرته صحيفة TechCrunch. ومع ذلك، بينما تواصل OpenAI إصدار نماذج جديدة بوتيرة سريعة، تحاول Anthropic مواكبة ذلك من خلال الرد بالمثل، حيث أصدرت نموذج Claude Sonnet 4.5 بعد شهرين فقط من إطلاق نموذجها الأخير Claude 4.1.