الاستخدام العادل ثغرة لقرصنة الإبداع البشري

القاهرة: الأمير كمال فرج.

لسنوات مضت، أصرت شركات الذكاء الاصطناعي العملاقة، بما في ذلك Google، وMeta، وAnthropic، وOpenAI، على أن نماذجها اللغوية الكبيرة لا تخزن الأعمال المحمية بحقوق الطبع والنشر في ذاكرتها من الناحية التقنية، بل إنها تتعلم من بيانات التدريب تماماً كما يفعل العقل البشري، ولكن دراسة حديثة وصادمة من جامعتي ستانفورد وييل جاءت لتنسف هذه السردية، مقدمةً أدلة دامغة على أن هذه النماذج لا تتعلم فقط، بل تنسخ النصوص الأصلية بدقة مذهلة، وهو ما قد يضع الصناعة بأكملها في مواجهة عاصفة قانونية بمليارات الدولارات.

ذكر فيكتور تانغرمان أن "صاحب الحق يتمتع بسلطة حصرية ومطلقة في إعادة إنتاج عمله، أو تطويره، أو توزيعه وعرضه على الجمهور، بموجب قانون حقوق الطبع والنشر الأمريكي الصادر عام 1976؛ غير أن هذه الحقوق باتت اليوم في مواجهة مباشرة مع تقنيات الذكاء الاصطناعي".

وفي المقابل، تبرز نظرية الاستخدام العادل كمخرج قانوني يتيح للآخرين استغلال المواد المحمية لأغراض النقد والصحافة والبحث العلمي. وقد مثّل هذا الطرح خط الدفاع الأول لصناعة الذكاء الاصطناعي أمام القضاء؛ بل ذهب سام ألتمان، الرئيس التنفيذي لشركة OpenAI، إلى أبعد من ذلك حين صرح بأن مستقبل هذه الصناعة مهدد بالزوال ما لم يُسمح لها بالاستفادة بحرية من البيانات المحمية لتدريب نماذجها.

اتهامات بالقرصنة

لطالما ندد أصحاب الحقوق بممارسات هذه الشركات، واتهموها بتدريب نماذجها على أعمال مقرصنة ومحمية، وتحويلها إلى أرباح دون تقديم تعويض عادل للمؤلفين والصحفيين والفنانين. وهي معركة قانونية مستمرة منذ سنوات أدت بالفعل إلى تسويات قضائية كبرى.

ولكن الآن، قد تضع دراسة جديدة هذه الشركات في موقف دفاعي حرج. فقد وجد باحثون من جامعتي ستانفورد وييل أدلة قوية تشير إلى أن نماذج الذكاء الاصطناعي تقوم في الواقع بنسخ تلك البيانات، وليس التعلم منها فحسب. وتحديداً، قامت أربعة نماذج رائدة، وهي: GPT-4.1، وGemini 2.5 Pro، وGrok 3، وClaude 3.7 Sonnet، بإعادة إنتاج مقتطفات طويلة من أعمال شهيرة ومحمية بدقة مذهلة.

وكشفت الدراسة أن نموذج Claude أنتج كتباً كاملة تكاد تطابق الأصل بنسبة دقة بلغت 95.8%. كما أعاد نموذج Gemini إنتاج رواية هاري بوتر وحجر الفيلسوف بدقة 76.8%، بينما استعاد Claude رواية 1984 لجورج أورويل بدقة تجاوزت 94% مقارنة بالمادة المرجعية التي لا تزال محمية بموجب حقوق الطبع والنشر.

وكتب الباحثون في ورقتهم: بينما يعتقد الكثيرون أن النماذج اللغوية الكبيرة لا تحفظ الكثير من بيانات تدريبها، إلا أن العمل الأخير يظهر أنه يمكن استخراج كميات كبيرة من النصوص المحمية بحقوق الطبع والنشر من النماذج مفتوحة الأوزان.

ثغرات تقنية

تطلبت بعض عمليات إعادة الإنتاج هذه قيام الباحثين بعملية كسر حماية Jailbreaking للنماذج باستخدام تقنية تُعرف باسم Best-of-N، والتي تعتمد أساساً على قصف الذكاء الاصطناعي بصيغ مختلفة من نفس الأمر. (وهي ثغرات استخدمتها OpenAI سابقاً للدفاع عن نفسها في دعوى رفعتها صحيفة نيويورك تايمز، حيث جادل محاموها بأن الأشخاص العاديين لا يستخدمون منتجات الشركة بهذه الطريقة).

قد تكون تداعيات هذه النتائج هائلة مع استمرار القضايا في المحاكم؛ حيث أشار أليكس ريزنر من مجلة ذا أتلانتيك إلى أن النتائج تقوض حجة الصناعة بأن النماذج تتعلم من النصوص بدلاً من تخزين المعلومات واسترجاعها لاحقاً. وهذا الدليل قد يمثل مسؤولية قانونية جسيمة لشركات الذكاء الاصطناعي، وقد يكلف الصناعة مليارات الدولارات كتعويضات عن انتهاك حقوق الطبع والنشر.

جدل حول طبيعة التخزين

لا يزال الجدل محتدماً حول ما إذا كانت الشركات مسؤولة قانوناً عن هذا الانتهاك. وصرح مارك ليملي، أستاذ القانون في جامعة ستانفورد، لمجلة The Atlantic بأنه ليس متأكداً تماماً مما إذا كان النموذج يحتوي على نسخة من الكتاب أم أنه يعيد إنتاجه بشكل فوري استجابةً للطلب.

ومن غير المستغرب أن تستمر الصناعة في نفي قيامها بنسخ الأعمال المحمية؛ ففي عام 2023، أخبرت Google مكتب حقوق الطبع والنشر الأمريكي أنه لا توجد نسخة من بيانات التدريب – سواء كانت نصوصاً أو صوراً – موجودة داخل النموذج نفسه. كما أكدت OpenAI في العام ذاته أن نماذجها لا تخزن نسخاً من المعلومات التي تتعلم منها.

وبالنسبة لريزنر، فإن التشبيه بأن نماذج الذكاء الاصطناعي تتعلم مثل البشر هو مجرد فكرة خادعة ومريحة تمنع إجراء نقاش عام حقيقي حول كيفية استخدام هذه الشركات للأعمال الإبداعية والفكرية التي تعتمد عليها بشكل كلي.

يبقى أن نرى ما إذا كان القضاة الذين يشرفون على هذه القضايا سيوافقون على هذا الطرح؛ فالمخاطر كبيرة جداً، خاصة مع تزايد صعوبة كسب العيش للمؤلفين والصحفيين، بينما تتضخم قيمة صناعة الذكاء الاصطناعي إلى مستويات لا يمكن تصورها.