سرقة 7.5 مليون كتاب لتدريب الذكاء الاصطناعي

القاهرة: الأمير كمال فرج.

في عالم يعد الذكاء الاصطناعي (AI) بثورة تكنولوجية غير مسبوقة، تبرز تكاليف باهظة قد لا يلحظها الكثيرون. فبالإضافة إلى استهلاك الطاقة الهائل الذي تتطلبه مراكز البيانات الخاصة بالذكاء الاصطناعي، والتي تلتهم كميات ضخمة من الموارد الطبيعية وتتسبب في انبعاثات كربونية كبيرة، هناك جانب آخر أقل وضوحًا لكنه لا يقل خطورة: جشع الذكاء الاصطناعي تجاه البيانات.

ذكر تقرير نشره موقع Futurism أن "النماذج اللغوية الكبيرة (LLMs)، مثل تلك التي تدعم منتجات ChatGPT من OpenAI، تحتاج إلى كميات هائلة من النصوص لتدريب خوارزمياتها على فهم اللغة وتوليدها. ولكن مع تزايد الطلب على هذه البيانات، أصبحت المصادر الأصلية شحيحة".

يقول عالم الكمبيوتر ستوارت راسل أن " النصوص المتاحة لتدريب هذه الأنظمة تنفد". وفي عام 2025، أصبحت هذه المشكلة أكثر حدة.

في هذا السياق، كشفت شركة Meta، المالكة لـ Facebook وInstagram، عن جانب مظلم من عمليات جمع البيانات. ففي يناير الماضي، خسرت Meta معركة قضائية كبرى أمام مجموعة من المؤلفين الذين اتهموها باستخدام كتبهم دون إذن لتدريب ذكاءها الاصطناعي.

وكشفت القضية أن Meta قامت بتحميل مكتبة "LibGen" الشهيرة، عن طريق قرصنة إلكترونية، للحصول على ملايين النصوص المحمية بحقوق نشر. هذه الكتب تم استخدامها لتدريب نموذج Lamma اللغوي الخاص بالشركة، بعد أن وافق مارك زوكربيرج شخصيًا على ذلك. بمعنى آخر، واحدة من أكبر الشركات في العالم لم تتحمل حتى تكلفة شراء نسخة واحدة من الكتب التي استخدمتها لبناء ذكائها الاصطناعي.

هذا الأسبوع، قامت مجلة The Atlantic بتطوير محرك بحث يمكنه الغوص في ملفات "LibGen" للكشف عن الكتب التي تمت سرقتها بواسطة Meta. وتبين أن عملية جمع البيانات كانت واسعة النطاق، حيث شملت أكثر من 7.5 مليون كتاب و81 مليون ورقة أكاديمية، بالإضافة إلى أعمال فنية ومعمارية منشورة.

القضية، التي قادها مؤلفون مثل تا-نهيسي كوتس وسارة سيلفرمان، أثارت نقاشًا واسعًا حول قوانين حقوق النشر وأخلاقيات الذكاء الاصطناعي وقرصنة المحتوى. وقال الكاتب جاستن لينج من مجلة Wired : "كتابي موجود هنا — وهذا جيد! 'LibGen' توفر النصوص لأشخاص قد لا يتمكنون من الوصول إليها. المشكلة في رأيي ليست في توفير المحتوى مجانًا، بل في سرقة Meta لهذه المواد لأغراض تجارية."

من غير الواضح حتى الآن ما إذا كانت Meta ستضطر إلى تعويض المؤلفين، حيث من المتوقع أن يصدر الحكم النهائي في الصيف. ولكن بغض النظر عن النتيجة، فإن الضرر قد وقع بالفعل — فـ Lamma يعمل بحرية على منصات مثل فيسبوك وإنستغرام وواتساب، مما يطرح تساؤلات كبيرة حول مستقبل البيانات في عالم تهيمن عليه الشركات التكنولوجية العملاقة.

هذه الفضيحة ليست مجرد قضية قانونية، بل هي إشارة تحذيرية حول كيفية تعامل الشركات الكبرى مع البيانات والمحتوى الفكري في عصر الذكاء الاصطناعي. ففي حين أن التكنولوجيا قد تكون قادرة على تغيير العالم، فإن الطريقة التي يتم بها جمع البيانات واستخدامها تظل قضية أخلاقية وقانونية ملحة تحتاج إلى مراجعة دقيقة