إنشاء ذكاء اصطناعي ببيانات أخلاقية

القاهرة: الأمير كمال فرج.

زعمت شركات التكنولوجيا العملاقة أكثر من مرة أن بناء أنظمة ذكاء اصطناعي تعتمد بالكامل على بيانات ذات مصادر أخلاقية أمر "مستحيل". لكن فريقًا من العلماء، يضم باحثين أثبت عكس ذلك.

ذكر تقرير نشرته صحيفة Washington Post، أن "أكثر من عشرين باحثًا في مجال الذكاء الاصطناعي من معهد ماساتشوستس للتكنولوجيا (MIT)، وجامعة كورنيل، جامعة تورنتو، ومؤسسات أخرى، قاموا بتدريب نموذج لغة كبير باستخدام بيانات مرخصة بشكل مفتوح أو بيانات من الملكية العامة فقط، مقدمين بذلك خارطة طريق لتطوير هذه التكنولوجيا بشكل أخلاقي".

التحديات البشرية

على الرغم من الإنجاز، أقر المطورون أن المهمة لم تكن سهلة على الإطلاق، ففي ورقة بحثية لم تُراجع بعد من قبل العلماء، نُشرت هذا الأسبوع، أوضح الفريق أن التحدي الأكبر لم يكن في القدرة الحاسوبية، بل في الجهد البشري.

وذلك لأن مجموعة البيانات التي جمعوها، والتي يبلغ حجمها أكثر من ثمانية تيرابايت وأطلقوا عليها اسم "Common Pile v0.1"، تطلبت تنظيفًا يدويًا وإعادة تنسيق لجعلها مناسبة لتدريب الذكاء الاصطناعي، حسبما أوضحت "واشنطن بوست". بالإضافة إلى ذلك، كان هناك قدر هائل من العمل الإضافي المطلوب للتحقق مرة أخرى من حالة حقوق الطبع والنشر لجميع البيانات، حيث أن العديد من الأعمال المنشورة عبر الإنترنت تكون مرخصة بشكل غير صحيح.

قالت ستيلا بيدرمان، عالمة الكمبيوتر والمديرة التنفيذية لمنظمة Eleuther AI غير الربحية والمؤلفة المشاركة في الدراسة، لـ Washington Post: "هذا ليس شيئًا يمكنك فيه ببساطة زيادة الموارد المتاحة لديك، مثل الوصول إلى المزيد من رقائق الكمبيوتر أو أداة بحث متطورة على الويب".

وأضافت: "نحن نستخدم أدوات آلية، ولكن في نهاية المطاف، جميع بياناتنا يتم تحليلها يدويًا والتحقق منها من قبل أشخاص، وهذا أمر صعب حقًا."

نتائج مُبهرة

على الرغم من الصعوبات، تمكنت بيدرمان وزملاؤها من إنجاز المهمة. فبعد عملية شاقة لإنشاء "Common Pile"، استخدموا مجموعة البيانات هذه الخالية من أي شبهات أخلاقية لتدريب نموذج لغة كبير بسبعة مليارات معلمة. وكانت النتيجة؟ نموذج ذكاء اصطناعي يضاهي بشكل لافت النماذج الرائدة في الصناعة مثل Meta's Llama 1 و Llama 2 7B.

ورغم أن هذه النماذج الصناعية قديمة نسبيًا (أكثر من سنتين)، وهو ما يُعد زمنًا طويلًا في سباق الذكاء الاصطناعي، إلا أن هذا الإنجاز يُعد مثيرًا للإعجاب، بالنظر إلى أن هذا العمل تم بواسطة فريق غير مدعوم بمليارات الدولارات من الموارد، على عكس الشركات الكبرى.

واضطر الفريق لتعويض هذا النقص بالبراعة والمثابرة. وكان أحد الاكتشافات المبتكرة بشكل خاص هو مجموعة تضم أكثر من 130 ألف كتاب باللغة الإنجليزية في مكتبة الكونغرس، والتي كانت قد أغفلت سابقًا.

حقوق الطبع والنشر

تظل حقوق الطبع والنشر أحد أكبر التحديات الأخلاقية والقانونية التي تلوح في الأفق بالنسبة للذكاء الاصطناعي. فقد استخدمت شركات رائدة مثل OpenAI و Google كميات هائلة من البيانات من شبكة الإنترنت للوصول إلى مكانتها الحالية، مقتنصة كل شيء من المقالات الإخبارية إلى معلومات شخصية مثل منشوراتك على وسائل التواصل الاجتماعي.

ورفعت دعاوى قضائية ضد Meta من قبل مؤلفين يزعمون أنها استخدمت بشكل غير قانوني سبعة ملايين كتاب محمي بحقوق الطبع والنشر قامت بقرصنتها لتدريب نماذج الذكاء الاصطناعي الخاصة بها.

لقد بررت صناعة التكنولوجيا مطالبها الشرهة بالبيانات بالقول إن كل ذلك يندرج تحت بند "الاستخدام العادل" — والأهم من ذلك، أنه سيكون "مستحيلًا" تطوير هذه التكنولوجيا دون جمع محتوى الجميع مجانًا.

الشفافية والمساءلة

هذا العمل الأخير يُعد ردًا قاطعًا على هذه الحجج التي يروج لها وادي السيليكون، وإن كان لا يزيل جميع المخاوف الأخلاقية. فهذا لا يزال نموذج لغة كبير، وهي تقنية تهدف أساسًا إلى الاستغناء عن الوظائف، وربما لن يكون كل من أصبح عمله متاحًا للجميع بلا قيود. سعيدًا بإعادة إنتاج الذكاء الاصطناعي له.

فالفنان أو المبدع الذي لا زال على قيد الحياة، قد يشعر بعد دخول أعماله في الملكية العامة ،ـ بأن هناك استغلالًا لأعماله أو أن قيمتها الفنية تُقلل عندما تُستخدم لتدريب آلة.

وحتى لو تم كبح جماح شركات الذكاء الاصطناعي وإجبارها على استخدام الأعمال بإذن أو تعويض — وهذا احتمال كبير — فإن الحقيقة تظل قائمة: طالما بقيت هذه الشركات، سيكون هناك ضغط كبير على أصحاب حقوق الطبع والنشر للسماح بتدريب الذكاء الاصطناعي.

لا تملك بيدرمان نفسها أوهامًا بأن شركات مثل OpenAI ستتغير فجأة وتصبح مثالًا يُحتذى به في مصادر البيانات الأخلاقية. لكنها تأمل أن يساعد عملها على الأقل في جعلهم يتوقفون عن إخفاء ما يستخدمونه لتدريب نماذج الذكاء الاصطناعي الخاصة بهم، وقالت: "حتى الشفافية الجزئية لها قيمة اجتماعية هائلة وقيمة علمية معتدلة".