القاهرة: الأمير كمال فرج.
كان تطوير نماذج اللغة الكبيرة قوة دافعة في مجال الذكاء الاصطناعي. ومع ذلك ، فإن أقوى طراز GPT-4 هو نموذج تجاري مغلق تمامًا ، والعديد من النماذج الشهيرة الأخرى ، مثل LLaMA و Alpaca و Vicuna و Koala ، ليست مفتوحة المصدر بالكامل. وقد حد هذا من إمكانية الوصول إليها وأعاق التقدم في هذا المجال. واجه فريق يسمى Together Compute التحدي المتمثل في إنشاء نسخة مفتوحة المصدر بالكامل من النموذج القابل للتكرار مع مشروع RedPajama.
رد بجاما RedPajama أو "البيجامة الحمراء" مشروع لإنشاء مجموعة من برمجيات الذكاء الاصطناعي الرائدة مفتوحة المصدر بالكامل، ويعتمد المشروع على إعادة إنتاج مجموعة بيانات التدريب LLaMA وهي مجموعة من نماذج اللغة لأكثر من 1.2 تريليون رمز.
ذكر بريان وانج وهو رائد الفكر المستقبلي ومدون علمي في مقال نشره موقع Nextbigfuture أن "الذكاء الاصطناعي يمر بلحظة فارقة، فقد أظهر Stable Diffusion وهو نموذجًا للتعلم المتعمق من نص إلى صورة تم إصداره عام 2022 أن المصدر المفتوح لا يمكنه منافسة جودة العروض التجارية مثل تنةذج التعلم المتعمق DALL-E فحسب، بل يمكن أن يؤدي أيضًا إلى إبداع مذهل من خلال مشاركة واسعة من قبل المجتمعات في جميع أنحاء العالم".
بدأت حركة مماثلة الآن حول نماذج اللغات الكبيرة مع الإصدار الأخير للنماذج شبه المفتوحة مثل LLaMA و Alpaca و Vicuna و Koala؛ بالإضافة إلى نماذج مفتوحة بالكامل مثل Pythia و OpenChatKit و Open Assistant و Dolly.
مشروع رد بجاما RedPajama محاولة لإنتاج نموذج لغة رائد قابل للتكرار ومفتوح بالكامل، بالتعاون بين Together و Ontocord.ai و ETH DS3Lab و Stanford CRFM و Hazy Research و MILA Québec AI Institute، ويحتوي RedPajama على ثلاثة مكونات رئيسية:
* بيانات ما قبل التدريب، والتي يجب أن تكون عالية الجودة وذات تغطية واسعة
* النماذج الأساسية، التي يتم تدريبها على نطاق واسع على هذه البيانات
* بيانات ونماذج ضبط التعليمات، والتي تعمل على تحسين النموذج الأساسي لجعله قابلاً للاستخدام وآمنًا.
نقطة البداية هي LLaMA ، وهي المجموعة الرائدة لبرمجيات القاعدة المفتوحة لسببين: أولاً ، تم تدريب LLaMA على مجموعة بيانات كبيرة جدًا (1.2 تريليون رمز) تمت تصفيتها بعناية من أجل الجودة. ثانيًا، تم تدريب نموذج LLaMA البالغ 7 مليارات متغير لفترة أطول بكثير، تتجاوز بكثير نقطة Chincilla المثالية، لضمان أفضل جودة في حجم النموذج هذا.
يعد نموذج 7 مليارات معلمة ذا قيمة خاصة للمجتمع المفتوح حيث يمكن تشغيله على مجموعة متنوعة من وحدات معالجة الرسومات، بما في ذلك العديد من وحدات معالجة الرسومات الخاصة بالمستهلكين.
مجموعة بيانات قاعدة RedPajama
يمكن تنزيل مجموعة بيانات RedPajama الكاملة 1.2 تريليون رمز وعينة عشوائية أصغر وأكثر قابلية للاستهلاك من خلال Hugging Face. مجموعة البيانات الكاملة ~ 5 تيرا بايت غير مضغوطة على القرص و ~ 3 تيرا بايت لتنزيلها مضغوطة.
يتكون RedPajama-Data-1T من سبع شرائح بيانات:
1ـ CommonCrawl: خمس عمليات تفريغ لـ CommonCrawl ، تتم معالجتها باستخدام خط أنابيب CCNet ، ويتم تصفيتها عبر العديد من عوامل تصفية الجودة بما في ذلك المصنف الخطي الذي يختار الصفحات المشابهة لـ Wikipedia.
2ـ C4: مجموعة بيانات C4 القياسية
3ـ GitHub: بيانات GitHub ، تمت تصفيتها حسب التراخيص والجودة
غيت هاب شركة تابعة لمايكروسوفت توفر استضافة لتطوير البرامج والتحكم في الإصدار باستخدام جت. توفر الشركة وظائف التحكم في الإصدار الموزع وإدارة كود المصدر لـ «غيت»، بالإضافة إلى ميزاته الخاصة.
4ـ أركايف arXiv: المقالات العلمية التي تزيل النموذج المعياري
أركايف أرشيف لمسودات أوراق علمية إلكترونية مكتوبة في مجالات الفيزياء، الرياضيات، الفلك، علم الحاسوب، والإحصاء التي يمكن الوصول إليها عبر الإنترنت
5ـ الكتب: مجموعة من الكتب المفتوحة ، تمت إزالتها من خلال تشابه المحتوى
6ـ ويكيبيديا: مجموعة فرعية من صفحات ويكيبيديا ، تزيل الصيغة المعيارية
7ـ StackExchange: مجموعة فرعية من مواقع الويب الشهيرة ضمن StackExchange ، مع إزالة النموذج المعياري
ستاك إكستشينج Stack Exchange هي شبكة من مواقع الأسئلة والأجوبة التي يهتم كل منها باختصاص معين.
النماذج والتعليمات و OpenChatKit
بعد إعادة إنتاج بيانات ما قبل التدريب، فإن الخطوة التالية هي تدريب نموذج أساسي قوي. كجزء من برنامج INCITE ، وبدعم من Oak Ridge Leadership Computing Facility (OLCF) ، نقوم بتدريب مجموعة كاملة من النماذج ، وسيصبح أول نموذج متاحًا في الأسابيع المقبلة.
مع وجود نموذج أساسي قوي في متناول اليد، نحن متحمسون لتعليمات ضبط النماذج. أوضحت Alpaca قوة ضبط التعليمات - مع تعليمات متنوعة وعالية الجودة تبلغ 50 ألفًا فقط ، كانت قادرة على إطلاق العنان لقدرات محسّنة بشكل كبير.
عبر نموذج الدردشة OpenChatKit ، تلقينا مئات الآلاف من إرشادات المستخدم الطبيعية عالية الجودة، والتي سيتم استخدامها لإصدار إصدارات مضبوطة بالتعليمات من نماذج RedPajama.