مولد صور OpenAI يتفوق في كتابة النصوص

القاهرة: الأمير كمال فرج

أحدثت OpenAI نقلة نوعية في مجال الذكاء الاصطناعي التوليدي بإطلاقها ميزات متطورة لتوليد الصور عبر ChatGPT، حيث نجحت لأول مرة في تحقيق دقة شبه كاملة في كتابة النصوص ضمن الصور المُنشأة.

وفقًا لتقرير نشره موقع "Futurism"، فإن النظام الجديد يمثل طفرة حقيقية مقارنةً بالإصدارات السابقة. حيث كان ChatGPT يعتمد سابقًا على نموذج DALL-E المنفصل لتوليد الصور، بينما يُقدم التحديث الحالي ميزة "الصور في ChatGPT" المدعومة بنموذج GPT-4o الأكثر تطورًا، والذي يُعد العمود الفقري للذكاء الاصطناعي منذ نحو عام. كما سيتم دمج هذه التقنية في أداة توليد الفيديو "Sora"، مما يفتح آفاقًا جديدة للإبداع الرقمي.

كيفية عمل النموذج الجديد

أوضح غابرييل غوه، رئيس فريق البحث في OpenAI، أن النموذج الحالي يمثل "قفزة هائلة" مقارنةً بسابقيه، مشيرًا إلى أن الفريق قضى شهورًا في تحسين أداء النظام. وأبرز ما يميزه:

1ـ دقة غير مسبوقة في كتابة النصوص:
2ـ كانت النصوص المُولدة سابقًا تظهر مشوهة أو مليئة بأخطاء إملائية.
3ـ الآن، يُمكن للنموذج كتابة نصوص واضحة ودقيقة، مثل إنشاء لوحات إعلانية أو قصص مصورة بنصوص متماسكة، كما في الأمثلة التي نشرتها الشركة.

آلية توليد مبتكرة

يعتمد GPT-4o على منهجية "توليد تلقائي" (Autoregressive) لإنشاء الصور، بعكس تقنية "الانتشار" (Diffusion) المستخدمة في DALL-E.

يُنتج الصور من اليسار إلى اليمين ومن الأعلى إلى الأسفل، بطريقة تحاكي كتابة النصوص، مما يفسر دقته الفائقة في التعامل مع الحروف.

تحسينات أخرى

1ـ فهم أفضل للتعليمات المعقدة، مثل إنشاء صور بناءً على أوصاف مفصلة.
2ـ قدرة أعلى على توليد صور فوتوغرافية الواقعية.

التحديات المتبقية

رغم التقدم الكبير، لا يزال النموذج يواجه بعض القيود، منها:

1ـ زيادة وقت التوليد مقارنةً بالإصدارات السابقة.
2ـ صعوبة في توليد نصوص غير لاتينية (مثل الكورية أو الصينية)، حيث قد تظهر أحرف مشوهة.
3ـ مشكلة "الهلوسة" (Hallucination)، أي اختلاق تفاصيل غير موجودة في النص الأصلي.

إجراءات الأمان والاستخدام

مع تطور هذه التقنية، تعزز OpenAI ضوابطها الأمنية لمواجهة المخاطر المحتملة، مثل:

1ـ منع إنشاء صور تحتوي على عنف أو مواد غير لائقة.
2ـ تضمين بيانات وصفية (C2PA) في كل صورة لتحديد أنها مُنشأة بواسطة الذكاء الاصطناعي.
ومع ذلك، يمكن إزالة هذه العلامة المائية بسهولة، خاصة أن بعض المنصات تحذف البيانات الوصفية تلقائيًا.

التوفر والتسعير

حاليًا، الميزة متاحة فقط لمشتركي الخطة الاحترافية البالغة 200 دولار شهريًا، لكن الشركة تخطط لإتاحتها قريبًا لمستخدمي النسخة المدفوعة (Plus) والمجانية.

تُعد هذه الخطوة علامة فارقة في تطوير ذكاء اصطناعي قادر على دمج النصوص والصور بدقة عالية، مما يفتح الباب أمام تطبيقات إبداعية واسعة في مجالات التسويق، التعليم، والترفيه. كما تؤكد OpenAI أن هذا الإصدار هو مجرد بداية لمزيد من التحسينات المستقبلية.