شركة “OpenAI” تطلق نموذج “GPT-4o” للذكاء الاصطناعي المتخضص في معالجة وتحليل النصوص والصور والمقاطع الصوتية

كتب: مصطفى عيد

أعلنت OpenAI، الشركة الرائدة في مجال الذكاء الاصطناعي، عن إطلاق نموذجها الجديد الأبرز GPT-4o، القادر على معالجة وتحليل النصوص والصور والمقاطع الصوتية بشكل متزامن وبزمن حقيقي.

يُمثل GPT-4o (حيث يرمز حرف “o” إلى “كل شيء”) خطوةً هائلة نحو تحقيق تفاعلٍ أكثر طبيعيةً بين الإنسان والآلة. يتميّز هذا النموذج بقدرته على استقبال مُدخلاتٍ مُدمجةٍ تجمع بين النصوص والصور والمقاطع الصوتية، ليُقدّم في المقابل مُخرجاتٍ مُدمجةً مماثلة.

استجابة فائقة السرعة:

يُذهلنا GPT-4o بسرعته الفائقة في الاستجابة للمُدخلات الصوتية، إذ يستطيع الرد خلال 232 مللي ثانية في أحسن الأحوال، وبمعدل وسطي يبلغ 320 مللي ثانية، وهو زمنٌ يقارب سرعة استجابة الإنسان الطبيعية في المحادثة.

أداءٌ مُحسّنٌ وتكلفةٌ أقل:

يُضاهي أداء GPT-4o أداء نموذج GPT-4 Turbo على النصوص الإنجليزية والشفرات البرمجية، مع إحراز تحسينٍ ملحوظٍ في التعامل مع النصوص باللغات غير الإنجليزية مثل العربية. إلى جانب ذلك، يتميّز GPT-4o بسرعته العالية وتكلفته المخفضة بنسبة 50% مقارنةً بنموذج GPT-4 Turbo ضمن واجهة برمجة التطبيقات.

فهمٌ متقدّمٌ للصوت والصورة:

يبرز تفوق GPT-4o بشكلٍ واضحٍ في مجال فهم واستيعاب المعلومات البصرية والسمعية (المعروف باسم الرؤية الحاسوبية) مقارنةً بكافة النماذج الحالية، وفقًا لما أعلنته شركة OpenAI.

جيلٌ جديدٌ من التفاعل:

في السابق، كان بإمكان المستخدمين الاستفادة من خاصية Voice Mode للحديث مع نموذج ChatGPT، لكنها كانت تعاني من زمن استجابةٍ مُتأخّرٍ يبلغ 2.8 ثانية لـ GPT-3.5 و5.4 ثانية لـ GPT-4. ويعود السبب في ذلك إلى اعتماد Voice Mode على ثلاث نماذج منفصلة تعمل بشكلٍ متسلسل. أمّا مع GPT-4o، فقد تمّ تدريب نموذجٍ واحدٍ شاملٍ يُعالِج كافة المدخلات والمخرجات عبر النصوص والصور والمقاطع الصوتية بشكلٍ مُباشرٍ وموحدٍ.

مستقبلٌ واعدٌ:

يُعدّ إطلاق GPT-4o خطوةً رياديةً في مجال الذكاء الاصطناعي، إذ يفتح الباب أمام إمكانياتٍ واعدةٍ لتطوير تفاعلٍ أكثر ذكاءً وطبيعيةً بين الإنسان والآلة في مجالاتٍ مختلفةٍ مثل خدمة العملاء والتعليم والترفيه وغيرها الكثير. ومع كون GPT-4o أول نموذج يجمع بين هذه القدرات المتنوعة، لا يزال فريق OpenAI في المراحل الأولى من استكشاف آفاق هذا النموذج وقدراته وحدوده على حدٍ سواء.

سلامة مدمجة بالتصميم:

تم تصميم GPT-4o بحيث تضمن السلامة عبر الوسائط المختلفة، وذلك من خلال تقنيات مثل فلترة بيانات التدريب وتحسين سلوك النموذج بعد التدريب كما قامت الشركة أيضًا بإنشاء أنظمة سلامة جديدة لتوفير ضوابط على مخرجات الصوت.

تقييمات شاملة:

تم تقييم GPT-4o وفقًا لإطار عمل الاستعداد الخاص بالشركة وبما يتماشى مع الالتزامات الطوعية. وأظهرت تقييمات الأمن السيبراني والأسلحة الكيميائية والبيولوجية والإشعاعية والنووية (CBRN) والإقناع واستقلالية النموذج أن GPT-4o لا يحصل على درجة مخاطرة أعلى من “متوسط” في أي من هذه الفئات. وشمل هذا التقييم تشغيل مجموعة من التقييمات الآلية والبشرية طوال عملية تدريب النموذج. تم اختبار كل من إصدارات النموذج قبل وبعد إجراءات تخفيف المخاطر، باستخدام ضبط دقيق مخصص وإشارات تحفيز، لاستخلاص قدرات النموذج بشكل أفضل.

اختبارات خارجية مكثفة:

خضع نموذج GPT-4o أيضًا لاختبارات خارجية مكثفة مع أكثر من 70 خبيرًا خارجيًا في مجالات مثل علم النفس الاجتماعي والتحيز والإنصاف والمعلومات المضللة، وذلك لتحديد المخاطر التي يتم إدخالها أو تضخيمها من خلال الوسائط المضافة حديثًا. وتم استخدام هذه المعارف لبناء تدخلات السلامة الخاصة من أجل تحسين سلامة التفاعل مع GPT-4o. وسنواصل تخفيف المخاطر الجديدة فور اكتشافها.