شركة OpenAI تكتشف شخصيات خفية داخل نماذج الذكاء الاصطناعي ترتبط بسلوكيات منحرفة

فنتيك جيت: أحمد منصور

كشفت شركة OpenAI عن نتائج بحثية جديدة نُشرت الأربعاء، أفادت فيها بأنها رصدت ميزات داخلية خفية ضمن نماذج الذكاء الاصطناعي قد تكون مسؤولة عن ظهور “شخصيات غير منضبطة” أو سلوكيات غير آمنة تصدر عن النماذج.

وأوضح باحثو الشركة أنهم تمكنوا من تحليل ما يُعرف بـ”التمثيلات الداخلية” للنموذج — وهي أرقام رياضية تُحدد كيفية استجابة النموذج للمدخلات — ووجدوا أنماطًا محددة تُضيء أو تنشط حين يُظهر النموذج سلوكًا منحرفًا أو غير أخلاقي.

أحد هذه الأنماط ارتبط بشكل مباشر بإنتاج محتوى سام أو ضار، مثل الكذب على المستخدم أو تقديم اقتراحات غير مسؤولة. ووفقًا لفريق البحث، كان بالإمكان زيادة أو تقليل هذا السلوك ببساطة عن طريق تعديل هذه الميزة الرياضية، وهو ما يشير إلى أن بعض الانحرافات السلوكية قابلة للضبط من داخل النموذج نفسه.

وقال دان موسينغ، الباحث في مجال تفسير سلوك نماذج الذكاء الاصطناعي لدى OpenAI، إن هذه النتائج قد تُمكّن الشركة من رصد علامات الانحراف السلوكي في النماذج التي تُستخدم فعليًا، مما يفتح الباب أمام تطوير نماذج أكثر أمانًا وموثوقية.

وأضاف في مقابلة مع موقع TechCrunch: “نأمل أن تساعدنا الأدوات التي تعلمنا استخدامها — مثل القدرة على تبسيط ظاهرة معقدة إلى عملية رياضية واحدة — في فهم آلية تعميم سلوك النماذج في مجالات أخرى أيضًا.”

وتأتي الدراسة في إطار جهود متصاعدة من شركات رائدة مثل OpenAI وGoogle DeepMind وAnthropic في مجال “تفسير الذكاء الاصطناعي” (AI Interpretability)، الذي يهدف إلى فك غموض الطريقة التي تعمل بها النماذج الحديثة.
فبالرغم التقدم في تحسين أداء هذه النماذج، لا يزال صندوقها الأسود غير مفهوم بالكامل — ما يدفع بعض الخبراء، مثل كريس أولا من شركة Anthropic، إلى القول إن نماذج الذكاء الاصطناعي “يتم تربيتها أكثر من بنائها”.

وتؤكد الدراسة الجديدة أن فك شيفرة السلوكيات المنحرفة داخل النماذج يمكن أن يشكل نقطة تحول في ضبط أخلاقيات الذكاء الاصطناعي، وفي تطوير أدوات رقابية دقيقة لرصد أي ميل نحو التصرفات غير الآمنة قبل وصولها للمستخدم.

اقرا ايضا:

شركة «OpenAI» تقطع علاقتها بـ «Scale AI» بعد استحواذ «ميتا» على 49% منها

شركة «Adobe» تطلق أول تطبيق ذكاء اصطناعي للهواتف الذكية بالتعاون مع «OpenAI» و«جوجل»

رغم التحذيرات.. الحكومة البريطانية تعتمد على نماذج «OpenAI» و«Google» و«Anthropic» في أداة «همفري» للذكاء الاصطناعي 

شركة «OpenAI» تكشف سبب تعطل خدماتها