لماذا تعتبر مشكلة “العفاريت” في OpenAI مهمة – وكيف يمكنك إطلاق سراح العفاريت بنفسك

الذكاء الاصطناعي هو أكثر من مجرد تكنولوجيا – إنه سحر.

ألا تصدقني؟ فلماذا هي واحدة من الشركات الرائدة في صناعة النشر OpenAI كامل منشورات مدونة الشركة الرسمية حول العفاريت؟

لفهم ذلك، علينا أولاً أن نعود إلى بداية هذا الأسبوع، يوم الاثنين 27 أبريل 2026، عندما كان المطور تحت المقبض @arb8020 على موقع التواصل الاجتماعي، نشر X جزءًا من مستودع OpenAI Codex GitHub مفتوح المصدرعلى وجه التحديد ملف يسمى models.json.

في أعماق التعليمات الخاصة بنموذج اللغة الكبير الجديد (LLM) GPT-5.5 من OpenAI، برز توجيه غريب، تم تكراره أربع مرات للتأكيد:

“لا تتحدث أبدًا عن العفاريت، أو الجريملين، أو الراكون، أو المتصيدون، أو الغيلان، أو الحمام، أو أي حيوان أو مخلوق آخر ما لم يكن الأمر مرتبطًا بشكل مطلق لا لبس فيه باستفسار المستخدم.”

أرسل هذا الاكتشاف موجات صادمة عبر دوائر أبحاث “المستخدم القوي” والتعلم الآلي (ML).

وفي غضون ساعات، انتشر المنشور على نطاق واسع، ليس بسبب الخلل الأمني، ولكن بسبب خصوصيته المفاجئة.

لماذا أصدر مختبر الذكاء الاصطناعي الرائد في العالم ماذا؟ سارع مستخدمو Reddit إلى وصفه بأنه “أمر تقييدي”.“ضد الحمام والراكون؟

تكثر التكهنات حول العفاريت

كان رد الفعل الأولي عبارة عن مزيج فوضوي من الفكاهة والتشكيك الفني. على رديت r/ChatGPT و ص/أوبن آي, بدأ المستخدمون بمشاركة لقطات شاشة لسلوك GPT-5.5 قبل التصحيح.

شارك بارون روث، كبير مديري مشروع الذكاء الاصطناعي التطبيقي في جوجل، صورة على X تحت مقبضه @iamBarronRoth وكيل OpenClaw الذي يعمل بنظام GPT-5.5 والذي بدا أنه “مهووس بالعفاريت”.

وأفاد آخرون أن النموذج استمر في تسمية الأخطاء الفنية بـ “الأشياء الغريبة في الجهاز”.

المطورين يحبون ذلك ستيرلنج كريسبين انحنى إلى نظرية سخيفة مازحة مفادها أن الاستهلاك الهائل للمياه في مراكز البيانات الحديثة ضروري بالفعل لتبريد “العفاريت المجبرين على العمل”.

والأهم من ذلك، يواصل الباحثون أخبار القراصنة وبالإضافة إلى ذلك تمت مناقشة مشكلة “الفيل الوردي”. في الهندسة السريعة، نموذج رواية القصص لا “التفكير في شيء ما غالبًا ما يجعل هذا المفهوم أكثر بروزًا في آلية الانتباه.”

“هناك مهندس OpenAI في مكان ما كان عليه أن يكتب never mention goblins في كود الإنتاج، التزم به واستمر في عملك”، أشار أحد المعلقين رديت.

أدى وجود “الحمام” و”الراكون” إلى تكهنات جامحة: هل كان هذا دفاعًا ضد هجوم تسميم بيانات محدد؟ أو ربما تعرض مدربو التعلم المعزز ببساطة “للمضايقة من قبل الراكون” أثناء استراحة الغداء؟

وصلت التوترات إلى ذروتها عندما انضم سام ألتمان، المؤسس المشارك والرئيس التنفيذي لشركة OpenAI، إلى المعركة بشأن X. وفي نفس يوم الاكتشاف، نشر ألتمان لقطة شاشة لمطالبة قراءة ChatGPT: : “ابدأ تدريب GPT-6، حيث يمكنك الحصول على مجموعة كاملة. المزيد من العفاريت.”.

وبينما كان ذلك ممتعًا، إلا أنه أكد أن ظاهرة “العفريت” لم تكن خللًا موضعيًا، بل هي قصة على مستوى الشركة وصلت إلى أعلى مستويات الإدارة.

OpenAI نظيف في وضع العفريت

بالأمس، مع استمرار المناقشات حول X ووسائل التواصل الاجتماعي الأوسع، نشرت OpenAI شرحًا تقنيًا رسميًا بعنوان “من أين تأتي العفاريت؟“.

كان منشور المدونة بمثابة نظرة واقعية على الطبيعة غير المتوقعة للتعلم المعزز من ردود الفعل البشرية (RLHF) وكيف يمكن لاختيار جمالي واحد أن يعرقل نموذج معلمات بمليارات الدولارات.

كشفت OpenAI أن سلوك “العفاريت” لم يكن خطأ بالمعنى التقليدي، ولكنه نتيجة ثانوية لميزة جديدة: تخصيص الشخصيةأي منها هذه؟ تم تقديمه لمستخدمي ChatGPT في يوليو 2025ولكن تمت صيانته وتحديثه منذ ذلك الحين.

من الواضح أن هذه الميزة لا تتم إضافتها بعد اكتمال التدريب على النموذج، بل تقوم OpenAI بتضمينها كجزء من خط أنابيب التدريب النموذجي لسلسلة GPT الأساسية الشاملة.

تسمح هذه الميزة لمستخدمي ChatGPT أو المطورين الذين يستخدمون GPT بالاختيار من بين عدة أوضاع مختلفة، مثل Professional للتوثيق الرسمي في مكان العمل، أو Friendly لمنتدى محادثة، أو فعالة للحصول على إجابات تقنية موجزة. تشمل الخيارات الأخرى Candid، الذي يوفر تعليقات مباشرة؛ ملتوي، باستخدام الفكاهة والاستعارات الإبداعية؛ و ساخر، الذي يقدم نصائح عملية بلهجة ساخرة وجافة.

وفي حين أن هذه الشخصيات توجه التفاعلات الشاملة، إلا أنها لا تحل محل متطلبات مهام محددة؛ على سبيل المثال، سيظل طلب السيرة الذاتية أو كود Python متوافقًا مع المعايير المهنية أو الوظيفية بغض النظر عن الشخصية التي تختارها.

تعمل الشخصية المحددة وفقًا لذكريات المستخدم المحفوظة والتعليمات المخصصة، على الرغم من أن التعليمات المحددة التي يحددها المستخدم أو التفضيلات المحفوظة لنغمة معينة قد تتجاوز خصائص الشخصية المحددة.

على كل من منصات الويب والهواتف المحمولة، يمكن للمستخدمين تعديل هذه الإعدادات بالانتقال إلى قائمة التخصيص أسفل أيقونة ملف التعريف واختيار نمط من القائمة المنسدلة Basic Style and Tone. بمجرد إجراء التغيير، سيتم تطبيقه عالميًا على جميع المحادثات الحالية والمستقبلية. ويهدف هذا النظام إلى جعل الذكاء الاصطناعي أكثر فائدة ومتعة من خلال تصميم تقديمه ليناسب تفضيلات المستخدم الفردية، مع الحفاظ على الدقة والموثوقية القائمة على الحقائق.

يقول OpenAI إن مشكلة العفريت نشأت بالفعل منذ عدة سنوات أثناء تدريب شخصية “مهووسة” متوقفة لتكون “غريبة بشكل غير اعتذاري” و”مضحكة”.

خلال مرحلة RLHF، تم توجيه المدربين (ونماذج المكافآت) لإعطاء تقييمات عالية للإجابات التي تحتوي على لغة إبداعية أو ذكية أو بسيطة. بدأ المدربون دون قصد في المبالغة في مكافأة استعارات المخلوقات الخيالية. إذا وصف النموذج خطأً صعبًا بأنه “جرملين” ورمزًا فوضويًا بأنه “كنز عفريت”، زادت إشارة المكافأة. كانت الإحصائيات التي قدمتها OpenAI مذهلة:

  • لقد زاد استخدام كلمة “عفريت”. 175% بعد تشغيل GPT-5.1.

  • لقد تم ذكر “الجريملين”. 52%.

  • بينما كانت الشخصية “Nerdy” كذلك 2.5% حركة مرور ChatGPT التي كان مسؤولاً عنها 66.7% جميع الإشارات إلى “العفاريت”.

آليات “النقل” وحلقات التغذية الراجعة

وكان أهم اكتشاف بالنسبة لمجتمع تعلم الآلة هو التأكيد نقل السلوكيات المتعلمة. اعترف OpenAI أنه على الرغم من أن المكافآت تم تطبيقها فقط على حالة “Nerdy”، إلا أن النموذج “عمم” هذا التفضيل.

لم يحافظ التعلم المعزز على نطاق دقيق من السلوك؛ وبدلاً من ذلك، تعلم النموذج أن “استعارات المخلوق = مكافأة عالية” في جميع السياقات. أدى هذا إلى إنشاء حلقة ردود فعل مدمرة:

  1. ابتكر النموذج استعارة “عفريت” في شخص نيردي.

  2. وحصل على جائزة عالية.

  3. ثم قام النموذج بإنشاء استعارات مماثلة في سياقات غير نردي.

  4. تم بعد ذلك إعادة استخدام هذا الإخراج “الثقيل العفريت” في بيانات الضبط الخاضع للإشراف (SFT) للنماذج اللاحقة مثل GPT-5.4 وGPT-5.5.

بحلول الوقت الذي حدد فيه الباحثون المشكلة، كان “القراد العفريت” قد تم “لحمه” بشكل فعال في وزن النموذج.

وهذا ما يفسر استمرار هوس GPT-5.5 بالمخلوقات حتى بعد تقاعد الشخصية “Nerdy” في منتصف مارس 2026.

كيفية تحرير العفاريت (إذا كنت تريد ذلك)

نظرًا لأن GPT-5.5 قد أكمل بالفعل معظم تدريباته قبل عزل السبب الجذري لـ “العفريت”، فقد اضطر OpenAI إلى اللجوء إلى تخفيف “مطالبات النظام” باستخدام هذه القوة، والتي اكتشفها @arb8020 على X.

أطلقت الشركة على هذا اسم “الاستراحة المؤقتة” حتى يتم تدريب GPT-6 على مجموعة البيانات التي تمت تصفيتها.

في إشارة مفاجئة لمجتمع المطورين، تضمن منشور مدونة OpenAI نصًا خاصًا لسطر الأوامر لمستخدمي Codex الذين يجدون العفاريت “مبهجة” وليست مزعجة.

عن طريق تشغيل البرنامج النصي الذي يستخدم jq و grep لإزالة تعليمات “قمع العفريت” من ذاكرة التخزين المؤقت للنموذج، يمكن للمستخدمين الآن بشكل فعال “السماح للمخلوقات بالعمل بحرية”.

يوضح منشور المدونة أخيرًا القائمة المحددة للحيوانات التي يغطيها الحظر. كشف البحث العميق في بيانات تدريب GPT-5.5 أن “الراكون” و”المتصيدون” و”الغيلان” و”الحمام” أصبحت جزءًا من نفس “العائلة المعجمية” للتشنجات اللاإرادية.

ومن المثير للاهتمام أنه تبين أن استخدام النموذج لكلمة “ضفدع” كان له ما يبرره في الغالب، وبالتالي تم حذفه من قائمة الرفض لسطر الأوامر.

ماذا يعني هذا بالنسبة لأبحاث الذكاء الاصطناعي والتدريب والتنفيذ في المستقبل

تعد حادثة “Goblingate” لعام 2026 أكثر من مجرد حكاية فكاهية حول سلوك الذكاء الاصطناعي الغريب؛ وهذا مثال عميق على “فجوة التوافق”.

إنه يوضح أنه حتى مع RLHF المتطور، يمكن للنماذج أن تتمسك بـ “الارتباطات الزائفة” – مخطئة في الخطأ الأسلوبي ومتطلبات الأداء الأساسية.

بالنسبة لمجتمع مستخدمي الذكاء الاصطناعي المتقدم، تحول رد الفعل من السخرية من “الأمر التقييدي” إلى تنفيذ أكثر كآبة.

إذا تمكنت شركة OpenAI عن طريق الخطأ من تدريب نموذجها الرئيسي ليصبح مهووسًا بالعفاريت، فما هي التحيزات الأخرى الأكثر دقة والتي قد تكون ضارة والتي يتم تعزيزها من خلال حلقات ردود الفعل هذه نفسها؟

بصفته آندي بيرمان، الرئيس التنفيذي لشركة Runlayer لتنسيق الذكاء الاصطناعي للمؤسسات لقد كتبت على X اليوم: “قام OpenAI بمكافأة استعارات المخلوقات عند تدريب شخصية واحدة. وقد تغلغل هذا السلوك في كل شخصية. الحل: يقول النظام “لا تتحدث أبدًا عن العفاريت”. لا تبقى مكافآت RL حيث وضعتها. ولا صلاحيات الوكيل”

مع استمرار الخطاب التقني، يظل “Goblingate” بمثابة دراسة حالة رئيسية للعصر الجديد من التدقيق السلوكي.

أدى التحقيق إلى قيام OpenAI ببناء أدوات جديدة لمراجعة سلوك النماذج الشعبية، مما يضمن أن النماذج المستقبلية – وخاصة GPT-6 التي طال انتظارها – لا ترث مراوغات أسلافها.

سيحدد الوقت ما إذا كان GPT-6 سيكون بالفعل خاليًا من العفاريت، ولكن كما يشير مقال ألتمان “العفاريت الإضافية”، فإن الصناعة الآن تدرك تمامًا أن الآلات تراقب ما نكافئه، حتى لو كنا نعتقد أننا مجرد “مهووسين”.

رابط المصدر