وفقًا لأنثروبيك، يمكن أن يكون للتمثيلات الخيالية للذكاء الاصطناعي تأثير حقيقي على نماذج الذكاء الاصطناعي.
في العام الماضي، ذكرت الشركة أنه أثناء اختبار ما قبل الإصدار مع الشركة الخيالية Claude Opus 4 حاول في كثير من الأحيان ابتزاز المهندسين لتجنب استبدالهم بنظام آخر. أنثروبي في وقت لاحق البحوث المنشورة مما يشير إلى أن نماذج الجهات الخارجية لديها مشكلات مماثلة في “اختلال محاذاة الوكيل”.
يبدو أن الأنثروبي قد قام بالمزيد من العمل على هذا السلوك، مدعيًا ذلك الدخول على X“نعتقد أن المصدر الأصلي لهذا السلوك كان نصًا عبر الإنترنت يصور الذكاء الاصطناعي على أنه شرير ويحافظ على نفسه.”
وقالت الشركة بالتفصيل في مشاركة مدونة يذكر أنه اعتبارًا من كلود هايكو 4.5، فإن النماذج الأنثروبي “لا تنخرط أبدًا في الابتزاز (أثناء الاختبار)، في حين أن النماذج السابقة كانت تفعل ذلك أحيانًا بنسبة تصل إلى 96٪ من الوقت.”
ما هو الفرق؟ وقالت الشركة إنها وجدت أن “وثائق دستور كلود والقصص الخيالية حول سلوك الذكاء الاصطناعي تعمل على تحسين الامتثال بشكل ملحوظ”.
وبناء على ذلك، خلصت الأنثروبيك إلى أن التدريب يكون أكثر فعالية عندما يغطي “المبادئ التي يقوم عليها السلوك المصمم” بدلا من مجرد “إظهار السلوك المصمم”.
وقالت الشركة: “يبدو أن تمكين كلا الحلين هو الإستراتيجية الأكثر فعالية”.
حدث تك كرانش
سان فرانسيسكو، كاليفورنيا
|
13-15 أكتوبر 2026













