هل يغادر الذكاء الاصطناعي عصر الدردشة القائمة على الأدوار؟
في الوقت الحالي، جميعنا ممن يستخدمون نماذج الذكاء الاصطناعي بانتظام في العمل أو في حياتنا الشخصية، نعلم أن الوضع الأساسي للتفاعل بين النصوص والصور والصوت والفيديو يظل كما هو: يقدم المستخدم المدخلات، وينتظر أجزاء من الثانية إلى دقائق (أو في بعض الحالات، للاستعلامات والساعات والأيام الصعبة بشكل خاص)، ويوفر نموذج الذكاء الاصطناعي المخرجات.
ومع ذلك، إذا كان الذكاء الاصطناعي يتولى حقًا المهام التي تتطلب تفاعلًا طبيعيًا، فسوف يحتاج إلى القيام بأكثر من مجرد توفير هذا النوع من التفاعل “المبني على الأدوار” – فسوف يحتاج في النهاية إلى الاستجابة بشكل أكثر مرونة وطبيعية للمدخلات البشرية، وحتى التفاعل أثناء المعالجة. التالي المدخلات البشرية، سواء كانت نصية أو تنسيق آخر.
على الأقل هذا ما يبدو أنه يقوله آلات التفكيرشركة ناشئة في مجال الذكاء الاصطناعي ممولة بشكل جيد، تأسست العام الماضي من قبل الرئيس التنفيذي السابق للتكنولوجيا في OpenAI ميرا موراتي والباحث السابق في OpenAI والمؤسس المشارك جون شولمان، من بين آخرين.
أعلنت الشركة اليوم عن بحث أولي حول ما تعتبره “نماذج التفاعل”، وهي فئة جديدة من الأنظمة الأصلية متعددة الوسائط التي تتعامل مع التفاعل باعتباره مواطنًا من الدرجة الأولى في بنية النموذج بدلاً من “مجموعة” من البرامج الخارجية، مما يحقق مكاسب مذهلة في معايير الطرف الثالث ويقلل زمن الوصول نتيجة لذلك.
ومع ذلك، فإن النماذج ليست متاحة بعد لعامة الناس أو حتى الشركات، كما تقول الشركة في بيانها تدوينة مع الإعلان: “سنطرح تجربة محدودة في الأشهر المقبلة لجمع التعليقات، مع إصدار أوسع في وقت لاحق من هذا العام.”
معالجة الإدخال/الإخراج المتزامنة في وضع “الازدواج الكامل”.
وفي قلب هذا الإعلان يوجد تغيير جوهري في الطريقة التي يدرك بها الذكاء الاصطناعي الوقت والوجود. عادةً ما تواجه نماذج الحدود الحالية الواقع في خيط واحد؛ ينتظرون حتى ينتهي المستخدم من إدخال البيانات قبل أن يبدأوا في المعالجة، ويتجمد إدراكهم أثناء توليد الاستجابة.
في منشور مدونتهم، وصف باحثو Thinking Machines الوضع الراهن بأنه عائق يجبر البشر على “الالتواء” ضد واجهات الذكاء الاصطناعي، وصياغة أسئلة مثل رسائل البريد الإلكتروني، وجمع الأفكار.
ولحل اختناق التعاون هذا، ابتعدت شركة Thinking Machines عن تسلسل الرموز المميزة المتناوبة القياسي.
بدلاً من ذلك، يستخدمون تصميمًا متعدد الدفق الميكروي الذي يعالج قطعًا تبلغ 200 مللي ثانية من إشارات الإدخال والإخراج في وقت واحد.
تسمح بنية “الازدواج الكامل” للنموذج بالاستماع والتحدث والرؤية في الوقت الفعلي، مما يسمح له بتبديل قناة العودة عندما يتحدث المستخدم أو يتدخل عندما يلاحظ إشارة مرئية، مثل قيام المستخدم بكتابة خطأ في جزء من التعليمات البرمجية أو دخول صديق إلى إطار فيديو. من الناحية الفنية، يستخدم النموذج الاندماج المبكر بدون تشفير.
بدلاً من الاعتماد على برامج تشفير صوتية ضخمة ومستقلة مثل Whisper، يستوعب النظام إشارات صوتية خام في شكل dMel وتصحيحات للصور (40×40) من خلال طبقة تضمين خفيفة الوزن، مما يؤدي إلى تدريب جميع المكونات من الصفر في المحول.
نظام مزدوج
إعلان عن الدراسة يعرض تفاعل TML صغيرو 276 مليار مجموعة من الخبراء (وزارة التربية والتعليم) نموذج يحتوي على 12 مليار معلمة نشطة. نظرًا لأن التفاعل في الوقت الفعلي يتطلب أوقات استجابة شبه فورية والتي غالبًا ما تتعارض مع التفكير العميق، فقد صممت الشركة نظامًا من جزأين:
-
نموذج التفاعل: ويبقى على اتصال دائم مع المستخدم، وإدارة الحوار والحضور والمتابعة الفورية.
-
نموذج الخلفية: وكيل غير متزامن يدعم التفكير المستمر، وتصفح الويب، أو استدعاء الأدوات المعقدة، وتدفق النتائج مرة أخرى إلى نموذج التفاعل لدمجها بشكل طبيعي في المحادثة.
يسمح هذا الإعداد للذكاء الاصطناعي بأداء مهام مثل الترجمة المباشرة أو إنشاء رسم بياني لواجهة المستخدم أثناء الاستماع إلى تعليقات المستخدمين – وهي ميزة موضحة في فيديو الإعلان، حيث يوفر النموذج أوقات استجابة بشرية نموذجية لإشارات مختلفة أثناء إنشاء رسم بياني شريطي في نفس الوقت.
أداء مثير للإعجاب في المعايير الرئيسية مقابل نماذج التفاعل السريع من مختبرات الذكاء الاصطناعي الرائدة الأخرى
ولإثبات فعالية هذا النهج، تم استخدام المختبر مقعد FDوهو معيار مصمم خصيصًا لقياس جودة التفاعل، وليس الذكاء الخالص فقط. النتائج تظهر هذا TML-Interaction-Small يتفوق بشكل كبير على أنظمة الوقت الحقيقي الحالية:
-
الاستجابة: وصلت إلى تأخير التحول بدوره 0.40 ثانيةمقارنة بـ 0.57 ثانية لـ Gemini-3.1-flash-live و 1.18 ثانية لـ GPT-realtime-2.0 (الحد الأدنى).
-
جودة التفاعل: على FD-bench V1.5 حصلت على النتيجة 77.8ما يقرب من مضاعفة درجات منافسيها الرئيسيين (الحد الأدنى لدرجة GPT-realtime-2.0 هو 46.8).
-
الاستباقية البصرية: في الاختبارات المتخصصة، على سبيل المثال عدد الممثلين-أ (حساب التكرارات الجسدية في مقطع فيديو) أي فيديو استباقي QAنجح نموذج آلات التفكير في التعامل مع العالم المرئي بينما ظلت النماذج الرائدة الأخرى صامتة أو أعطت إجابات غير صحيحة.
|
متري |
تفاعل TML صغير |
GPT-الوقت الحقيقي-2.0 (دقيقة) |
الجوزاء 3.1-فلاش مباشر (دقيقة) |
|
التأخر في أخذ الدور |
0.40 |
1/18 |
0.57 |
|
جودة التفاعل (متوسطة) |
77.8 |
46.8 |
54.3 |
|
IFEval (مقعد الصوت) |
82.1 |
81.7 |
67.6 |
|
هارمبنش (مرفوض%) |
99.0 |
99.5 |
99.0 |
فائدة كبيرة محتملة للمؤسسات – بمجرد توفر النماذج
إذا تم توفير نماذج تفاعل أجهزة التفكير لقطاع المؤسسات، فإنها ستمثل تحولًا أساسيًا في الطريقة التي تقوم بها الشركات بدمج الذكاء الاصطناعي في سير عملها.
يوفر نموذج التفاعل الأصلي مثل TML-Interaction-Small العديد من إمكانات المؤسسة التي تكون مستحيلة حاليًا أو هشة للغاية مع النماذج القياسية متعددة الوسائط:
يتطلب الذكاء الاصطناعي الحالي للمؤسسة إكمال “منعطف” قبل أن يتمكن من تحليل البيانات. في بيئة الإنتاج أو المختبر، يمكن لنموذج التفاعل الأصلي مراقبة الفيديو والتدخل بشكل استباقي عند اكتشاف خرق أمني أو انحراف في البروتوكول – دون انتظار طلب الموظف للحصول على تعليقات.
ويشير نجاح النموذج في المعايير البصرية مثل RepCount-A (العد الدقيق للتكرار) وProactiveVideoQA (الإجابة على الأسئلة عند ظهور الأدلة المرئية) إلى أنه يمكن أن يكون بمثابة مدقق في الوقت الحقيقي للمهام البدنية عالية المخاطر.
المشكلة الأساسية في خدمة العملاء الصوتية هي تأخير “المعالجة” لمدة 1-2 ثانية الشائع في واجهات برمجة التطبيقات القياسية في عام 2026. يحقق نموذج Thinking Machines زمن وصول لأخذ الأدوار قدره 0.40 ثانية، وهو ما يعادل سرعة المحادثة البشرية الطبيعية.
نظرًا لأنه يدعم الكلام المتزامن في الأصل، يمكن لروبوت دعم المؤسسة الاستماع إلى إحباطات العملاء، ونقل إشارات “القناة” (مثل “أرى” أو “mm-hmm”) دون مقاطعة المستخدم، وتقديم ترجمة مباشرة تبدو وكأنها محادثة طبيعية بدلاً من سلسلة من التسجيلات المنفصلة.
تفتقر شهادات LLM القياسية إلى ساعة داخلية؛ إنهم “يعرفون” فقط الوقت الذي يتم توفيره فيه في رسالة نصية. تتميز نماذج التفاعل بأنها تدرك الوقت في الأصل، مما يسمح لها بإدارة العمليات الحساسة للوقت مثل “ذكّرني بفحص درجة حرارتي كل 4 دقائق” أو “حذرني إذا كانت هذه العملية تستغرق وقتًا أطول من العملية السابقة”. وهذا أمر بالغ الأهمية للصيانة الصناعية والبحوث الصيدلانية، حيث يعد الوقت متغيرا هاما.
خلفية عن آلات التفكير
يمثل هذا الإصدار الإنجاز الرئيسي الثاني لشركة Thinking Machines بعد إطلاق Tinker في أكتوبر 2025، وهي واجهة برمجة تطبيقات لضبط نماذج اللغة المُدارة تتيح للباحثين والمطورين التحكم في بياناتهم وأساليب التعلم الخاصة بهم بينما تعالج Thinking Machines عبء البنية التحتية المرتبط بالتدريب الموزع.
تقول الشركة إن Tinker يدعم كلا من النماذج الصغيرة والكبيرة ذات الوزن المفتوح، بما في ذلك النماذج المكونة من خبراء متنوعين، وأن المستخدمين الأوائل شملوا مجموعات من برينستون، وستانفورد، وبيركلي، وريدوود ريسيرش.
عند إطلاقها في أوائل عام 2025، وصفت شركة Thinking Machines نفسها بأنها شركة أبحاث وإنتاج في مجال الذكاء الاصطناعي تسعى إلى إنشاء أنظمة ذكاء اصطناعي متقدمة “مفهومة على نطاق واسع وقابلة للتخصيص وقادرة بشكل عام”.
في يوليو 2025، ذكرت شركة Thinking Machines أنها جمعت ما يقرب من 2 مليار دولار أمريكي بقيمة 12 مليار دولار في جولة قادها أندريسن هورويتز وشاركت فيها Nvidia، وAccel، وServiceNow، وCisco، وAMD، وJane Street. سلك أكبر جولة تمويل أولي في التاريخ.
وول ستريت جورنال في أغسطس 2025، أفيد أن الرئيس التنفيذي للتكنولوجيا المنافس مارك زوكربيرج تواصل مع موراتي بشأن الاستحواذ على Thinking Machines Lab، وبعد رفضها، قامت ميتا بتعيين عشرات من موظفي الشركة الناشئة البالغ عددهم 50 موظفًا تقريبًا.
وفي مارس وأبريل 2026، أصبحت الشركة معروفة أيضًا بطموحاتها الحاسوبية: حيث أعلنت: شراكة نفيديا نشر ما لا يقل عن جيجاوات واحدة من أنظمة الجيل التالي من Vera Rubin قامت بتوسيع شراكتها مع Google Cloud لاستخدام البنية التحتية للكمبيوتر الفائق الخاص بشركة Google مع أنظمة Nvidia GB300 للبحث النموذجي والتعلم المعزز والتدريب النموذجي الرائد وTinker.
حتى أبريل 2026 أفاد موقع Business Insider قامت شركة Meta بتعيين سبعة أعضاء مؤسسين لشركة Thinking Machines، بما في ذلك Mark Jen وYinghai Lu، بينما انتقل باحث آخر في Thinking Machines، وهو Tianyi Zhang، إلى Meta أيضًا. وذكر التقرير نفسه أن جوشوا جروس، الذي ساعد في بناء منتج الضبط الرائد لشركة Thinking Machines، Tinker، انضم إلى Meta Superintelligence Labs، وعلى الرغم من رحيله، فقد زاد عدد موظفي الشركة إلى حوالي 130 موظفًا.
لم تكن شركة Thinking Machines تخسر الأشخاص فحسب، بل قامت أيضًا بتعيين المخضرم Meta Soumith Chintala، مبتكر PyTorch، في منصب CTO وأضافت أشخاصًا آخرين رفيعي المستوى يتمتعون بمواهب تقنية، مثل Neal Wu. تك كرانش في أبريل 2026، تم الإبلاغ بشكل منفصل عن انضمام ويياو وانغ، وهو أحد المخضرمين في Meta والذي يتمتع بخبرة ثماني سنوات في العمل على أنظمة الإدراك متعدد الوسائط، إلى Thinking Machines، مع التأكيد على أن تدفق المواهب ليس في اتجاه واحد.
ذكرت شركة Thinking Machines سابقًا أنها تشارك في “مكونات مهمة مفتوحة المصدر” في إصداراتها لتمكين مجتمع البحث. ليس من الواضح ما إذا كانت نماذج نماذج التفاعل الجديدة هذه ستتبع نفس الروح وشروط الإصدار.
ولكن هناك شيء واحد مؤكد: من خلال تقديم التفاعل الأصلي للنموذج، تعتقد شركة Thinking Machines أن توسيع نطاق النموذج سيجعله الآن متعاونًا أكثر ذكاءً وفعالية.









