عندما تفشل مسارات العمل الوكيلة، غالبًا ما يفترض المطورون أن المشكلة تكمن في القدرات المنطقية للنموذج الأساسي. وفي الواقع، فإن المعلومات المحدودة التي توفرها واجهة البحث غالبًا ما تكون عاملاً مقيدًا رئيسيًا.
يقترح علماء من العديد من الجامعات تقنية تسمى التفاعل المباشر بين القوات (DCI)، الذي يسمح للوكلاء بتجاوز تضمين النموذج بالكامل والبحث في المواد الخام مباشرة باستخدام أدوات سطر الأوامر القياسية.
حدود البحث الكلاسيكي
في أنظمة البحث الكلاسيكية مثل RAG، يتم تقطيع المستندات إلى شرائح وتحويلها إلى تمثيلات متجهة (أو تضمينات) وفهرستها دون اتصال في قاعدة بيانات متجهة. عندما يقوم نظام الذكاء الاصطناعي بمعالجة استعلام، يقوم برنامج الجلب بتصفية قاعدة البيانات بأكملها لإرجاع قائمة بأجزاء المستند ذات التصنيف “top-k” التي تطابق الاستعلام. يجب أن تمر جميع الأدلة عبر آلية التسجيل هذه قبل حدوث أي تفكير آخر.
ومع ذلك، تتطلب تطبيقات الوكيل الحديثة أكثر من ذلك بكثير. “البحث المكثف مفيد جدًا للاستدعاء الدلالي الواسع، ولكن عندما يحتاج الوكيل إلى حل مهمة متعددة الخطوات، فغالبًا ما يحتاج إلى البحث عن سلاسل أو أرقام أو إصدارات أو رموز خطأ أو مسارات ملفات أو مجموعات نادرة من القرائن”، كما قال مؤلفو ورقة DCI في التعليقات المقدمة إلى VentureBeat. “هذه التفاصيل الطويلة هي بالضبط المكان الذي يمكن أن يكون فيه التشابه الدلالي هشًا.”
على عكس عمليات البحث الثابتة، يجب على الوكلاء أيضًا تعديل خطط البحث الخاصة بهم ديناميكيًا بعد ملاحظة الأدلة الجزئية أو المحلية. من الصعب تنفيذ القيود المعجمية الدقيقة وتنقيح الفرضيات متعددة الخطوات للمستردين الدلالي. نظرًا لأن وحدة الاسترجاع تضغط الوصول إلى خطوة واحدة، فإن أي دليل مهم تمت تصفيته بواسطة بحث التشابه لا يمكن استرجاعه لاحقًا، بغض النظر عن مدى تقدم قدرات الاستدلال الإضافية للوكيل. وكما يوضح المؤلفون، يمكن أن تصبح مسارات البحث الحالية بمثابة عنق الزجاجة لأنها “تقرر في وقت مبكر جدًا ما يمكن للوكيل رؤيته”.
التفاعل المباشر بين القوات
يؤدي هذا الوصول المباشر إلى حل مشكلة أساسية في بيئات المؤسسات: وهي أن البيانات قديمة. تعد الفهارس المضمنة دائمًا لقطة لنقطة زمنية محددة وتتطلب حسابات كبيرة ووقتًا كبيرًا لإنشائها وصيانتها.
يقول المؤلفون: “في العديد من المؤسسات، لا تعد البيانات مجموعة مستقرة من المستندات. إنها التقارير المالية اليومية، وسجلات الأنشطة، والتذاكر، وعمليات تنفيذ التعليمات البرمجية، وملفات التكوين، وجداول الأحداث، والمستندات الداخلية التي تتغير باستمرار”. يسمح DCI للوكيل بتحليل الحالة الحالية لمساحة العمل بدلاً من فهرس المتجهات الخاص بالأمس.
يعمل الوكيل في بيئة تشبه المحطة الطرفية حيث تكون ملاحظاته هي المخرجات الأولية للأداة، مثل مسارات الملفات ونطاقات النص المطابقة والأسطر المحيطة. الأدوات الأساسية التي توفرها DCI قليلة، ولكنها معبرة للغاية. يستخدم الوكلاء أوامر مثل “find” و”glob” للتنقل بين بنيات الدليل وتحديد موقع الملفات. وللحصول على المطابقة التامة، يستخدمون “grep” و”rg” لتحديد كلمات رئيسية محددة وأنماط التعبير العادي والسلاسل الدقيقة. عندما يكون الفحص المحلي ضروريًا، فإن أدوات مثل الرأس والذيل وsed وcat ونصوص Python خفيفة الوزن تسمح للوكيل برؤية السياق المحيط بالمطابقة أو قراءة أقسام محددة من الملف.
يمكن للوكيل توصيل هذه الأدوات عبر خطوط أنابيب Shell لتنفيذ منطق بحث معقد في خطوة واحدة. يمكن للوكيل إرسال أوامر لفرض قيود معجمية صارمة، مثل البحث في ملف عن مصطلح واحد وإرسال الإخراج للبحث عن مصطلح ثان. يمكنه الجمع بين عدة أدلة ضعيفة في مجموعة بيانات من خلال البحث عن نوع ملف محدد، والبحث عن كلمة رئيسية مثل “تقرير”، والتصفية حسب السنة مثل “2024”. ويمكنه أيضًا التحقق من صحة فرضيتك على الفور عن طريق التحقق من الأسطر الدقيقة المحيطة بمطابقة كلمتك الرئيسية.
ينقل DCI التفسير الدلالي مباشرة إلى الوكيل، بدلاً من الاعتماد على بحث التشابه القائم على التضمين. يمكن للوكيل صياغة الفرضيات، واختبار الأنماط المعجمية الدقيقة، واستخراج المعلومات التفصيلية التي قد يفتقدها المسترد الدلالي التقليدي.
يقترح الباحثون نسختين من هذا النظام. تم تصميم DCI-Agent-Lite كإعداد خفيف الوزن ومنخفض التكلفة مبني على نموذج GPT-5.4 nano ويقتصر على التفاعلات الطرفية البسيطة فقط مثل أوامر bash وقراءات الملفات الأساسية. نظرًا لأن قراءة الملفات الأولية يمكن أن تملأ ذاكرة نموذج أصغر بسرعة، فإن هذا الإصدار يعتمد على إستراتيجيات إدارة السياق خفيفة الوزن في وقت التشغيل للحفاظ على الاستكشاف على المدى الطويل.
DCI-Agent-CC هو إصدار عالي الأداء مخصص للفرق ذات ميزانيات الحوسبة الأكبر. يعمل على Claude Code المدعوم من Claude Sonnet 4.6. يوفر Claude Code مطالبات أقوى، وتنسيقًا أكثر قوة للأدوات، ودعمًا ممتازًا للسياق المدمج، مما يعمل على تحسين استقرار الوكيل أثناء عمليات البحث المعقدة والمتعددة الخطوات عبر مجموعات البيانات غير المتجانسة.
DCI في العمل
اختبر الباحثون كلا الإصدارين من DCI في معايير البحث المستندة إلى الوكيل مثل BrowseComp-Plus، وضمان الجودة كثيف المعرفة مع الاستدلال بقفزة واحدة ومتعددة القفزات، وتصنيف استرجاع المعلومات في المهام التي تتطلب استدلالًا خاصًا بالمجال والتحقق من الحقائق العلمية.
لقد اختبروا DCI مقابل ثلاثة خطوط أساسية. تضمن الأول المستردات ذات الوزن المفتوح مثل Search-R1، والوسائل الخاصة القائمة على نماذج رائدة مثل GPT-5 وClaude Sonnet 4.6، جنبًا إلى جنب مع المستردات القياسية. يتضمن خط الأساس الثاني المستردات المتفرقة الكلاسيكية مثل BM25 والمستردات الكثيفة مثل Text-embedding-3-large من OpenAI وQwen3-Embedding-8B. يتكون خط الأساس الثالث من أدوات إعادة تقييم عالية الأداء وموجهة نحو المنطق مثل ReasonRank-32B وRank-R1.
تفوقت DCI باستمرار على خط الأساس، وفقا للباحثين. في المعيار المركب BrowseComp-Plus، أدى استبدال المسترد الدلالي Qwen3 التقليدي بـ DCI في إطار عمل Claude Sonnet 4.6 إلى تحسين الدقة من 69.0% إلى 80.0% مع تقليل تكلفة API من 1,440 دولارًا إلى 1,016 دولارًا. وكان العائد على الاستثمار في الصناديق الخفيفة ملحوظًا أيضًا. تنافس DCI-Agent-Lite مع GPT-5.4 nano مع نموذج OpenAI o3 باستخدام البحث التقليدي مع تقليل التكاليف بما يزيد عن 600 دولار.
وفقًا للباحثين، في معايير ضمان الجودة متعددة القفزات، حقق DCI-Agent-CC متوسط دقة يبلغ 83.0%، وهو تحسن بمقدار 30.7 نقطة مقارنة بأقوى خط أساس للبحث ذو الوزن المفتوح.
تظهر البيانات أن DCI لديه التعرف العام على المستندات أقل من نماذج التضمين الكثيفة، ولكن عندما يجد مستندًا مناسبًا، فإنه يستخرج منه قيمة أكبر بكثير.
“إذا سأل أحد قادة الذكاء الاصطناعي في المؤسسة عن المكان الأكثر فائدة لـ DCI، أود أن أشير إلى المهام التي تتطلب الموقع الدقيق للأدلة في مساحة عمل ديناميكية: تصحيح أخطاء حوادث الإنتاج، أو البحث في قواعد التعليمات البرمجية الكبيرة، أو تحليل السجلات، أو فحص الامتثال، أو مسارات التدقيق، أو تحليل السبب الجذري لمستندات متعددة،” لاحظ الباحثون.
في إحدى المهام البحثية المعقدة والمتعمقة، كان على الوكيل تحديد مباراة كرة قدم محددة استنادًا إلى 12 دليلًا مترابطًا، بما في ذلك الحضور الدقيق والبطاقات الصفراء وتواريخ ميلاد اللاعبين. قد يفشل المسترد التقليدي من خلال الكشف عن شظايا قصيرة غير ذات صلة. بدلاً من ذلك، قام وكيل DCI بالبحث في دليل الملفات، وقراءة سطور محددة من تقرير مباراة إنجلترا وبلجيكا عام 1990 للتحقق من العدد الدقيق للتبديلات، وسحب اقتباسًا محددًا من ملف المقابلة، والتحقق من تواريخ الميلاد الدقيقة للاعبين من خلال النظر في ملفات ويكيبيديا النصية. من خلال الجمع بين هذه الأوامر البسيطة، يضمن DCI عدم فقدان أي دليل بشكل دائم خلف خوارزمية البحث الدلالي الخاطئة.
الحدود والتنفيذ العملي لـ DCI
تتمتع DCI بمجال لعب واضح حيث يمكنها التوسع بشكل مثالي من حيث عمق البحث، ولكنها تواجه مشكلات في عرض البحث. عندما زادت المجموعة التجريبية من 100.000 إلى 400.000 مستند، انخفضت دقة النظام بشكل ملحوظ وزاد متوسط عدد استدعاءات الأداة. على الرغم من أن DCI تتمتع بإمكانات هائلة بمجرد العثور على مستند واعد، فإن تكلفة تحديد موقع هذا المستند الرئيسي الأولي والمفيد تزداد بشكل كبير مع زيادة حجم الموقع المحتمل.
يعاني DCI أيضًا من ضعف المراجع عبر مجموعة واسعة من المستندات مقارنة بالنماذج ذات التضمينات الكثيفة. يتاجر باستدعاء شامل للحصول على دقة عالية ودقة محلية. إذا كان سير عمل مؤسستك يتطلب بشكل صارم العثور على كل مستند ذي صلة في مجموعة بيانات ضخمة، فقد لا تكون DCI هي الأداة المناسبة.
يؤدي تزويد الوكيل بأدوات تعبيرية، مثل bash Shell غير المقيد، إلى زيادة زمن الوصول والتكاليف الحسابية نظرًا للعدد الكبير من استدعاءات الأدوات التكرارية المطلوبة لإكمال البحث. كما أنه يخلق تحديات كبيرة لإدارة السياق والأمن لأقسام تكنولوجيا المعلومات.
يقول المؤلفون: “يمكن أن تؤدي استدعاءات الأدوات إلى نتائج كبيرة، ويمكن للمسارات الطويلة أن تملأ نافذة السياق، ويتطلب الوصول إلى محطة أولية وضع الحماية، والتحقق من الأذونات، والهندسة الدقيقة”. لإدارة نافذة السياق، وجد الباحثون أن التقليم والتكثيف المعتدلين يساعدان الوكيل في البحث لفترة أطول، في حين أن التلخيص بقوة شديدة يميل إلى تجاهل الأدلة المفيدة.
نظرًا لهذه الحقائق التشغيلية، لا يُقصد من DCI أن تكون بديلاً إلزاميًا للبنية التحتية الحالية للنواقل. بدلا من ذلك، فإنه يخدم وظيفة تكميلية.
قال المؤلفون: “بالنسبة لمهندسي التنسيق ومهندسي البيانات، نعتقد أن نمط النشر الأكثر عملية على المدى القصير هو النمط المختلط”. لا يزال بإمكان البحث الدلالي اكتشاف المرشحين ذوي الاستدعاء العالي عندما تكون نية المستخدم واسعة النطاق أو غير محددة. “يمكن لـ DCI بعد ذلك أن يعمل كطبقة دقة وتحقق: يمكن للوكيل البحث في المستندات المستردة، وتوسيعها إلى الملفات المجاورة، والتحقق من القيود الدقيقة، ودمج الإشارات الضعيفة داخل المستندات.”
لقد أطلق العلماء رمز دي سي آي تحت رخصة معهد ماساتشوستس للتكنولوجيا الليبرالية.
“على المدى الطويل، تعمل DCI على تغيير الطريقة التي نفكر بها بشأن بيانات المؤسسة. لن تحتاج البيانات إلى تخزينها للأشخاص أو فهرستها لمحركات البحث فحسب، بل يجب أيضًا تنظيمها لتمكين الوكلاء من الفحص والمقارنة والجمع والتتبع والتحقق”، كما استنتج المؤلفون. “أسماء الملفات، والطوابع الزمنية، والمعرفات الثابتة، والبيانات التعريفية، وسجل الإصدارات، والبنية المقروءة آليًا تصبح جزءًا من واجهة البحث.”










