ينسى عملاء الذكاء الاصطناعي. في كل مرة يفقد فيها مساعد الترميز سلسلة تصحيح الأخطاء أو يستعيد وكيل علم البيانات نفس السياق الذي عالجه بالفعل، يدفع الفريق مقابل التأخير وتكاليف الرمز المميز وسير العمل الهش. الحل الذي تتوصل إليه معظم الفرق – توسيع نافذة السياق أو إضافة المزيد من مجموعات RAG – أصبح مكلفًا بشكل متزايد ولا يزال غير فعال بشكل موثوق.
لحل هذه المشكلة، اقترح علماء من Mind Lab والعديد من الجامعات ذاكرة دلتاتقنية فعالة تعمل على ضغط معلومات النموذج التاريخية في مصفوفة محدثة ديناميكيًا دون تغيير النموذج نفسه. تضيف الوحدة الناتجة 0.12% فقط من معلمات الإطار السلكي – مقارنة بـ 76.40% لأحد البدائل الرائدة – مع تحقيق نتائج أفضل في المعايير كثيفة الاستهلاك للذاكرة. تعمل تقنية Delta-mem على تمكين النماذج من جمع البيانات التاريخية وإعادة استخدامها بشكل مستمر، مما يقلل الاعتماد على نوافذ السياق الضخمة أو وحدات البحث الخارجية المعقدة لضمان الاستمرارية السلوكية.
تحدي الذاكرة الطويلة
الحل التقليدي هو ببساطة تفريغ كافة المعلومات في نافذة سياق النموذج.
ولكن كما قال جينجدي لي، المؤلف المشارك في الدراسة، لموقع VentureBeat، فإن الأنظمة الحالية تتعامل مع الذاكرة باعتبارها مجرد مشكلة في إدارة السياق. وأوضح لي: “إما أن نستمر في توسيع نافذة السياق أو نقوم بتنزيل المزيد من المستندات عبر RAG”. “هذه الأساليب مفيدة وستظل مهمة، لكنها تصبح باهظة الثمن وهشة بشكل متزايد عندما يتعين على الوكلاء العمل في تفاعلات طويلة المدى ومتعددة الخطوات، وهي لا (تعمل) حقًا مثل الذاكرة البشرية لأنها أشبه باسترجاع المستندات.”
في بيئة المؤسسة، لا يقتصر الاختناق على ما إذا كان النموذج يمكنه الوصول إلى السجل، ولكن أيضًا ما إذا كان يمكنه إعادة استخدام هذا السجل بكفاءة، وبشكل مستمر، وبزمن وصول منخفض. تتحمل آليات الاهتمام القياسية تكلفة حسابية تربيعية مع زيادة طول التسلسل. علاوة على ذلك، فإن توسيع نافذة السياق لا يضمن أن النموذج سوف يسترد المعلومات فعليًا. غالبًا ما تعاني النماذج من التدهور أو تعفن السياق عندما تطغى عليها معلومات أكثر (وغالبًا ما تكون متناقضة)، حتى لو كانت تدعم نظريًا مليون رمز مميز.
يؤيد العلماء آليات الذاكرة المتقدمة التي يمكنها تمثيل المعلومات التاريخية بشكل مضغوط وتخزينها ديناميكيًا أثناء التفاعلات. تتضمن الحلول الحالية تنازلات كبيرة ويمكن تقسيمها بشكل عام إلى ثلاثة نماذج:
-
ذاكرة النص: يخزن التاريخ كنص مضمن – مقيد بحدود النوافذ وعرضة لفقد المعلومات بسبب الضغط.
-
القناة الخارجية (RAG): التشفير والتنزيلات من الوحدات الخارجية – يزيد من زمن الوصول وتعقيد التكامل واحتمال عدم التوافق مع إطار العمل.
-
البارامترية: يقوم بتشفير الذاكرة إلى أوزان نموذجية باستخدام المحولات – ثابتة بعد التدريب، وغير قادرة على التكيف مع المعلومات الجديدة أثناء التفاعلات المباشرة.
داخل ذاكرة دلتا
لتحقيق ذاكرة مدمجة ومحدثة ديناميكيًا، تقوم تقنية delta-mem بضغط التفاعلات السابقة للوكيل إلى “حالة الذاكرة الترابطية عبر الإنترنت” (OSAM). يتم الحفاظ على هذه الحالة كمصفوفة ذات حجم ثابت تحافظ على المعلومات التاريخية بينما يظل نموذج اللغة الأساسي مجمداً.
وفي حالة سير العمل في المؤسسة، فإن هذا يترجم مباشرة إلى إزالة الاختناقات التشغيلية. وأشار لي إلى أنه، على سبيل المثال، مساعد الترميز الدائم “قد يحتاج إلى تذكر اصطلاحات التصميم، أو خطوات تصحيح الأخطاء النهائية، أو تفضيلات المستخدم، أو القرارات الوسيطة في تدفق العمل”. وبالمثل، قد يحتاج وكيل تحليل البيانات “إلى الحفاظ على حالة المهمة والافتراضات والملاحظات السابقة أثناء التكرار عبر استدعاءات أدوات متعددة.”
بدلًا من جلب وإعادة إدراج كل التاريخ ذي الصلة بهذه المهام بشكل متكرر، توفر مصفوفة دلتا ميم طريقة غير مكلفة لنقل حالات التفاعل المفيدة إلى حسابات النماذج المستقبلية.
أثناء الإنشاء، لا يقوم النظام بتنزيل مقاطع النص الخام لإضافتها إلى تلميح الأدوات. بدلاً من ذلك، يتم عرض الحالة المخفية الحالية لهيكل LLM على المصفوفة لاستعادة الذاكرة القديمة. تستخرج هذه العملية إشارات الذاكرة الترابطية لذاكرة دلتا ذات الصلة بالسياق. يتم بعد ذلك تحويل هذه الإشارات إلى تصحيحات رقمية يتم تطبيقها على حسابات النموذج. يتحكم هذا في منطق النموذج في وقت الاستدلال، دون تغيير معلماته الداخلية.
بعد كل تفاعل، تقوم delta-mem بتحديث حالتها عبر الإنترنت باستخدام “تعلم قاعدة دلتا”. عند وصول معلومات جديدة، تقوم الحالة السابقة بعمل تنبؤات حول قيم الانتباه الناتجة. ثم يقارن هذا التنبؤ بالقيمة الفعلية ويضبط مصفوفة الذاكرة بناءً على التناقضات.
تعتمد آلية التحديث هذه على “قاعدة دلتا المسورة”. في الأساس، تحتوي وحدة الذاكرة على مقابض مختلفة تتحكم في مقدار الذاكرة السابقة التي تم الاحتفاظ بها ومقدار الذاكرة الجديدة المستخدمة. يسمح تصحيح خطأ النسيان المتحكم به للمصفوفة بالتطور بمرور الوقت، والحفاظ على الاتصالات التاريخية المستقرة دون أن تخرج عن مسارها بسبب الضوضاء قصيرة المدى.
اكتشف العلماء ثلاث استراتيجيات لتحديد متى وكيف يتم تحديث المصفوفة:
-
سجل حالة الرمز المميز يلتقط التغييرات الدقيقة ولكنه عرضة للضوضاء قصيرة المدى.
-
تسجيل حالة التسلسل متوسطات الرموز المميزة عبر مقطع الرسالة، مما يؤدي إلى تسهيل التحديثات على حساب بعض التفاصيل المحلية.
-
تسجيل متعدد الحالات يقوم بتقسيم الذاكرة إلى حالات فرعية لأنواع مختلفة من المعلومات، مثل الحقائق أو تقدم المهمة.
دلتا ميمي في العمل
قام الباحثون بتقييم دلتا-ميم في ثلاثة أطر عمل LLM: Qwen3-8B، Qwen3-4B-Instruct، وSmolLM3-3B. لقد قاموا بتكوين الإطار بمصفوفة مدمجة 8 × 8. تم اختبار النظام في اختبارات الأداء العامة بما في ذلك HotpotQA وGPQA-Diamond وIFEval. تم تقييمه أيضًا على المهام التي تتطلب ذاكرة مثل LoCoMo، الذي يختبر ذاكرة المحادثة طويلة المدى، وMemory Agent Bench، الذي يقيم التذكر والاسترجاع والنسيان الانتقائي والتعلم في وقت الاختبار أثناء التفاعلات الممتدة.
تمت مقارنة الإطار بنماذج تمثيلية لثلاثة نماذج ذاكرة موجودة: خطوط الأساس للذاكرة النصية (على سبيل المثال، BM25 RAG، وLLMLingua-2، وMemoryBank)، والأنظمة البارامترية (Context2LoRA وMemGen)، ونهج ذاكرة MLP مع قناة خارجية.
بشكل عام، كان أداء دلتا ميمي أفضل من خط الأساس، وفقًا للباحثين. في هيكل Qwen3-4B-Instruct، حقق متغير الكتابة لحالة الرمز المميز متوسط درجة 51.66%، متفوقًا بسهولة على هيكل الفانيليا المجمد بنسبة 46.79% وأقوى خط أساس لـ context2LoRA عند 44.90%. في اختبار Memory Agent Bench الذي يعتمد على الذاكرة المكثفة، ارتفع متوسط الدرجات من 29.54% إلى 38.85%. تضاعف الأداء في مهمة التعلم الفرعية المحددة في الاختبار تقريبًا من 26.14 إلى 50.50.
ومع ذلك، فإن النتائج الأكثر إلحاحا هي الكفاءة التشغيلية للنظام. واختبر الباحثون الإطار في بيئة خارجة عن سياقها، حيث تم إزالة النص التاريخي بالكامل من سياقه. حتى بدون استرجاع النص الصريح، نجح برنامج delta-mem في استعادة الأدلة ذات الصلة بالسياق في المهام متعددة القفزات. يجادل الباحثون بأن النموذج يتذكر التفاعلات السابقة دون الحاجة إلى أخذ كميات هائلة من الرموز المميزة.
تضيف المنصة أيضًا 4.87 مليون معلمة قابلة للتدريب فقط، وهو ما يمثل 0.12% فقط من إطار عمل Qwen3-4B-Instruct. بالمقارنة، يتطلب خط الأساس MLP 3 مليارات معلمة، ويصل حجمها إلى 76.40% من حجم الهيكل العظمي مع توفير نتائج أسوأ. عندما تمت زيادة طول التلميح إلى 32000 رمز أثناء اختبار الاستدلال، احتفظت المنصة تقريبًا بنفس حجم ذاكرة وحدة معالجة الرسومات تقريبًا مثل النموذج القياسي غير المعدل. فهو يتجنب انتفاخ الذاكرة الكبير الذي يؤثر على أنظمة الذاكرة المتقدمة الأخرى مثل MemGen وMLP Memory.
أثبتت استراتيجيات التحديث المختلفة فائدتها اعتمادًا على قدرة النموذج. كانت استراتيجية حفظ حالة التسلسل أكثر فعالية بالنسبة للأعمدة الفقرية الأقوى مثل Qwen3-8B. تستخدم هذه النماذج الأكثر كفاءة التسجيل على مستوى المقطع لتسهيل التحديثات وتقليل الضوضاء على مستوى الرمز المميز. على العكس من ذلك، قدمت استراتيجية الكتابة متعددة الحالات مكاسب هائلة في الأداء للهياكل العظمية الأصغر مثل SmolLM3-3B. بالنسبة للنماذج ذات السعة الأصغر، أثبت فصل الذاكرة إلى حالات متعددة أنه أمر بالغ الأهمية لتقليل تداخل المعلومات.
تنفيذ دلتا-ميم على مكدس المؤسسة
لقد نشر العلماء رمز لذاكرة دلتا على جيثب و الأوزان لمحولاتهم المدربة على الوجه المحتضن. بالنسبة لفرق هندسة الذكاء الاصطناعي التي تتطلع إلى دمج هذه المنصة في مجموعة الاستدلالات الموجودة لديهم، تتطلب العملية الحد الأدنى من موارد الحوسبة.
“من الناحية العملية، سيبدأ الفريق الهندسي بنسيج موجود مضبوط للتعليمات، ويربط وحدات محول Delta-Mem بطبقات انتباه محددة، ويقوم بتدريب معلمات المحول فقط على بيانات متعددة المنعطفات أو طويلة السياق ذات صلة بالمجال… ثم يستنتج بناءً على حالة الذاكرة التي تم تحديثها عبر الإنترنت أثناء التفاعل”، كما قال لي. والأهم من ذلك أن الفرق لا تحتاج إلى قاعدة تدريب مسبقة ضخمة. تحتاج بيانات التدريب فقط إلى أن تعكس سلوك الذاكرة المستهدفة، مثل الحوارات متعددة المنعطفات، أو تتبعات الوكيل، أو سير عمل المجال حيث تحتاج المعلومات السابقة إلى التأثير على القرارات اللاحقة.
إن ضغط تاريخ التفاعل في مصفوفة رياضية ذات حجم ثابت يوفر أداءً هائلاً، ولكنه يأتي مع مقايضات. لا يعد Delta-mem بديلاً لسجلات النصوص أو عمليات البحث عن المستندات التي لا تفقد البيانات. ونظرًا لأن المعلومات المختلفة تتنافس في نفس الحالة المحدودة، فهناك خطر اختلاط الذاكرة.
وقال لي: “إن برنامج Delta-Mem مفيد عندما يتطلب النظام تحديثات سريعة ومستمرة للحالة السلوكية عبر الإنترنت”. “يصبح RAG أفضل عندما يتطلب النظام استرجاعًا واقعيًا دقيقًا، أو اقتباسًا، أو امتثالًا، أو إمكانية التدقيق، أو الوصول إلى قاعدة معرفية خارجية كبيرة.” يعد حفظ أسلوب عمل المستخدم أو مسار التفكير متعدد الخطوات مناسبًا بشكل مثالي لـ delta-mem، بينما يجب أن يظل استرداد العقد القانوني أو الإرشادات الطبية في قاعدة بيانات المتجهات.
وهذا يعني أن البنية المؤسسية الأكثر واقعية في المستقبل ستكون بمثابة نهج مختلط. تعمل Delta-mem كذاكرة عمل داخلية خفيفة الوزن، مما يقلل الحاجة إلى تنزيل كل شيء أو إعادة إنشائه باستمرار، بينما تعمل RAG كطبقة تخزين صريحة عالية السعة.
وقال لي: “بالنظر إلى المستقبل، لا أعتقد أن قواعد بيانات المتجهات ستصبح قديمة”. “بدلاً من ذلك، أتوقع أن تصبح مكدسات الذكاء الاصطناعي في المؤسسات أكثر طبقات. ومن المرجح أن نرى ذاكرة عاملة قصيرة المدى في النموذج، وذاكرة صريحة طويلة المدى في أنظمة البحث، وطبقات من السياسات أو التدقيق التي تقرر ما يجب تخزينه، أو استرجاعه، أو نسيانه، أو مشاركته مع المستخدم.”








-1.png)

