تبدأ معظم خطوط أنابيب RAG الخاصة بالمؤسسات بنفس الطريقة: يقوم محلل النص بتحويل صفحات الويب والمستندات إلى نص عادي بحيث يمكن تجزئتها وفهرستها لاسترجاعها. تدمر خطوة التحويل هذه إشارات البحث، ووفقًا لبحث جديد، فهي مسؤولة عن معظم الإجابات غير الصحيحة.
نشر فريق بحث من جامعة كاليفورنيا في بيركلي، وجامعة برينستون، وEPFL وDatabricks ورقة تمهيدية هذا الأسبوع بكسل راج, نظام يتخطى هذا التحويل بالكامل. بدلاً من تحويل الصفحات إلى نص، يعرضها PixelRAG كلقطات شاشة، ويفهرس هذه الصور، ويرسل المربعات التي تم تنزيلها مباشرة إلى قارئ نموذج اللغة المرئية. تم اختباره على 30 مليون لقطة شاشة تغطي كامل ويكيبيديا، وهو يتفوق على نص RAG في ستة معايير، مما يؤدي إلى تحسين الدقة بنسبة تصل إلى 18.1% مقارنة بالخطوط الأساسية للنص.
وفقًا لفريق البحث، فإن المحللون اللغويون هم المكان الخطأ للبحث عن الحلول.
قال ييتشوان وانغ، المؤلف الرئيسي وطالب الدكتوراه في جامعة كاليفورنيا، بيركلي، لـ VentureBeat: “إن تحسين المحلل اللغوي هو عملية لا تنتهي أبدًا لأن كل موقع ويب يتطلب معاملة خاصة”. “كان هدفنا هو التحقق مما إذا كانت التطورات الأخيرة في VLM تجعل من الممكن تجاوز المشكلة بأكملها وبناء نظام بحث يعمل على مواقع الويب دون الحاجة إلى تصميم خاص بالموقع.”
يقوم موزعو HTML بتدمير إشارات التنزيل التي تعتمد عليها مؤسسة RAG
كان هدف الباحثين هو تطوير بنية نظيفة وشاملة.
قال وانغ: “غالبًا ما تتضمن خطوط أنابيب شبكة RAG الحديثة العرض والتحليل والتنظيف والتقطيع والعديد من الخطوات اليدوية الأخرى”. “تقدم كل خطوة أخطاء متتالية وتجريدات محتملة تأخذنا بعيدًا عن صفحة الويب الأصلية. كنا مهتمين بمعرفة ما إذا كان بإمكاننا التخلص من معظم هذا التعقيد والعمل مباشرة على الصفحة المعروضة.”
وأشار وانغ أيضًا إلى أن التحليل يؤدي حتمًا إلى فقدان المعلومات. يتم تجاهل الصور والتسلسل الهرمي المرئي والطباعة والتمييز (مثل النص الغامق) والجداول والتخطيط أو تحويلها إلى تقديرات تقريبية للنص غير كاملة.
وقال: “بغض النظر عن مدى جودة المحلل اللغوي، سيتم فقدان بعض المعلومات بشكل أساسي أثناء التحويل”.
حددت الدراسة ثلاث طرق تفقد بها مجموعات RAG النصية الاستجابة قبل أن تصل إلى القارئ. تم قياس الثلاثة باستخدام SimpleQA، وهو معيار قياسي يتكون من 1000 سؤال فعلي من ويكيبيديا:
-
فقدان المحلل اللغوي (فشل بنسبة 36.6%). يؤدي تحويل HTML إلى نص إلى تدمير المحتوى المنظم تمامًا بحيث لا يحتوي أي جزء من النص في المجموعة على الإجابة.
-
خسارة الرتبة (55.2% فشل). الإجابة موجودة في المجموعة، ولكن يتم تجاوزها بواسطة صناديق المعلومات المثقلة بالكلمات الرئيسية والتي تحتل المرتبة الأولى في 75.9% من الاستعلامات، مما يدفع الفقرات التي تحتوي على الإجابة إلى الموضع 20 أو أقل.
-
فقدان القارئ (8.2% فشل). يصل المحتوى الصحيح إلى القارئ، لكن البنية المسطحة تؤدي إلى إسناد غير صحيح.
كيف يعمل PixelRAG
على عكس LLM القياسي الذي يقرأ النص فقط، يقبل نموذج لغة الرؤية الصور كمدخلات بجانب النص، مما يعني أنه يمكنه قراءة صفحة ويب معروضة بنفس الطريقة التي يفعلها الإنسان، مع الحفاظ على التخطيط والبنية. قال وانغ: “بالنسبة للعديد من مهام استخراج المعلومات المنظمة، نعتقد أن أجهزة VLM الحديثة تتمتع بميزة متأصلة لأنها تستطيع تقييم كل من المحتوى والتخطيط بشكل مشترك، بدلاً من الاعتماد على تمثيل مسطح للنص”.
يعتمد PixelRAG على هذا المبدأ، حيث يستبدل مسار تحليل النص بنظام من أربع خطوات يعمل فقط على لقطات الشاشة المعروضة.
-
تنفيذ. يتم عرض الصفحات باستخدام Playwright، وهي مكتبة أتمتة للمتصفح، في إطار عرض ثابت بدقة 875 بكسل ومقسمة إلى مربعات بارتفاع 1024 بكسل. تنتج مقالات ويكيبيديا البالغ عددها 7 ملايين مقالة ما يقرب من 30 مليون قطعة. يتم تخزين الأصول مؤقتًا محليًا وعرضها دون اتصال بالإنترنت تمامًا.
-
الفهرسة. يتم ترميز كل بلاطة كمتجه واحد ذي 2048 بُعدًا باستخدام Qwen3-VL-Embedding-2B وتخزينها في فهرس الجوار الأقرب التقريبي لـ FAISS. يشغل الفهرس الكامل حوالي 120 جيجابايت في FP16 ويدعم التحديثات المتزايدة دون إعادة الفهرسة الكاملة.
-
تمرين. تم تحسين نموذج التعدين استنادًا إلى بيانات التباين الاصطناعية التي تم إنشاؤها من مخزن البيانات، باستخدام التعدين السلبي الثابت الديناميكي لتصفية السلبيات الكاذبة. يتم تطبيق LoRA، وهي طريقة ضبط خفيفة الوزن تعمل على تحديث جزء صغير من أوزان النموذج، على كل من إطار عمل نموذج اللغة والمشفر المرئي. يستغرق تدريب ما يقرب من 40.000 زوج أقل من ثلاث ساعات على H100 واحد.
-
تخزين. تتطلب مربعات لقطات الشاشة الأولية لـ Wikipedia 5.6 تيرابايت، لكن أسلوب العرض عند الطلب يلغي التخزين المستمر: قم بتضمين جميع المربعات وحذف لقطات الشاشة وإعادة عرض الصفحات عند الطلب في وقت الاستعلام. يتطلب فهرس المتجهات حوالي 120 جيجابايت.
ستة معايير، ومدخرات رمزية للوكيل 10x، ومشكلة واحدة لم يتم حلها
اختبر الباحثون PixelRAG على ستة معايير تغطي مراقبة الجودة الفعلية في ويكيبيديا، والاستعلامات المستندة إلى الجدول، ومراقبة الجودة متعددة الوسائط، والبحث المباشر عن الأخبار. ووجدوا أنه كان متفوقًا على مجموعة RAG المستندة إلى النص في جميع الحالات الست، بما في ذلك المهام التي يمكن الإجابة على الأسئلة فيها من النص فقط. في SimpleQA، تحقق دقة تبلغ 78.8% مقارنة بـ 71.6% لأقوى محلل نص، وتزيد إلى 48.8% مقارنة بـ 42.5% لاستعلامات الجدول المنظم. تحتاج الفرق إلى نماذج من فئة Qwen3-VL-4B أو أعلى لمعرفة الفوائد. تعمل النماذج الأصغر حجمًا على تأخير استرجاع النص بأكثر من 12.5 نقطة مئوية.
تعد ميزة تكلفة الوكيل أقوى حجة قصيرة المدى لـ PixelRAG. في المعايير، استخدم وكيل الذكاء الاصطناعي الذي يستخدم PixelRAG كأداة بحث 3.6 مليون رمز تلميح مقارنة بـ 37.5 مليون للبحث النصي، بتكلفة أقل من 2 إلى 4 مرات من البدائل، بما في ذلك Google، مع تحقيق قدر أكبر من الدقة. يمكن أن يؤدي ضغط الصور إلى تقليل ميزانية الرمز المميز بمقدار الثلث آخر.
المشكلة الرئيسية التي لم يتم حلها هي التقسيم البصري. لقد أمضت أنظمة RAG المستندة إلى النصوص سنوات في تحسين الطريقة التي تقسم بها المستندات إلى وحدات بحث ذات معنى بناءً على الموضوع أو القسم أو المحتوى الدلالي. لا يوجد لدى PixelRAG حاليًا ما يعادله: فهو يقسم الصفحات على ارتفاع ثابت للبكسل، مما يعني أنه يمكن قطع الجدول أو الفقرة إلى النصف في نصف مربع، دون معرفة حدود المحتوى.
وقال وانغ: “لقد أمضى مجتمع استخراج النصوص سنوات في استكشاف استراتيجيات تقطيع البيانات، في حين حظي البحث المرئي باهتمام أقل بكثير”. “نعتقد أن هذا مجال مهم للبحث المستقبلي.”
تحويل VB · 14-15 يوليو · مينلو بارك · طبقات سياق الوكيل
إن عملاءك يتمتعون بجودة البيانات التي يمكنهم الوصول إليها فقط.
تستكشف جلسات التحويل بنيات RAG التي تدعم أنظمة الوكلاء على نطاق واسع – بما في ذلك كيفية قيام المؤسسات بربط الوكلاء بالبيانات الجينومية والسريرية والمؤسسية الحية.
انظر جدول الأعمال الكامل →
ماذا يعني هذا بالنسبة للشركات
تعكس مشكلة جودة البحث التي يحلها PixelRAG التغييرات الأوسع التي تحدث بالفعل في السوق. أظهرت بيانات VB Pulse للربع الأول من عام 2026 من المشاركين المؤهلين من المؤسسات أن نية اعتماد البحث المختلط تضاعفت ثلاث مرات من 10.3% في يناير إلى 33.3% في مارس، وهو ما يمثل الموقع الاستراتيجي الأسرع نموًا في مجموعة البيانات. يشير مؤلفو PixelRAG إلى التنفيذ المختلط باعتباره المسار الأكثر عملية في المستقبل القريب – تراكب البحث المرئي فوق الأنظمة القائمة على النصوص، بدلاً من استبدالها.
بالنسبة للفرق التي تستخدم خطوط أنابيب RAG بالفعل، يكون المسار إلى هذه المدخرات أبسط من إعادة البناء من الصفر.
وقال وانغ: “الحل العملي هو استخدام PixelRAG كطبقة تعزيز إلى جانب أنظمة استرجاع النص الموجودة”. “يعد البحث المختلط، الذي يجمع بين البحث النصي والبحث المرئي، أمرًا بسيطًا ومن المرجح أن يتغير في العديد من عمليات نشر الإنتاج.”










