تقوم سجلات استعلام SQL بتخزين السياق الذي يحتاجه عملاء الذكاء الاصطناعي لإيقاف الاتصالات الهلوسة

عندما قام فريق بيانات Miro بتوجيه عملاء الذكاء الاصطناعي مباشرةً إلى بيئة Snowflake، حصل العملاء على إجابة خاطئة في أكثر من 65% من الحالات. المشكلة لم تكن في النموذج، بل في السياق. مع وجود أكثر من 10000 جدول وعدم وجود طبقة دلالية لتوجيه التوجيه، لم يكن لدى الوكلاء أي طريقة لمعرفة أصول البيانات التي تطابق أسئلة العمل.

تطلق DataHub يوم الخميس طبقة تحليل سياقية تعمل على استخراج سجل استعلام SQL الحالي لإنشاء فهرس دلالي وإتاحته للوكلاء عبر MCP وLangChain وGoogle Agent Development Kit وCrewAI. تطلق عليها الشركة اسم “ذكاء السياق”، وتعتمد على نفس البنية الأساسية لسجل الاستعلام التي يستخدمها DataHub لتتبع المصدر في عمليات نشر الإنتاج حول العالم.

تم تأسيس الشركة من قبل الفريق الذي قام ببناء DataHub كمشروع مفتوح المصدر في LinkedIn، حيث قاد المؤسس المشارك والمدير التنفيذي للتكنولوجيا Shirshanka Das البنية التحتية للبيانات لمدة 11 عامًا تقريبًا. يضم المشروع مفتوح المصدر حاليًا أكثر من 15000 مساهم و3000 عملية نشر إنتاج في جميع أنحاء العالم.

“لأول مرة، يمكن للمؤسسات تحويل سنوات من تاريخ استعلام المحللين إلى قاعدة معرفية حية وقابلة للاسترجاع حيث يتوقف الوكلاء عن الهلوسة بشأن عمليات الانضمام لأن لديهم إمكانية الوصول إلى عمليات الانضمام التي كانت تعمل من قبل، والتي تم التحقق من صحتها من قبل الأشخاص الذين قاموا بإدارتها،” صرح شيرشانكا داس، المؤسس المشارك والرئيس التنفيذي للتكنولوجيا في DataHub، لـ VentureBeat في مقابلة حصرية.

لماذا يتفوق سجل الاستعلام على نظام توجيه الوكيل الأولي

بدأ DataHub كمشروع لإدارة البيانات الوصفية في LinkedIn لحل مشكلتين في وقت واحد: تسهيل العثور على البيانات واستخدامها عبر المؤسسة مع ضمان استخدامها فقط للأسباب الصحيحة. قامت شركة Das بفتح المشروع في أوائل عام 2020 بعد ما يقرب من ست سنوات من التطوير الداخلي.

منذ ذلك الحين، أصبحت حالة الاستخدام الرئيسية هي المصدر – فهم كيفية تدفق البيانات من أنظمة التشغيل عبر البنية التحتية المتدفقة إلى المستودع وإلى أدوات الأعمال. تعتمد عمليات تدقيق الامتثال التنظيمي، والاختيار التشغيلي، وتأهيل المهندسين الجدد على مخطط النسب هذا. يعد Postgres المصدر الأكثر اتصالاً في قاعدة النشر العالمية لـ DataHub، يليه MySQL وOracle والمستودعات السحابية الرئيسية بما في ذلك Snowflake وGoogle BigQuery. تدعم المنصة أكثر من 100 مصدر للبيانات الوصفية المتصلة.

تعتبر قاعدة البيانات المنشورة هذه ذات صلة بما يطرحه DataHub. لقد تم تطوير ميزات استخراج سجل الاستعلام وتحليل SQL للتحليل السياقي على مدار سنوات من نشر الإنتاج ولم يتم تطويرها لهذا الإصدار. تدعم نفس البنية التحتية الآن الوكلاء الذين يقومون بالاستعلام عن الفهرس الدلالي في وقت التشغيل.

وقال داس: “لقد تغيرت طبقة الاستهلاك من الناس إلى الوكلاء”.

يستخرج التحليل السياقي سجل الاستعلام الذي تم التحقق منه، وليس السجلات الأولية

الذكاء السياقي عبارة عن طبقة جديدة من الإمكانات المبنية على أساس البيانات الوصفية الحالية مفتوحة المصدر الخاصة بـ DataHub. لقد أمضى النظام الأساسي مفتوح المصدر سنوات في استخراج وتحليل سجلات الاستعلام من وحدات التخزين المتصلة لتتبع المصدر. يستخدم التحليل السياقي نفس البنية التحتية لإنشاء فهرس دلالي. الاحتمال جديد. السباكة الأساسية ليست كذلك.

تصفية الإشارة. تحتوي سجلات استعلام المستودع على الكثير من الضوضاء بحيث لا يمكن استخدامها مباشرة. يقوم محرك DataHub بتصفية ما يصفه داس بـ “الاستعلامات الذهبية”، والتي تعني الاستعلامات التحليلية عالية الجودة وخطوط الأنابيب المجدولة التي تمثل منطق الأعمال المثبت.

عكس SQL إلى التعريفات الدلالية. يستخرج المحرك الأنماط من هذه الاستعلامات ويترجمها إلى تعريفات نصية منظمة، والتي يطلق عليها DataHub نقاط الارتساء الدلالية. توفر نقاط الارتساء هذه أساس الاسترجاع الذي يستخدمه الوكلاء قبل إنشاء SQL. قال داس: “يمكنك أن تفكر في الأمر تقريبًا على أنه قلب النص إلى SQL”.

التحقق من قبل الإنسان على القمة. يمكّن context Hub خبراء المجال من مراجعة السياق المقترح للذكاء الاصطناعي، وحل التعريفات المتضاربة، ومحاكاة تأثير التغييرات قبل النشر. يكشف DataHub الحالات التي تحسب فيها الفرق المختلفة نفس البيانات بشكل مختلف وترفعها للحل البشري.

كيف جعل ميرو عملاء الذكاء الاصطناعي يعملون على 10000 طاولة من ندفة الثلج

كانت Miro، وهي منصة تعاون رقمية، تستخدم بالفعل DataHub لتتبع النسب وتحليل التأثير عندما بدأت في اختبار وكلاء التحليلات على Snowflake. صرح رونالد أنجل، مدير المنتج لمنصة البيانات في Miro، لـ VentureBeat أن حجم ملكية البيانات أصبح مشكلة على الفور. أدى إرسال استعلامات اللغة الطبيعية مباشرةً إلى نظام Snowflake MCP إلى إنتاج إجابات غير صحيحة في أكثر من 65% من الحالات. أدى عرض أكثر من 10000 جدول مباشرةً إلى الوكلاء إلى حدوث الكثير من الارتباك لضمان التوجيه الموثوق.

قام Miro بحل هذه المشكلة من خلال تنظيم البيانات في منتجات بيانات محددة جيدًا والتي تحد مما يمكن للوكلاء رؤيته بدلاً من الكشف عن المخطط الأولي. تعتمد بنية الإنتاج على طلبات المستخدمين المقدمة عبر Claude Chat أو Claude Cowork من خلال طبقة السياق، حيث يقوم MCP DataHub بتعيين اللغة الطبيعية لموارد البيانات المناسبة ثم يمرر MCP Snowflake لإنشاء SQL.

قال Angel إن طبقة السياق تسترد البيانات التعريفية والعلاقات بين الكيانات وتاريخ الاستعلام ونية العمل لكل جدول Snowflake، وتحديدًا سؤال العمل الذي من المتوقع أن يجيب عليه كل كيان. تسمح هذه الإشارات الدلالية للوكيل بتحديد كيانات قاعدة البيانات الصالحة قبل كتابة SQL، بدلاً من التخمين بناءً على المخطط نفسه.

Pinecone، Oracle، Redis، Microsoft: كيف يتناسب DataHub مع مكدس السياق

يتمتع موفرو البيانات، بما في ذلك Pinecone وOracle وRedis، بقدرات تخزين حساسة للسياق. على جانب النظام الأساسي، قامت Microsoft ببناء Fabric IQ كطبقة دلالية للسياق.

وسيطة DataHub ليست تكافؤ الدالة. تضع الشركة طبقة السياق كمنصة محايدة – بدلاً من استبدالها، فهي توفر سياقًا لنقاط النهاية الموجودة مثل طرق العرض الدلالية Snowflake وMicrosoft Fabric IQ.

قال داس: “في كثير من الأحيان، يرغب الناس في أن يكونوا محايدين فيما يتعلق بالمنصة عندما يتعلق الأمر بطبقة السياق”.

قال كيفن بيتري، المحلل في BARC، لـ VentureBeat أنه يعتقد أن قدرة DataHub على دمج مجموعة متنوعة من البيانات الوصفية لكل من الكائنات المنظمة وغير المنظمة، بما في ذلك المستندات والصور، تميزها في السوق.

وقال: “يركز العديد من البائعين الآخرين بشكل أكبر على الجداول المنظمة، التي توفر حقائق موثوقة ولكنها غالبًا ما تفتقر إلى السياق الغني للكائنات النصية”.

صرح مايكل ني، نائب الرئيس والمحلل الرئيسي في Constellation Research، لـ VentureBeat أنه بالنسبة له، ما يميز طبقة سياق DataHub هو أنها تدعم الانتقال من الفهرسة السلبية إلى الذكاء الدلالي الذي يتم تحديثه باستمرار. وصف ني منافسة السياق بأنها حرب المنصات العظيمة القادمة، بحجة أن من يتحكم في السياق في وقت التشغيل يتحكم في طبقة صنع القرار للبيانات والوكلاء وسير العمل والقرارات.

وقال ني: “يحتاج المشترون إلى توخي الحذر لأن العديد من البائعين يدعمون فقط جزءًا من إمكانات السياق الكامل المطلوبة لحلول الذكاء الاصطناعي والوكلاء”. “يجب أن يكون المشترون واضحين بشأن متطلبات إدارة السياق الخاصة بهم لأن ذاكرة المتجهات ليست مهمة للأعمال، والأمور الحرجة للأعمال ليست قابلة للإدارة، والإدارة ليست التنفيذ.”

رابط المصدر