يتفوق نموذج Corti Symphony الجديد لتحويل الكلام إلى نص على OpenAI في دقة المصطلحات الطبية، مما يسلط الضوء على قيمة الذكاء الاصطناعي المتخصص

اليوم الذكاء الاصطناعي في مجال الرعاية الصحية ومقره في كوبنهاغن كورتي تطلق Symphony for Speech-to-Text، وهو جيل جديد من نماذج التعرف على الكلام ذات المستوى السريري المصممة خصيصًا للإملاء في الوقت الفعلي، ونسخ المحادثة، ومعالجة الصوت المجمعة – مع أعلى معدل دقة تم تسجيله على الإطلاق في هذه الحالة بالذات.

قال أندرياس كليف، المؤسس المشارك والرئيس التنفيذي لشركة Corti، في مقابلة حصرية عبر مكالمة فيديو مع VentureBeat: “نحن نركز على ضمان أن يثق الأطباء والمرضى في متخصصي الذكاء الاصطناعي لدينا… في نظام الرعاية الصحية بأكمله”.

ترسم بيانات الأداء التي تقدمها الشركة صورة صارخة للوضع الحالي للذكاء الاصطناعي في المؤسسة: بالنسبة للصناعات المتخصصة عالية التنظيم، يمكن للنماذج الخاصة بالمجال أن تتفوق على بائعي النماذج على مستوى المبتدئين.

في مقال علمي منشور حديثاكشفت كورتي أن نماذج الكلام الجديدة ذات المستوى السريري خفضت معدلات خطأ الكلمات (WER) بنسبة تصل إلى 93٪ مقارنة بنماذج الكلام العامة الرائدة وواجهات برمجة التطبيقات (APIs) للمصطلحات الطبية.

عندما يتعلق الأمر بالمصطلحات الطبية الإنجليزية، إذن حققت Symphony for Speech-to-Text نسبة WER منخفضة بشكل استثنائي تبلغ 1.4%.. للمقارنة، سجل نموذج الكلام OpenAI معدل WER قدره 17.7%., حققت شركة ElevenLabs نسبة 18.1%, الهمس سجل 17.4%و الببغاء حصل على 18.9%.

يمثل إعلان كورتي نقطة تحول حاسمة لمطوري الرعاية الصحية. في حين أن واجهات برمجة التطبيقات ذات الأغراض العامة مثل OpenAI Whisper كافية للنسخ واسع النطاق، فإنها غالبًا ما تواجه اختصارات طبية، وجرعات دوائية معقدة، ومختصرات، وبيئة صاخبة لغرفة الطوارئ. يهدف Symphony for Speech-to-Text إلى حل هذه المشكلة من خلال تزويد المطورين بواجهة برمجة تطبيقات عالية التخصص على مستوى الإنتاج ومصممة من الألف إلى الياء مع وضع سير العمل السريري في الاعتبار.

يتطلب عصر الوكالة إدخال بيانات خالية من الأخطاء

يسلط إطلاق Symphony لتحويل الكلام إلى نص الضوء على تحول أساسي في الطريقة التي تستخدم بها الرعاية الصحية التكنولوجيا الصوتية. لعقود من الزمن، كان التعرف على الكلام الطبي يتضمن في المقام الأول إنشاء مستند نصي ثابت ليقوم الأطباء بمراجعته – وهو بديل رقمي للمفكرة.

ومع ذلك، مع دخول صناعة الرعاية الصحية ما يسميه خبراء التكنولوجيا “عصر الوكلاء”، حيث يساعد وكلاء الذكاء الاصطناعي المستقلون بنشاط في اتخاذ القرارات السريرية، والتنقل في السجلات الصحية الإلكترونية، والدعم في الوقت الفعلي، لم يعد النص هو المنتج النهائي. هذه هي طبقة البيانات الأساسية.

وقال كليف في بيان مقدم إلى VentureBeat: “لقد كان الكلام دائمًا أحد أهم عناصر الرعاية الصحية”. “ما يحدث بعد التقاط الكلمات يتغير. في عصر الوكلاء، يتطلب التعرف على الكلام أكثر من مجرد النسخ – نحتاج إلى تزويد أنظمة الذكاء الاصطناعي بحقائق سريرية دقيقة يمكن من خلالها استخلاص النتائج. إذا أخطأ النموذج في تناول دواء أو جرعة أو عرض، تصبح كل خطوة لاحقة أقل موثوقية. توفر Symphony for Speech-to-Text لمطوري الرعاية الصحية طبقة كلام دقيقة بما يكفي لتعمل بشكل جيد في المجال السريري.”

وهنا يأتي الخطر المتزايد من العدد الكبير من الأخطاء في الكلمات. إذا كان نموذج الذكاء الاصطناعي للأغراض العامة يهلوس النص ــ فيحول “فرط نشاط الغدة الدرقية” إلى “قصور الغدة الدرقية” أو يسيء تفسير جرعة دواء حرجة ــ فإن أي وكيل ذكاء اصطناعي لاحق يستخدم هذا النص سوف يعمل على البيانات التالفة. تعمل بنية Corti على تخفيف هذه المخاطر من خلال إنشاء مخرجات منظمة وقابلة للتنفيذ سريريًا مباشرةً من واجهة برمجة التطبيقات (API)، مما يساعد تطبيقات الذكاء الاصطناعي النهائية على تحليل الحقائق الواضحة بدلاً من النصوص غير المنسقة غير المنسقة.

لا يوجد مكان يتجلى فيه هذا الأمر أكثر وضوحًا مما هو عليه في معايير استدعاء وحدة كورتي. لقد وصلت سيمفونية الكلام إلى النص إلى مستوى مذهل معدل استدعاء 98.3% للوحدات السريرية المنسقة –مثل الجرعات والقياسات والتواريخ. في المقابل، أفاد كورتي أن أقوى نموذج أساسي للأغراض العامة حقق أقصى قدر من الكفاءة بنسبة 44.3% فقطأو نفس الكيانات

بالنسبة للمطورين الذين يقومون بإنشاء أدوات توثيق بيئة الذكاء الاصطناعي، فإن هذه الفجوة البالغة 54% هي الفرق بين الأداة التي توفر وقت الطبيب والأداة التي تمثل مسؤولية طبية.

خلع الصناعة يا قوم

في حين أن نتائج Corti مقارنة بأدوات تأليف LLM الحديثة مثل OpenAI وElevenLabs مذهلة، إلا أن الشركة تستهدف أيضًا عمالقة النسخ الطبي القدامى.

لسنوات عديدة، كان المعيار الذهبي للإملاء من قبل الأطباء المتفانين هو Dragon Medical One. ومع ذلك، فقد تم تحسين هذه الأنظمة القديمة تاريخيًا فقط لإملاء الطبيب المقصود، بدلاً من كونها البنية التحتية الأساسية للذكاء الاصطناعي، أو المحادثات المعقدة بين الأطراف، أو أدوات الدعم السريري في الوقت الفعلي.

في تقييم الإملاء الطبي باللغة الإنجليزية في العالم الحقيقي، حققت كورتي نسبة WER قدرها 4.6%، متفوقة على درجة Dragon البالغة 5.7% (تحسن نسبي بنسبة 19%).

علاوة على ذلك، أظهر كورتي معرفة أفضل بالمصطلحات الطبية من دراجون (93.5% مقابل 92.9%).

من خلال توفير هذا المستوى من الدقة عبر نقطة نهاية واجهة برمجة التطبيقات (API)، تتيح Corti لمطوري الطرف الثالث ومقدمي السجلات الصحية الإلكترونية ومنصات الرعاية الافتراضية إنشاء أدوات الإملاء المخصصة وأدوات الاستماع المحيطة التي تتفوق في الأداء على حلول الصناعة الحالية.

وقال كليف: “نريد من الناس أن ينشئوا تطبيقات بناءً على نماذجنا”. “الهدف هو نشر التكنولوجيا على أوسع نطاق ممكن لجعلها مفيدة قدر الإمكان للمرضى وأطبائهم والمتخصصين.”

بالنسبة لكليف وشركائه المؤسسين، المهمة شخصية: كانت والدة كليف عاملة في مجال الرعاية الصحية تعرضت لهجوم من قبل مريض وأمضت سنوات تكافح من أجل التعافي. لقد أراد تحسين عمليات الرعاية الصحية لتكريم تضحياتها.

حل لغز نموذج الرعاية الصحية

تمتد متطلبات الرعاية الصحية إلى ما هو أبعد من المستشفيات الناطقة باللغة الإنجليزية، وقد تم الاستهانة تاريخياً بأنظمة الرعاية الصحية العالمية من خلال نماذج البرمجة اللغوية العصبية السريرية. يستخدم المتبنون الأوائل نماذج كورتي الجديدة بالفعل في بيئات تتطلب لغويًا، مما يثبت جدوى التكنولوجيا في الأسواق الدولية المعقدة.

على سبيل المثال، تشترط سويسرا تقديم الرعاية الصحية بلغات متعددة – وفي كثير من الأحيان في وقت واحد داخل مؤسسة طبية واحدة. فهو يوفر واحدة من أكثر أسس الاختبار صرامة في العالم لنماذج الكلام الطبي متعددة اللغات. أظهرت نماذج Corti Symphony مكاسب هائلة في الأداء في هذه الاختبارات غير الإنجليزية، حيث حققت 2.4% WER باللغة الألمانية (مقارنة بـ 13.0% للنظام التالي الأفضل) و3.9% WER باللغة الفرنسية (مقارنة بـ 10.6%).

وقال بيير كوربوز، مدير الحلول وتطوير الأعمال في شركة Voicepoint، وهي شركة سويسرية تقدم تكنولوجيا الرعاية الصحية، في بيان مقدم إلى VentureBeat: “في المحادثة السريرية، كل كلمة مهمة – اسم الدواء المحذوف، أو الجرعة المترجمة بشكل خاطئ، أو الأعراض الموصوفة بشكل غير صحيح يمكن أن تغير معنى الاجتماع”. “إن دقة Symphony في المصطلحات السريرية تمنحنا الأساس لجلب قدرات ذكاء اصطناعي أكثر قوة إلى العمليات السريرية من خلال منصة Voicepoint Xenon الخاصة بنا. ومع تحسين Corti لطبقة الكلام، ستصبح مسارات العمل التي ننشئها معًا أكثر وضوحًا وأمانًا وأكثر فائدة للأطباء في سويسرا.”

إن الطرح العمودي والتخصص في الذكاء الاصطناعي يجلب فوائد

إن إعلان اليوم عن سيمفونية تحويل الكلام إلى نص ليس حدثًا منعزلاً؛ وهذا هو تتويج للسرد الاستراتيجي الذي كان كورتي يدفع به بقوة خلال الأسابيع القليلة الماضية.

تثبت منصة Symphony الأوسع، التي تدعم التطبيقات السريرية والإدارية لشبكة عالمية من موردي السجلات الصحية الإلكترونية ومؤسسات علوم الحياة، بشكل منهجي أن مختبرات الذكاء الاصطناعي العمودية يمكنها الدفاع ضد عمالقة التكنولوجيا الأفقية.

هذا هو المعيار الرئيسي الثالث الذي أصدرته كورتي خلال ستة أسابيع فقط، حيث تبحث في طبقات مختلفة من أداء الذكاء الاصطناعي في مجال الرعاية الصحية.

وفي أبريل، كشفت الشركة عن ذلك سيمفونية الترميز الطبي وقد تفوق النظام على نماذج الأغراض العامة بأكثر من 25% في اختبارات الدقة السريرية، مما أدى إلى معالجة واحدة من أكثر عمليات سير عمل الرعاية الصحية تعقيدًا.

وفي الأسبوع الماضي فقط، أعلنت كورتي عن نموذجها الرائد من الدرجة السريرية تفوق على OpenAI على HealthBench Professionalمعيار الرعاية الصحية الخاص بـ OpenAI.

في مجموعها، توضح نقاط البيانات الثلاث هذه ــ الترميز الطبي، والتفكير السريري، ودقة تحويل الكلام إلى نص ــ إجماعاً متزايداً في قطاع تكنولوجيا المؤسسات: فالنماذج المعممة تصل إلى السقف في الصناعات الخاضعة للتنظيم.

يجب أن تفهم النماذج المنتشرة في المستشفيات بطبيعتها الاختصارات المعقدة، والانقطاعات المفاجئة، والاختصارات الطبية، واللغة الخاصة بالتخصص، وقيود الامتثال الصارمة. من خلال التدريب خصيصًا لهذه الحالات الفريدة من نوعها، تقوم مختبرات الذكاء الاصطناعي الرأسية مثل Corti ببناء خندق هائل لا يمكن للشركات التي تعتمد فقط على استدعاءات واجهة برمجة التطبيقات (API) لنماذج اللغات الكبيرة المعممة أن تعبره بسهولة.

التوفر ومجموعة المنتجات

يلاحظ المطورون بوضوح الفرق في الأداء. وفقًا لبيانات الزخم المقدمة إلى VentureBeat، تشهد Corti زيادة بنسبة 30٪ في عمليات الاشتراك الجديدة على منصتها على أساس ربع سنوي، مما يشير إلى أن مطوري الرعاية الصحية ومطوري الحلول يتحركون بنشاط نحو النماذج الرأسية ذات المستوى السريري عبر واجهات برمجة التطبيقات العامة.

تقوم Corti، التي تخدم بالفعل أكثر من 100 مليون مريض سنويًا عبر أنظمة الرعاية الصحية الرئيسية بما في ذلك خدمة الصحة الوطنية في المملكة المتحدة (NHS)، بوضع Symphony لتحويل الكلام إلى نص كمحرك افتراضي للجيل القادم من برامج الرعاية الصحية.

من المهم ملاحظة أن Corti لن يطلق منصة Symphony الشاملة نفسها اليوم؛ بدلاً من ذلك، تعمل Symphony for Speech-to-Text كميزة جديدة ومتميزة ضمن هذا النظام البيئي الأوسع، ويمكن الوصول إليها عبر نقاط نهاية API الخاصة بها.

أصبحت ميزة تحويل الكلام إلى نص متاحة بشكل عام بدءًا من اليوم. يمكن للمطورين ومهندسي المؤسسات الوصول إلى النماذج عبر وحدة تحكم Corti API، حيث تتوفر الوثائق الفنية الكاملة للمساعدة في دمج طبقة الكلام ذات المستوى السريري في التطبيقات الحالية.

وفي إطار التزامها بشفافية الأبحاث، نشرت كورتي أيضًا ورقة بحثية كاملة توضح بالتفصيل منهجيتها، إلى جانب أداة قياس منفصلة مصممة لدعم التقييم الشفاف لأنظمة التعرف على الكلام الطبي عبر الصناعة.

مع استمرار قطاع الرعاية الصحية في اعتماد الأتمتة التي تعمل بالذكاء الاصطناعي بسرعة، أصبحت طبقة البيانات الأساسية أكثر أهمية من أي وقت مضى. يعد إطلاق كورتي الأخير بمثابة تذكير صارخ بأن الذكاء الاصطناعي العام في الطب ليس جيدًا بما فيه الكفاية. المستقبل ملك للمتخصصين.

رابط المصدر