بحثت الدراسة الجديدة في مدى جودة أداء النماذج اللغوية الكبيرة في مجموعة متنوعة من السياقات الطبية، بما في ذلك حالات غرف الطوارئ في العالم الحقيقي، حيث بدا أن نموذجًا واحدًا على الأقل أكثر دقة من الأطباء البشريين.
كان هناك اختبار نشرت هذا الأسبوع في مجلة العلوم ويأتي من فريق بحث بقيادة أطباء وعلماء كمبيوتر من كلية الطب بجامعة هارفارد ومركز بيث إسرائيل ديكونيس الطبي. وقال الباحثون إنهم أجروا مجموعة متنوعة من التجارب لمقارنة نماذج OpenAI مع نماذج الأطباء.
في إحدى التجارب، ركز الباحثون على 76 مريضًا جاءوا إلى غرفة الطوارئ في بيث إسرائيل، وقارنوا التشخيصات التي اقترحها طبيبان معالجان بتلك التي تم إنشاؤها بواسطة نماذج OpenAI o1 و4o. تم تقييم هذه التشخيصات من قبل طبيبين معالجين آخرين لم يعرفا أيهما بشري وأيهما يتمتع بالذكاء الاصطناعي.
وقالت الدراسة: “في كل نقطة اتصال تشخيصية، كان أداء o1 أفضل اسميًا أو على قدم المساواة مع الطبيبين المعالجين، و4o”، مضيفة أن الاختلافات “كانت واضحة بشكل خاص عند نقطة الاتصال التشخيصية الأولى (الفرز الأولي في قسم الطوارئ)، حيث يتوفر أقل قدر من المعلومات عن المريض وحيث يكون اتخاذ القرار الصحيح أكثر إلحاحًا”.
في كلية الطب بجامعة هارفارد بيان صحفي وحول الدراسة، أكد الباحثون أنهم لم “يقوموا بمعالجة البيانات مسبقًا” على الإطلاق – فقد تم تغذية نماذج الذكاء الاصطناعي بنفس المعلومات التي كانت متوفرة في السجل الصحي الإلكتروني في وقت كل تشخيص.
باستخدام هذه المعلومات، كان نموذج o1 قادرًا على تقديم “تشخيص دقيق أو قريب جدًا” في 67% من حالات الفرز، مقارنة بطبيب واحد قام بتشخيص دقيق أو قريب في 55% من الحالات والطبيب الآخر الذي قام بالتشخيص في 50% من الحالات.
وقال أرجون مانراي، الذي يدير مختبر الذكاء الاصطناعي في كلية الطب بجامعة هارفارد وأحد المؤلفين الرئيسيين للدراسة، في بيان صحفي: “لقد اختبرنا نموذج الذكاء الاصطناعي مقابل كل المعايير تقريبًا، وقد تفوق في الأداء على النماذج السابقة والخطوط الأساسية لأطبائنا”.
حدث تك كرانش
سان فرانسيسكو، كاليفورنيا
|
13-15 أكتوبر 2026
لكي نكون واضحين، لم تثبت الدراسة أن الذكاء الاصطناعي جاهز لاتخاذ قرارات حقيقية تتعلق بالحياة أو الموت في غرفة الطوارئ. وبدلا من ذلك، قال إن النتائج تشير إلى “حاجة ملحة لإجراء دراسات مستقبلية لتقييم هذه التقنيات في أماكن رعاية المرضى في العالم الحقيقي”.
وأشار الباحثون أيضًا إلى أنهم قاموا بفحص أداء النماذج فقط عند إعطائها معلومات نصية وأن “الأبحاث الحالية تشير إلى أن النماذج الأساسية الحالية لديها تفكير محدود أكثر مقارنة بالبيانات غير النصية”.
آدم رودمان، طبيب في بيت إسرائيل وأحد المؤلفين الرئيسيين للدراسة: قال لصحيفة الغارديان أنه “لا يوجد حاليًا إطار رسمي للمساءلة” حول تشخيصات الذكاء الاصطناعي وأن المرضى ما زالوا “يريدون أن يرشدهم البشر خلال قرارات الحياة أو الموت (و) يرشدونهم خلال قرارات العلاج الصعبة”.
عندما تقوم بالشراء من خلال الروابط الموجودة في مقالاتنا، قد نكسب عمولة صغيرة. وهذا لا يؤثر على استقلالنا التحريري.













