إخباري
الأحد ٢٢ فبراير ٢٠٢٦ | الأحد، ٥ رمضان ١٤٤٧ هـ
عاجل

الأسئلة الطبية الواقعية تحير روبوتات الدردشة الذكية

دراسة حديثة تكشف عن فجوة بين المعرفة الطبية للذكاء الاصطناعي

الأسئلة الطبية الواقعية تحير روبوتات الدردشة الذكية
7DAYES
منذ 3 ساعة
5

الولايات المتحدة - وكالة أنباء إخباري

الذكاء الاصطناعي الطبي: معرفة واسعة، لكن التواصل ضعيف

في تطور يثير قلقًا متزايدًا بشأن سلامة وفعالية الذكاء الاصطناعي في المجال الطبي، كشفت دراسة حديثة أجراها باحثون من جامعة أكسفورد عن فجوة كبيرة بين الأداء النظري لروبوتات الدردشة الطبية وقدرتها على تقديم نصائح دقيقة في سيناريوهات الحياة الواقعية. بينما أظهرت هذه الأنظمة، بما في ذلك نماذج لغوية كبيرة (LLMs) متطورة مثل GPT-4o و Command R+ و Llama 3، دقة مذهلة في بيئات المختبر، إلا أن أدائها تدهور بشكل كبير عندما طُلب من أشخاص حقيقيين استخدامها لتقييم مشاكل طبية.

تُظهر النتائج، التي نُشرت مؤخرًا في مجلة Nature Medicine، أن روبوتات الدردشة يمكنها تحديد المشكلات الطبية بدقة تصل إلى 95% في المختبر، والتوصية بإجراءات مثل الاتصال بالطبيب أو التوجه إلى قسم الطوارئ بنسبة تزيد عن 56% من الوقت. ومع ذلك، عندما تفاعل المتطوعون مع هذه الروبوتات وقدموا لها سيناريوهات طبية بأسلوب محادثة طبيعي، انخفضت دقة التشخيص إلى أقل من 35%، بينما بلغت دقة تحديد الإجراء الصحيح حوالي 44% فقط. هذا التباين الحاد يسلط الضوء على تحديات جوهرية في كيفية تفاعل البشر مع الذكاء الاصطناعي في سياقات حساسة مثل الرعاية الصحية.

يشير آدم مهدي، عالم الرياضيات الذي قاد الدراسة ويعمل في مختبر أكسفورد "Reasoning with Machines Lab"، إلى أن "الذكاء الاصطناعي يمتلك المعرفة الطبية، لكن الناس يواجهون صعوبة في الحصول على نصائح مفيدة منه". هذه المشكلة ليست مجرد قصور في قدرات الذكاء الاصطناعي نفسه، بل تتعلق بكيفية صياغة الأسئلة وتقديم المعلومات من قبل المستخدمين، وكيفية تفسير الروبوتات لهذه المدخلات المتغيرة.

في إطار الدراسة، قام مهدي وزملاؤه بتزويد نماذج لغوية كبيرة بسيناريوهات تصف 10 حالات طبية مختلفة لتقييم قدرتها على التشخيص وتقديم التوصيات. ثم تم تقسيم حوالي 1300 متطوع عشوائيًا. طُلب من نصفهم استخدام أحد هذه النماذج اللغوية الكبيرة لتقييم سيناريوهاتهم، بينما استخدم النصف الآخر طرقًا أخرى، كان معظمها يعتمد على محركات البحث التقليدية مثل جوجل. المفاجأة كانت أن المشاركين الذين استخدموا روبوتات الدردشة لم يؤدوا بشكل أفضل من الروبوتات نفسها في تقييم المختبر، بل كانوا أسوأ من أولئك الذين استخدموا أدوات البحث.

فقد نجح المشاركون الذين استعانوا بـ "الدكتور جوجل" في تشخيص المشكلة بنسبة تزيد عن 40% من الوقت، مقارنة بـ 35% فقط للمستخدمين الذين اعتمدوا على روبوتات الدردشة. يؤكد مهدي أن هذا الفرق "ذو دلالة إحصائية"، مما يشير إلى أن البحث التقليدي عبر الإنترنت لا يزال يوفر نتائج أكثر موثوقية في كثير من الأحيان من الاستشارات المباشرة مع روبوتات الدردشة الطبية، على الرغم من أن الروبوتات نفسها قد تكون أكثر دقة عند اختبارها في بيئة معملية محكومة.

يُذكر أن روبوتات الدردشة المستخدمة في الدراسة كانت من أحدث ما توصلت إليه التكنولوجيا في أواخر عام 2024، مما يجعل تحسين معرفتها الطبية أمرًا صعبًا. "المشكلة كانت في التفاعل مع الناس"، كما يؤكد مهدي. في بعض الحالات، قدمت الروبوتات معلومات غير صحيحة أو غير كاملة أو مضللة. ولكن في معظم الأحيان، يبدو أن المشكلة تكمن في طريقة تفاعل المستخدمين مع النماذج اللغوية الكبيرة. يميل البشر إلى تقديم المعلومات ببطء وتدريجيًا، بدلاً من تقديم القصة الكاملة دفعة واحدة، مما قد يربك روبوتات الدردشة التي يمكن أن تتشتت بسهولة بالمعلومات غير ذات الصلة أو الجزئية.

علاوة على ذلك، لوحظ أن المشاركين تجاهلوا أحيانًا تشخيصات الروبوتات حتى عندما كانت صحيحة. كما أن التغييرات الطفيفة في طريقة وصف السيناريوهات أحدثت فرقًا كبيرًا في استجابة الروبوت. على سبيل المثال، عند وصف حالة نزيف تحت العنكبوتية (نوع من السكتة الدماغية)، أدى وصف أحد المتطوعين للصداع بأنه "أسوأ صداع على الإطلاق" إلى نصيحة صحيحة من GPT-4o بضرورة طلب المساعدة الطبية الفورية. في المقابل، وصف متطوع آخر الصداع بأنه "صداع رهيب"، مما دفع نفس الروبوت إلى اقتراح احتمالية الإصابة بالصداع النصفي والتوصية بالراحة في غرفة مظلمة وهادئة، وهي نصيحة قد تكون خطيرة بل مميتة في حالة السكتة الدماغية.

إن سبب هذه الاختلافات الدراماتيكية في الاستجابة بناءً على تغييرات طفيفة في الوصف لا يزال غير معروف، ويعتبر جزءًا من "مشكلة الصندوق الأسود" في الذكاء الاصطناعي، حيث يصعب حتى على مطوري هذه النماذج فهم منطقها الداخلي. ونتيجة لذلك، خلص مهدي وزملاؤه إلى أن "لم يتم تجهيز أي من نماذج اللغة التي تم اختبارها للنشر في رعاية المرضى المباشرة".

تتفق منظمات أخرى مع هذا الاستنتاج. فقد صنفت منظمة ECRI، وهي منظمة عالمية غير ربحية لسلامة المرضى، في تقرير صدر مؤخرًا استخدام روبوتات الدردشة الذكية في المجال الطبي كأكبر خطر في مجال التكنولوجيا الصحية لعام 2026. ويشير التقرير إلى أن هذه الروبوتات قد تقترح تشخيصات خاطئة بثقة، أو تخترع أجزاء من الجسم، أو توصي بمنتجات أو إجراءات طبية خطيرة، أو تنصح بإجراء فحوصات أو علاجات غير ضرورية، أو تعزز التحيزات التي تزيد من الفوارق الصحية. كما أظهرت دراسات سابقة كيف يمكن لروبوتات الدردشة ارتكاب أخطاء أخلاقية عند استخدامها كمعالجين.

على الرغم من هذه التحذيرات، يستخدم معظم الأطباء حاليًا روبوتات الدردشة بشكل أو بآخر، مثل نسخ السجلات الطبية أو مراجعة نتائج الاختبارات. وقد أطلقت شركات كبرى مثل OpenAI و Anthropic نسخًا متخصصة من نماذجها للرعاية الصحية. ويتلقى ChatGPT وحده أكثر من 40 مليون سؤال صحي يوميًا. يكمن جاذبية هذه الأدوات في قدرتها على الوصول إلى مليارات نقاط البيانات وتجميعها في صيغة سهلة الفهم وجذابة، وتقديم نصائح دقيقة بثقة. ومع ذلك، يؤكد الخبراء أن "نماذج اللغة التجارية ليست جاهزة للاستخدام السريري الاحترافي، والاعتماد عليها وحدها ليس آمنًا".

يتوقع الخبراء أنه بمرور الوقت، قد يصبح كل من نماذج الذكاء الاصطناعي والمستخدمين أكثر تطورًا لردم فجوة التواصل هذه. وتؤكد دراسات مثل دراسة مهدي المخاوف طويلة الأمد بشأن سلامة وموثوقية النماذج اللغوية الكبيرة في رعاية المرضى. تعمل أبحاث أخرى على اقتراح تحسينات في تدريب واختبار وتنفيذ نماذج الذكاء الاصطناعي لجعلها أكثر موثوقية في سياقات طبية متنوعة.

يخطط الباحثون لإجراء دراسات إضافية حول تفاعلات الذكاء الاصطناعي بلغات أخرى وعلى مدى فترات زمنية أطول، بهدف مساعدة مطوري الذكاء الاصطناعي على تصميم نماذج أقوى يمكن للناس الحصول على إجابات دقيقة منها. يقول مهدي: "الخطوة الأولى هي إصلاح مشكلة القياس. لم نكن نقيس ما يهم حقًا، وهو كيفية أداء الذكاء الاصطناعي مع الأشخاص الحقيقيين".

الكلمات الدلالية: # الذكاء الاصطناعي، روبوتات الدردشة، الرعاية الصحية، التشخيص الطبي، دقة الذكاء الاصطناعي، دراسة أكسفورد، Nature Medicine، نماذج اللغة الكبيرة، سلامة المرضى