اخباری
Thursday, 19 February 2026
Breaking

پرسش‌های پزشکی واقعی، چت‌بات‌های هوش مصنوعی را سردرگم می‌کند

چت‌بات‌های پیشرفته هوش مصنوعی در تعامل با انسان‌ها افت عملکر

پرسش‌های پزشکی واقعی، چت‌بات‌های هوش مصنوعی را سردرگم می‌کند
7DAYES
6 hours ago
5

ایالات متحده - خبرگزاری اخباری

چت‌بات‌های هوش مصنوعی در مشاوره پزشکی دنیای واقعی ناکام می‌مانند، مطالعه آکسفورد فاش می‌کند

پیشرفته‌ترین چت‌بات‌های هوش مصنوعی (AI)، در حالی که دقت چشمگیری در محیط‌های آزمایشگاهی کنترل‌شده نشان می‌دهند، هنگام پاسخگویی به سؤالات پزشکی دنیای واقعی که توسط انسان‌ها مطرح می‌شود، با چالش‌های قابل توجهی روبرو هستند. یک مطالعه پیشگامانه که در تاریخ ۹ فوریه در مجله معتبر Nature Medicine منتشر شده است، نشان می‌دهد که این سیستم‌های پیشرفته هوش مصنوعی اغلب بدتر از جستجوهای ساده اینترنتی عمل می‌کنند، زمانی که افراد برای مشکلات سلامتی به دنبال کمک هستند.

این تحقیق که توسط تیمی در "آزمایشگاه استدلال با ماشین‌ها" (Reasoning with Machines Lab) دانشگاه آکسفورد انجام شده است، تضاد شدیدی را بین پتانسیل هوش مصنوعی و عملکرد عملی آن آشکار کرد. در آزمایشگاه، چت‌بات‌های هوش مصنوعی قادر بودند مشکلات پزشکی را با دقت قابل توجه ۹۵٪ شناسایی کنند و اقدامات مناسبی مانند جستجوی مراقبت‌های فوری یا تماس با پزشک را در بیش از ۵۶٪ موارد به درستی توصیه کنند. این آمار در ابتدا نشان‌دهنده ابزار جدید قدرتمندی برای ارزیابی اولیه پزشکی بود.

با این حال، هنگامی که همین مدل‌های هوش مصنوعی با سناریوهای پزشکی از طریق تعاملات مکالمه‌ای با نزدیک به ۱۳۰۰ داوطلب مطالعه مواجه شدند، نتایج به طور قابل توجهی کمتر چشمگیر بود. دقت در تشخیص وضعیت به زیر ۳۵٪ سقوط کرد و توانایی شناسایی مسیر صحیح اقدام به حدود ۴۴٪ کاهش یافت. این کاهش قابل توجه، شکاف حیاتی بین قابلیت‌های پردازش داده گسترده هوش مصنوعی و توانایی آن در پیمایش ظرافت‌های ارتباط انسانی و موقعیت‌های پیچیده پزشکی را برجسته می‌کند.

آدام مهدی، ریاضی‌دانی که سرپرستی این مطالعه را بر عهده دارد، مشکل اصلی را اینگونه بیان کرد: "هوش مصنوعی دانش پزشکی را دارد، اما مردم در به دست آوردن مشاوره مفید از آن با مشکل روبرو هستند." وی توضیح داد که مشکل نه در کمبود درک پزشکی هوش مصنوعی، بلکه بیشتر در نحوه تعامل کاربران با این مدل‌های زبان بزرگ (LLMs) پیچیده نهفته است. این مطالعه مدل‌های پیشرو از جمله GPT-4o، Command R+ و Llama 3 را آزمایش کرد.

برای بررسی بیشتر، محققان عملکرد چت‌بات‌های هوش مصنوعی را با روش‌های سنتی مقایسه کردند. داوطلبان به طور تصادفی برای استفاده از LLM یا روش‌های دیگر مانند جستجوهای گوگل برای ارزیابی سناریوهای پزشکی تعیین شدند. نکته مهم این است که شرکت‌کنندگانی که به موتورهای جستجو مانند گوگل تکیه کردند، در تشخیص مشکل موفق‌تر بودند و به دقت بیش از ۴۰٪ دست یافتند، در مقایسه با دقت متوسط ۳۵٪ که توسط کسانی که از چت‌بات‌ها استفاده می‌کردند، به دست آمد. مهدی تأکید کرد که این تفاوت از نظر آماری معنی‌دار است و نشان می‌دهد "دکتر گوگل" ممکن است منبع قابل اعتمادتری برای راهنمایی اولیه پزشکی نسبت به چت‌بات‌های هوش مصنوعی فعلی باشد.

این مطالعه نشان می‌دهد که چت‌بات‌های هوش مصنوعی در زمان انجام مطالعه (اواخر سال ۲۰۲۴) واقعاً پیشرفته بودند و بهبود دانش پزشکی اصلی آن‌ها را دشوار می‌کرد. مانع اصلی شناسایی شده، خود تعامل انسان و هوش مصنوعی بود. کاربران اغلب اطلاعات را به صورت تدریجی ارائه می‌دهند، به جای اینکه یک تصویر کامل را یکجا ارائه کنند، که این امر به راحتی می‌تواند هوش مصنوعی را با جزئیات نامربوط منحرف یا گیج کند.

علاوه بر این، این مطالعه نشان داد که تغییرات ظریف در نحوه توصیف علائم توسط کاربران می‌تواند به طور چشمگیری پاسخ هوش مصنوعی را تغییر دهد. در یک مثال قابل توجه که شامل خونریزی ساب آراکنوئید، نوعی سکته مغزی بالقوه کشنده، بود، توصیف یکی از داوطلبان از "سردرد ناگهانی و شدید" باعث شد GPT-4o به درستی توصیه مراقبت‌های پزشکی فوری کند. در مقابل، داوطلب دیگری که "سردرد وحشتناکی" را توصیف کرد، پیشنهادی مبنی بر میگرن دریافت کرد، با این توصیه که در اتاقی تاریک و ساکت استراحت کند – تشخیصی نادرست که بالقوه کشنده بود!

دلایل این تغییرات ناگهانی در خروجی هوش مصنوعی بر اساس تفاوت‌های جزئی زبانی، نامشخص باقی مانده و تحت "مشکل جعبه سیاه" هوش مصنوعی قرار می‌گیرد، جایی که حتی توسعه‌دهندگان نیز نمی‌توانند فرآیند استدلال مدل را به طور کامل ردیابی کنند. این پیش‌بینی‌ناپذیری، نگرانی‌های جدی را در مورد ایمنی و قابلیت اطمینان استقرار این ابزارها در مراقبت مستقیم از بیمار ایجاد می‌کند.

نتیجه‌گیری مطالعه مبنی بر اینکه "هیچ یک از مدل‌های زبانی آزمایش‌شده برای استقرار در مراقبت مستقیم از بیمار آماده نبودند"، با نگرانی‌های گسترده‌تر در بخش فناوری سلامت همسو است. گزارشی در ماه ژانویه از ECRI، یک سازمان غیرانتفاعی جهانی برای ایمنی بیمار، استفاده از چت‌بات‌های هوش مصنوعی در پزشکی را به عنوان بزرگترین خطر فناوری سلامت برای سال ۲۰۲۶ معرفی کرد. این گزارش به مواردی اشاره کرد که هوش مصنوعی با اطمینان تشخیص‌های نادرست ارائه می‌دهد، اعضای بدن را اختراع می‌کند، محصولات یا روش‌های پزشکی بالقوه خطرناک را توصیه می‌کند و سوگیری‌هایی را که نابرابری‌های سلامت را تشدید می‌کنند، تداوم می‌بخشد.

علیرغم این خطرات، ادغام هوش مصنوعی در مراقبت‌های بهداشتی در حال تسریع است. پزشکان به طور فزاینده‌ای از چت‌بات‌ها برای کارهایی مانند رونویسی سوابق پزشکی و بررسی نتایج آزمایش‌ها استفاده می‌کنند. OpenAI و Anthropic نسخه‌های تخصصی مراقبت‌های بهداشتی محصولات کلیدی خود را راه‌اندازی کرده‌اند و گزارش شده است که ChatGPT روزانه بیش از ۴۰ میلیون پرسش مراقبت‌های بهداشتی را پردازش می‌کند. اسکات لوکاس، معاون ایمنی دستگاه‌ها در ECRI، جذابیت هوش مصنوعی را پذیرفت: "آنها می‌توانند به میلیاردها نقطه داده دسترسی پیدا کنند... و آنها را در قالبی قابل هضم، باورپذیر و قانع‌کننده قرار دهند که می‌تواند مشاوره دقیقی در مورد دقیقاً سؤالی که پرسیده‌اید به شما ارائه دهد." با این حال، او هشدار داد: "LLMهای تجاری برای استفاده بالینی در ساعات پربیننده آماده نیستند. تکیه صرف بر خروجی LLM ایمن نیست."

در آینده، کارشناسان پیش‌بینی می‌کنند که هم مدل‌های هوش مصنوعی و هم مهارت کاربران تکامل خواهند یافت و احتمالاً شکاف ارتباطی را که توسط مطالعه آکسفورد برجسته شده است، پر خواهند کرد. محققانی مانند میشل لی، محقق هوش مصنوعی پزشکی در دانشکده پزشکی هاروارد، فعالانه در تلاشند تا قابلیت اطمینان هوش مصنوعی را از طریق استراتژی‌های بهبود یافته آموزش، آزمایش و پیاده‌سازی افزایش دهند. خود مهدی نیز قصد دارد مطالعات بیشتری را در زبان‌های دیگر و در طول زمان انجام دهد، با هدف راهنمایی توسعه‌دهندگان هوش مصنوعی در ایجاد دستیاران هوش مصنوعی پزشکی قوی‌تر و قابل اعتمادتر. مهدی گفت: "اولین قدم حل مشکل اندازه‌گیری است." "ما آنچه را که مهم است، اندازه‌گیری نکرده‌ایم" – یعنی دقیقاً چگونگی عملکرد هوش مصنوعی در چشم‌انداز پیچیده و غیرقابل پیش‌بینی تعامل واقعی انسان.

Keywords: # چت‌بات هوش مصنوعی # مشاوره پزشکی # فناوری سلامت # دقت تشخیص # تعامل انسان و هوش مصنوعی # LLM # نیچر مدیسین # مطالعه آکسفورد # ایمنی هوش مصنوعی # استفاده بالینی