США - Информационное агентство Эхбари
ИИ-чат-боты не справляются с реальными медицинскими консультациями, показало исследование Оксфорда
Современные чат-боты на базе искусственного интеллекта (ИИ), демонстрируя впечатляющую точность в контролируемых лабораторных условиях, значительно уступают в эффективности при ответе на реальные медицинские вопросы, задаваемые людьми. Новое исследование, опубликованное 9 февраля в авторитетном журнале Nature Medicine, предполагает, что эти передовые ИИ-системы часто работают хуже, чем простые интернет-поисковики, когда люди ищут помощи по медицинским проблемам.
Исследование, проведенное командой Лаборатории анализа машин (Reasoning with Machines Lab) Оксфордского университета, выявило резкий контраст между потенциалом ИИ и его практической производительностью. В лабораторных условиях ИИ-чат-боты могли выявлять медицинские проблемы с поразительной точностью в 95% и правильно рекомендовать соответствующие действия, такие как обращение за неотложной помощью или консультация с врачом, в более чем 56% случаев. Эти цифры изначально указывали на появление мощного инструмента для предварительной медицинской оценки.
Читайте также
- Силы ПВО сбили беспилотник над Москвой: мэр Собянин подтвердил инцидент
- Севастополь отразил атаку дронов: сбито девять беспилотников
- Движение по Крымскому мосту полностью возобновлено после атаки БПЛА
- Аэропорт Оренбурга временно прекратил прием и отправку самолетов
- Илон Маск перестал быть триллионером после сокращения состояния
Однако, когда те же модели ИИ были представлены с медицинскими сценариями через разговорное взаимодействие с почти 1300 добровольцами, результаты оказались значительно менее впечатляющими. Точность диагностики упала ниже 35%, а способность определить правильный курс действий снизилась примерно до 44%. Это существенное снижение подчеркивает критический разрыв между обширными возможностями ИИ по обработке данных и его способностью ориентироваться в тонкостях человеческого общения и сложных медицинских ситуациях.
Адам Махди, математик, возглавляющий исследование, сформулировал основную проблему: «У ИИ есть медицинские знания, но людям трудно получить от него полезные советы». Он пояснил, что проблема заключается не в недостатке медицинских знаний у моделей больших языков (LLM), а в способе взаимодействия пользователей с этими сложными системами. В исследовании тестировались ведущие модели, включая GPT-4o, Command R+ и Llama 3.
Для дальнейшего изучения исследователи сравнили производительность ИИ-чат-ботов с традиционными методами. Добровольцы были случайным образом распределены для использования либо LLM, либо других методов, таких как поиск в Google, для оценки медицинских сценариев. Важно отметить, что участники, полагавшиеся на поисковые системы, такие как Google, были более успешны в диагностике проблемы, достигнув более 40% точности по сравнению со средними 35% точности у пользователей чат-ботов. Махди подчеркнул, что эта разница статистически значима, предполагая, что «Доктор Гугл» может быть более надежным источником для первоначального медицинского руководства, чем современные ИИ-чат-боты.
Исследование предполагает, что ИИ-чат-боты действительно были передовыми на момент проведения исследования (конец 2024 года), что затрудняет улучшение их базовых медицинских знаний. Основным выявленным препятствием стало само взаимодействие человека и ИИ. Пользователи часто предоставляют информацию поэтапно, а не представляют полную картину сразу, что может легко отвлечь или сбить с толку ИИ нерелевантными деталями.
Кроме того, исследование выявило, что незначительные изменения в описании симптомов пользователями могли кардинально изменить ответ ИИ. В одном ярком примере, касающемся субарахноидального кровоизлияния, потенциально смертельного типа инсульта, описание одним добровольцем «внезапно развившейся сильнейшей головной боли» побудило GPT-4o правильно рекомендовать немедленную медицинскую помощь. Напротив, другой доброволец, описавший «ужасную головную боль», получил рекомендацию о мигрени с советом отдохнуть в темной комнате – потенциально смертельный ошибочный диагноз.
Причины таких резких изменений в ответах ИИ, основанных на незначительных лингвистических вариациях, остаются неясными и подпадают под категорию «проблемы черного ящика» ИИ, когда даже разработчики не могут полностью отследить процесс рассуждения модели. Эта непредсказуемость вызывает серьезные опасения относительно безопасности и надежности развертывания этих инструментов в прямой работе с пациентами.
Вывод исследования о том, что «ни одна из протестированных языковых моделей не была готова к внедрению в прямую работу с пациентами», совпадает с более широкими опасениями в секторе медицинских технологий. В отчете, опубликованном в январе организацией ECRI, глобальной некоммерческой организацией по безопасности пациентов, использование ИИ-чат-ботов в медицине было названо главным риском в области медицинских технологий на 2026 год. В отчете упоминались случаи, когда ИИ уверенно ставил ошибочные диагнозы, выдумывал анатомические части, рекомендовал опасные процедуры и увековечивал предвзятости, усугубляющие неравенство в области здравоохранения.
Похожие новости
- Воспитанник «Спартака» Митрюшкин возглавил «Локомотив» в качестве капитана: Новая Эра Лидерства на Железнодорожной Арене
- Продуктивность и Развитые Soft Skills: Ключевые Факторы Успеха на Современном Рынке Труда
- Лавров и глава МИД Швейцарии обсудят пути преодоления кризиса в ОБСЕ
- США и Иран: На грани войны, посредники ищут выход из тупика
- Дипломатическая Эскалация: Великобритания Отвечает на Высылку Сотрудника Посольства Отзывом Аккредитации Российского Дипломата
Несмотря на эти риски, интеграция ИИ в здравоохранение ускоряется. Врачи все чаще используют чат-боты для таких задач, как расшифровка записей и анализ результатов тестов. OpenAI и Anthropic выпустили специализированные медицинские версии своих флагманских продуктов, при этом ChatGPT, по сообщениям, обрабатывает более 40 миллионов медицинских запросов ежедневно. Скотт Лукас, вице-президент ECRI по безопасности устройств, признал привлекательность ИИ: «Они могут получить доступ к миллиардам точек данных... и представить их в удобоваримом, заслуживающем доверия, убедительном формате, который может дать вам точный совет». Однако он предостерег: «коммерческие LLM не готовы для использования в клинической практике. Полагаться исключительно на выходные данные LLM небезопасно».
В будущем эксперты ожидают, что и модели ИИ, и уровень владения пользователями будут развиваться, потенциально преодолевая коммуникационный разрыв, выявленный исследованием Оксфорда. Исследователи, такие как Мишель Ли, специалист по медицинскому ИИ из Гарвардской медицинской школы, активно работают над повышением надежности ИИ с помощью улучшенных стратегий обучения, тестирования и внедрения. Сам Махди планирует дальнейшие исследования на разных языках и в течение длительного времени, чтобы помочь разработчикам ИИ создавать более надежных и заслуживающих доверия медицинских ИИ-ассистентов. «Первый шаг — решить проблему измерения», — заявил Махди. «Мы не измеряли то, что действительно имеет значение» — а именно, как ИИ ведет себя в сложном, непредсказуемом ландшафте реального человеческого взаимодействия.
Информационное агентство Эхбари