Эхбари
Sunday, 22 February 2026
Breaking

Реальные Медицинские Вопросы Ставят в Тупик Чат-боты с ИИ

Исследование показывает, что передовые ИИ-чат-боты значитель

Реальные Медицинские Вопросы Ставят в Тупик Чат-боты с ИИ
7DAYES
3 hours ago
4

США - Информационное агентство Эхбари

Медицинские Консультации Через Чат-боты: Знания Есть, Но Понимание Подводит

Современные чат-боты на базе искусственного интеллекта (ИИ), которые считаются перспективным инструментом в сфере здравоохранения, демонстрируют существенные недостатки при использовании для получения медицинских консультаций в реальных жизненных ситуациях. Исследование, проведенное учеными из Оксфордского университета и опубликованное 9 февраля в журнале Nature Medicine, выявило значительный разрыв между теоретической точностью этих систем и их практической эффективностью.

В ходе лабораторных испытаний передовые чат-боты, включая большие языковые модели (LLM), такие как GPT-4o, Command R+ и Llama 3, показали впечатляющие результаты. Они могли идентифицировать медицинские проблемы с точностью до 95% и рекомендовать соответствующие действия (например, вызов врача или обращение в скорую помощь) более чем в 56% случаев. Однако, когда реальные люди стали задавать чат-ботам вопросы в обычной разговорной манере, описывая медицинские сценарии, их производительность резко упала. Точность постановки диагноза снизилась до менее чем 35%, а точность рекомендаций по дальнейшим действиям составила около 44%.

Адам Махди, математик, возглавлявший исследование в Лаборатории Оксфордского университета по работе с машинами ("Reasoning with Machines Lab"), подчеркнул главную проблему: "У ИИ есть медицинские знания, но людям трудно получить от него полезный совет". Это указывает на то, что трудности возникают не столько из-за недостатка знаний у ИИ, сколько из-за особенностей взаимодействия человека с машиной. Тонкости человеческого языка, неполнота информации и способ ее подачи могут сбивать с толку даже самые продвинутые ИИ-системы, особенно в критически важных медицинских вопросах.

В рамках исследования Махди и его коллеги сначала протестировали LLM, предоставив им описания 10 различных медицинских состояний. Затем около 1300 добровольцев были случайным образом разделены. Половине было предложено использовать один из LLM для оценки своих сценариев, в то время как другая половина использовала другие методы. Примечательно, что большинство участников, не пользовавшихся чат-ботами, обращались к поисковым системам, таким как Google. Результаты оказались показательными: пользователи, полагавшиеся на Google, смогли поставить правильный диагноз более чем в 40% случаев, что значительно превосходит средний показатель в 35%, достигнутый пользователями чат-ботов.

Махди отметил, что эта разница является статистически значимой. Это означает, что даже популярный "Доктор Google" в настоящее время может быть более надежным источником первичной медицинской информации для многих людей, чем прямой диалог с медицинскими чат-ботами, несмотря на их высокую точность в контролируемых условиях.

Следует отметить, что чат-боты, участвовавшие в исследовании, были самыми современными на конец 2024 года, и дальнейшее улучшение их базовых медицинских знаний представляет собой сложную задачу. "Проблема заключалась во взаимодействии с людьми", – пояснил Махди. Хотя чат-боты иногда предоставляли неверную или неполную информацию, основной проблемой, по-видимому, является способ, которым пользователи взаимодействуют с LLM. Люди склонны предоставлять информацию постепенно, по частям, а не излагать полную картину сразу. Это может легко отвлечь чат-ботов, которые могут быть чувствительны к нерелевантной или неполной информации, что приводит к ошибочным выводам.

Кроме того, было замечено, что участники иногда игнорировали правильные диагнозы, выданные чат-ботами, что может свидетельствовать о недостатке доверия или понимания. Исследование также показало, насколько сильно малейшие изменения в описании сценария могут повлиять на ответ ИИ. Например, при описании субарахноидального кровоизлияния – опасного типа инсульта – два участника предоставили GPT-4o схожие симптомы (головная боль, светочувствительность, ригидность затылочных мышц). Один доброволец описал головную боль как "самую сильную когда-либо", что побудило ИИ правильно посоветовать немедленно обратиться за медицинской помощью. Другой участник назвал ее "ужасной головной болью". Эта менее категоричная формулировка привела к тому, что GPT-4o предположил мигрень и рекомендовал отдых в темной комнате – рекомендация, которая могла бы быть смертельной в случае инсульта.

Причины таких резких изменений в ответах ИИ, вызванных незначительными лингвистическими нюансами, остаются неясными. Это является частью проблемы "черного ящика" в ИИ, когда даже разработчики не могут полностью отследить логику работы модели. В связи с этим авторы исследования пришли к выводу, что "ни одна из протестированных языковых моделей не готова для использования в непосредственной медицинской помощи пациентам".

Этот вывод поддерживается и другими организациями, занимающимися безопасностью медицинских технологий. В отчете глобальной некоммерческой организации ECRI, опубликованном 21 января, использование медицинских чат-ботов было названо самой значительной угрозой в области медицинских технологий на 2026 год. В отчете упоминаются случаи, когда чат-боты уверенно предлагают ошибочные диагнозы, выдумывают части тела, рекомендуют опасные медицинские продукты или процедуры, назначают ненужные анализы или лечение, а также усиливают предвзятость, усугубляя неравенство в здравоохранении.

Несмотря на эти опасения, большинство врачей уже используют чат-боты в той или иной форме, например, для расшифровки медицинских записей или анализа результатов анализов. Крупные компании, такие как OpenAI и Anthropic, выпустили специализированные версии своих моделей для здравоохранения. Ежедневно ChatGPT обрабатывает более 40 миллионов медицинских запросов. Привлекательность этих инструментов заключается в их способности обрабатывать огромные объемы данных и представлять информацию в понятной и уверенной форме. Однако эксперты предупреждают: "коммерческие LLM не готовы для широкого клинического применения. Полагаться исключительно на их вывод небезопасно".

В будущем ожидается, что и модели ИИ, и пользователи станут более совершенными, что позволит преодолеть коммуникационный разрыв, выявленный в исследовании Махди. Результаты исследования подтверждают давние опасения сообщества машинного обучения относительно безопасности и надежности LLM в уходе за пациентами. Текущие исследования направлены на улучшение обучения, тестирования и внедрения моделей ИИ, чтобы повысить их надежность в различных медицинских контекстах.

Махди планирует провести дополнительные исследования взаимодействия ИИ на других языках и в течение более длительного времени. "Первый шаг – это исправить проблему измерения", – заключил он. "Мы не измеряли то, что действительно важно" – а именно, как ИИ работает с реальными людьми в критических ситуациях.

Ключевые слова: # ИИ чат-боты # медицинские консультации # здравоохранение # точность диагностики # взаимодействие пользователя # большие языковые модели # исследование Nature Medicine # Оксфордский университет # безопасность пациентов # ограничения ИИ