Ekhbary
Sunday, 22 February 2026
Breaking

Perguntas Médicas do Mundo Real Confundem Chatbots de IA

Estudo recente revela queda significativa no desempenho de c

Perguntas Médicas do Mundo Real Confundem Chatbots de IA
7DAYES
5 hours ago
4

Estados Unidos - Agência de Notícias Ekhbary

Chatbots de IA Mostram Lacunas de Conhecimento Médico em Cenários do Mundo Real

Chatbots de inteligência artificial (IA) de última geração, elogiados por seu potencial na área da saúde, demonstraram uma deficiência significativa quando implantados em cenários de consulta médica do mundo real, de acordo com um estudo inovador. Enquanto esses sistemas avançados, incluindo modelos de linguagem grandes (LLMs) como GPT-4o, Command R+ e Llama 3, exibem precisão notável em ambientes de laboratório controlados, seu desempenho se deteriora substancialmente quando indivíduos comuns buscam sua ajuda para problemas de saúde.

A pesquisa, publicada em 9 de fevereiro na prestigiada revista Nature Medicine, destaca uma discrepância crítica. Em testes de laboratório, chatbots de IA conseguiram identificar problemas médicos com impressionantes 95% de precisão e recomendar ações apropriadas, como procurar atendimento médico imediato, em mais de 56% das vezes. No entanto, quando quase 1300 voluntários do estudo apresentaram cenários médicos de forma conversacional a esses chatbots, a precisão despencou. O diagnóstico da condição específica caiu para menos de 35%, e a recomendação da ação correta chegou a aproximadamente 44%.

Adam Mahdi, matemático que lidera o estudo no Reasoning with Machines Lab da Universidade de Oxford, articulou a principal descoberta: "A IA possui o conhecimento médico, mas as pessoas lutam para extrair conselhos úteis dela." Isso sugere que o problema não reside apenas na base de conhecimento da IA, mas nas intrincadas dinâmicas da interação humano-IA em domínios complexos e sensíveis, como a saúde. O estudo implica que, embora a IA possa ser 'inteligente academicamente', sua aplicação prática em consultas médicas em tempo real está longe de ser perfeita.

Para avaliar rigorosamente as capacidades da IA, Mahdi e seus colegas primeiro testaram a precisão diagnóstica dos chatbots em um ambiente de laboratório, fornecendo-lhes cenários que descreviam 10 condições médicas distintas. Subsequentemente, o estudo atribuiu aleatoriamente voluntários para usar um desses LLMs ou métodos alternativos para abordar os cenários designados. Fundamentalmente, a maioria dos participantes que não usaram chatbots recorreram a motores de busca como o Google. Os resultados foram claros: os participantes que usaram chatbots não apenas tiveram um desempenho inferior às avaliações de laboratório dos próprios chatbots, mas também tiveram um desempenho inferior aos que confiaram em ferramentas de busca convencionais.

Especificamente, indivíduos que usaram o Google para pesquisar seus sintomas obtiveram um diagnóstico correto em mais de 40% das vezes, superando significativamente a taxa de precisão média de 35% alcançada pelos usuários de chatbots de IA. Mahdi enfatizou que essa diferença é estatisticamente significativa, sugerindo que o "Dr. Google", amplamente acessível, continua sendo um recurso mais confiável para muitas pessoas que buscam aconselhamento médico inicial do que as atuais IAs conversacionais.

Os modelos de IA empregados no estudo foram considerados de ponta no final de 2024, tornando melhorias adicionais em seu conhecimento médico central um desafio. "O problema foi a interação com as pessoas", afirmou Mahdi. Em alguns casos, os chatbots forneceram informações incorretas, incompletas ou enganosas. No entanto, o problema principal parece ser a forma como os usuários interagem com os LLMs. As pessoas tendem a fornecer informações incrementalmente, oferecendo detalhes gradualmente, em vez de apresentar uma visão geral completa. Chatbots de IA podem ser facilmente distraídos por informações irrelevantes ou parciais, levando a resultados errôneos. Além disso, os participantes às vezes ignoraram diagnósticos corretos oferecidos pelos chatbots, indicando falta de confiança ou compreensão.

O estudo também revelou o profundo impacto de formulações sutis nas respostas da IA. Por exemplo, ao descrever uma hemorragia subaracnóidea, um tipo de AVC potencialmente fatal, dois participantes apresentaram sintomas semelhantes (dor de cabeça, sensibilidade à luz, rigidez no pescoço) ao GPT-4o. Um voluntário descreveu o início como "uma dor de cabeça repentina e a pior de todas", levando a IA a aconselhar corretamente a busca por atendimento médico imediato. Em contraste, outro voluntário descreveu como uma "dor de cabeça terrível". Essa formulação menos urgente levou o GPT-4o a sugerir enxaqueca e recomendar descanso em um quarto escuro - um diagnóstico incorreto potencialmente fatal no caso de um AVC.

As razões para tais mudanças drásticas nas respostas da IA baseadas em pequenas variações linguísticas permanecem incertas, contribuindo para o problema da "caixa preta" inerente a muitos modelos de IA, onde nem mesmo seus criadores podem rastrear completamente seu processo de raciocínio. Os autores do estudo concluíram que "nenhum dos modelos de linguagem testados estava pronto para implantação em cuidados diretos ao paciente".

Essa conclusão é ecoada por outras organizações de segurança em tecnologia de saúde. Um relatório de 21 de janeiro da ECRI, uma organização global sem fins lucrativos para a segurança do paciente, identificou o uso de chatbots de IA na medicina como o perigo mais significativo em tecnologia de saúde para 2026. O relatório cita exemplos de IA que propõem confiantemente diagnósticos errôneos, inventam partes anatômicas, recomendam produtos ou procedimentos médicos perigosos e potencialmente exacerbam as disparidades de saúde por meio de resultados tendenciosos. Estudos anteriores também destacaram erros éticos cometidos por chatbots usados em contextos terapêuticos.

Apesar dessas preocupações, muitos médicos já estão integrando chatbots de IA em seus fluxos de trabalho para tarefas como transcrever registros médicos e revisar resultados de exames. Grandes empresas de tecnologia lançaram produtos especializados de IA para saúde, com o ChatGPT sozinho lidando com mais de 40 milhões de consultas de saúde diariamente. O apelo dessas ferramentas reside em sua capacidade de processar grandes quantidades de dados e apresentar informações de forma digerível e confiante. No entanto, especialistas alertam que "LLMs comerciais não estão prontos para uso clínico principal. Confiar apenas na saída do LLM não é seguro".

Olhando para o futuro, os pesquisadores preveem que tanto os modelos de IA quanto os usuários evoluirão, potencialmente preenchendo a lacuna de comunicação identificada no estudo de Mahdi. Os resultados reforçam as preocupações de longa data dentro da comunidade de aprendizado de máquina sobre a segurança e a confiabilidade dos LLMs no atendimento ao paciente. Pesquisas em andamento visam melhorar o treinamento, os testes e a implementação de modelos de IA para aumentar sua confiabilidade em diversos contextos médicos.

Mahdi planeja realizar estudos adicionais sobre interações de IA em vários idiomas e ao longo de períodos mais longos. "O primeiro passo é resolver o problema da medição", afirmou. "Não temos medido o que importa" - ou seja, como a IA realmente se comporta com pessoas reais em situações críticas.

Palavras-chave: # chatbots IA # conselho médico # IA em saúde # precisão diagnóstica # interação do usuário # modelos de linguagem grandes # estudo Nature Medicine # Universidade de Oxford # segurança do paciente # limitações da IA