Ekhbary
Thursday, 19 February 2026
Breaking

Medische vragen uit de echte wereld zetten AI-chatbots voor schut

State-of-the-art AI-chatbots vertonen een aanzienlijke prest

Medische vragen uit de echte wereld zetten AI-chatbots voor schut
7DAYES
6 hours ago
4

Verenigde Staten - Ekhbary Nieuwsagentschap

AI-chatbots falen in medisch advies in de echte wereld, blijkt uit Oxford-studie

State-of-the-art chatbots voor kunstmatige intelligentie (AI), hoewel ze een indrukwekkende nauwkeurigheid vertonen in gecontroleerde laboratoriumomgevingen, ondervinden aanzienlijke moeilijkheden bij het beantwoorden van medische vragen uit de echte wereld die door mensen worden gesteld. Een baanbrekend onderzoek, gepubliceerd op 9 februari in het prestigieuze tijdschrift Nature Medicine, suggereert dat deze geavanceerde AI-systemen vaak slechter presteren dan eenvoudige internetzoekopdrachten wanneer individuen hulp zoeken bij gezondheidsproblemen.

Het onderzoek, uitgevoerd door een team van het "Reasoning with Machines Lab" van de Universiteit van Oxford, benadrukte een schril contrast tussen het potentieel van AI en de praktische prestaties ervan. In het laboratorium konden AI-chatbots medische problemen met een opmerkelijke nauwkeurigheid van 95% identificeren en passende acties, zoals het zoeken naar spoedeisende hulp of het contacteren van een arts, in meer dan 56% van de gevallen correct aanbevelen. Deze cijfers suggereerden aanvankelijk een krachtig nieuw hulpmiddel voor preliminair medisch onderzoek.

Echter, toen dezelfde AI-modellen werden geconfronteerd met medische scenario's via conversatie-interacties met bijna 1.300 vrijwilligers van de studie, waren de resultaten aanzienlijk minder indrukwekkend. De nauwkeurigheid bij het diagnosticeren van de aandoening daalde tot minder dan 35%, en het vermogen om de juiste handelwijze te identificeren, daalde tot ongeveer 44%. Deze aanzienlijke daling onderstreept een kritieke kloof tussen de uitgebreide dataverwerkingsmogelijkheden van AI en het vermogen om te navigeren door de nuances van menselijke communicatie en complexe medische situaties.

Adam Mahdi, een wiskundige die de studie leidt, verwoordde het kernprobleem: "AI heeft de medische kennis, maar mensen worstelen om er nuttig advies uit te halen." Hij legde uit dat het probleem niet ligt in een gebrek aan medisch begrip van de AI, maar eerder in de manier waarop gebruikers interageren met deze geavanceerde Large Language Models (LLM's). De studie testte toonaangevende modellen, waaronder GPT-4o, Command R+ en Llama 3.

Om verder te onderzoeken, vergeleken onderzoekers de prestaties van AI-chatbots met traditionele methoden. Vrijwilligers werden willekeurig toegewezen om ofwel een LLM te gebruiken, of andere methoden zoals Google-zoekopdrachten, om medische scenario's te evalueren. Cruciaal is dat deelnemers die vertrouwden op zoekmachines zoals Google succesvoller waren in het diagnosticeren van het probleem, met een nauwkeurigheid van meer dan 40%, vergeleken met een gemiddelde nauwkeurigheid van 35% behaald door degenen die chatbots gebruikten. Mahdi benadrukte dat dit verschil statistisch significant is, wat suggereert dat "Dr. Google" een betrouwbaardere bron voor initiële medische begeleiding zou kunnen zijn dan de huidige AI-chatbots.

De studie suggereert dat de AI-chatbots op het moment van het onderzoek (eind 2024) inderdaad state-of-the-art waren, wat verbeteringen aan hun kernmedische kennis moeilijk maakt. Het belangrijkste geïdentificeerde obstakel was de mens-AI-interactie zelf. Gebruikers leveren informatie vaak incrementeel, in plaats van een volledig beeld in één keer te presenteren, wat de AI gemakkelijk kan afleiden of verwarren met irrelevante details.

Bovendien ontdekte de studie dat subtiele variaties in de manier waarop gebruikers symptomen beschreven, de reactie van de AI drastisch konden veranderen. In een opvallend voorbeeld met betrekking tot een subarachnoïdale bloeding, een potentieel dodelijk type beroerte, leidde de beschrijving van een vrijwilliger van "een plotselinge ontwikkeling van de ergste hoofdpijn ooit" ertoe dat GPT-4o correct onmiddellijke medische hulp adviseerde. Daarentegen ontving een andere vrijwilliger die een "vreselijke hoofdpijn" beschreef, een suggestie van migraine, met het advies om in een donkere, stille kamer te rusten – een potentieel levensbedreigende verkeerde diagnose!

De redenen achter deze dramatische veranderingen in de AI-output, gebaseerd op kleine linguïstische variaties, blijven onduidelijk en vallen onder het "black box-probleem" van AI, waarbij zelfs ontwikkelaars het redeneringsproces van het model niet volledig kunnen volgen. Deze onvoorspelbaarheid roept ernstige zorgen op over de veiligheid en betrouwbaarheid van het inzetten van deze tools in de directe patiëntenzorg.

De conclusie van de studie dat "geen van de geteste taalmodellen klaar was voor inzet in de directe patiëntenzorg" strookt met bredere zorgen in de gezondheidstechnologiesector. Een rapport van januari van ECRI, een wereldwijde non-profitorganisatie voor patiëntveiligheid, identificeerde het gebruik van AI-chatbots in de geneeskunde als het belangrijkste gezondheidstechnologische gevaar voor 2026. Het rapport noemde voorbeelden van AI die met vertrouwen foutieve diagnoses stelt, anatomische delen verzint, potentieel gevaarlijke medische producten of procedures aanbeveelt, en vooroordelen in stand houdt die gezondheidsverschillen verergeren.

Ondanks deze risico's versnelt de integratie van AI in de gezondheidszorg. Artsen gebruiken steeds vaker chatbots voor taken zoals het transcriberen van medische dossiers en het beoordelen van testresultaten. OpenAI en Anthropic hebben gespecialiseerde gezondheidszorgversies van hun vlaggenschipproducten gelanceerd, waarbij ChatGPT naar verluidt dagelijks meer dan 40 miljoen gezondheidsvragen afhandelt. Scott Lucas, vice-president van apparaatveiligheid bij ECRI, erkende de aantrekkingskracht van AI: "Ze hebben toegang tot miljarden datapunten... en kunnen deze in een verteerbaar, geloofwaardig, overtuigend formaat plaatsen dat u gericht advies kan geven over precies de vraag die u stelde." Hij waarschuwde echter: "commerciële LLM's zijn niet klaar voor primetime klinisch gebruik. Volledig vertrouwen op de output van de LLM is niet veilig."

In de toekomst voorspellen experts dat zowel AI-modellen als de bekwaamheid van gebruikers zullen evolueren, waardoor mogelijk de communicatiekloof die door de Oxford-studie wordt benadrukt, wordt overbrugd. Onderzoekers zoals Michelle Li, een medische AI-onderzoeker aan de Harvard Medical School, werken actief aan het verbeteren van de betrouwbaarheid van AI door middel van verbeterde trainings-, test- en implementatiestrategieën. Mahdi zelf plant verdere studies in andere talen en over langere perioden, met als doel AI-ontwikkelaars te begeleiden bij het creëren van robuustere en betrouwbaardere medische AI-assistenten. "De eerste stap is het oplossen van het meetprobleem", zei Mahdi. "We hebben niet gemeten wat ertoe doet" – namelijk precies hoe AI presteert in het complexe, onvoorspelbare landschap van echte menselijke interactie.

Trefwoorden: # AI chatbots # medisch advies # gezondheidstechnologie # diagnostische nauwkeurigheid # mens-AI-interactie # LLM # Nature Medicine # Oxford-studie # AI-veiligheid # klinisch gebruik