Ekhbary
Sunday, 22 February 2026
Breaking

Reale Medizinische Fragen Überfordern KI-Chatbots

Eine aktuelle Studie zeigt, dass Spitzen-KI-Chatbots bei rea

Reale Medizinische Fragen Überfordern KI-Chatbots
7DAYES
3 hours ago
5

Vereinigte Staaten - Ekhbary Nachrichtenagentur

KI-Chatbots Zeigen Lücken im Medizinischen Wissen in Realwelt-Szenarien

Spitzentechnologie-Chatbots für künstliche Intelligenz (KI), die für ihr Potenzial im Gesundheitswesen gelobt werden, haben laut einer bahnbrechenden Studie erhebliche Mängel gezeigt, wenn sie in realen Szenarien zur medizinischen Abfrage eingesetzt werden. Während diese fortschrittlichen Systeme, einschließlich großer Sprachmodelle (LLMs) wie GPT-4o, Command R+ und Llama 3, in kontrollierten Laborumgebungen bemerkenswerte Genauigkeit aufweisen, verschlechtert sich ihre Leistung erheblich, wenn gewöhnliche Menschen ihre Hilfe bei gesundheitlichen Bedenken suchen.

Die Forschung, die am 9. Februar im renommierten Fachjournal Nature Medicine veröffentlicht wurde, hebt eine kritische Diskrepanz hervor. In Labortests konnten KI-Chatbots medizinische Probleme mit einer beeindruckenden Genauigkeit von 95 Prozent identifizieren und angemessene Maßnahmen wie die sofortige ärztliche Hilfe in mehr als 56 Prozent der Fälle empfehlen. Als jedoch fast 1300 Studienteilnehmer den Chatbots auf konversationelle Weise medizinische Szenarien präsentierten, brach die Genauigkeit ein. Die Diagnose der spezifischen Erkrankung fiel auf unter 35 Prozent, und die Empfehlung des richtigen Vorgehens sank auf etwa 44 Prozent.

Adam Mahdi, Mathematiker und Leiter der Studie am Reasoning with Machines Lab der University of Oxford, formulierte die Kernerkenntnis: "KI besitzt das medizinische Wissen, aber die Menschen kämpfen darum, nützliche Ratschläge daraus zu extrahieren." Dies deutet darauf hin, dass das Problem nicht allein bei der Wissensbasis der KI liegt, sondern bei den komplexen Dynamiken der Mensch-KI-Interaktion in komplexen, sensiblen Bereichen wie dem Gesundheitswesen. Die Studie legt nahe, dass KI zwar 'buchklug' sein mag, ihre praktische Anwendung in Echtzeit-Medizinkonsultationen jedoch weit von perfekt entfernt ist.

Um die Fähigkeiten der KI rigoros zu bewerten, testeten Mahdi und seine Kollegen zunächst die Diagnosegenauigkeit der Chatbots in einer Laborumgebung, indem sie ihnen Szenarien zuführten, die 10 verschiedene medizinische Zustände beschrieben. Anschließend wurden 1300 Freiwillige zufällig zugeteilt. Die Hälfte wurde angewiesen, einen dieser LLMs zu verwenden, um ihre Szenarien zu bewerten, während die andere Hälfte alternative Methoden anwandte. Entscheidend ist, dass die meisten Teilnehmer, die keine Chatbots verwendeten, auf Suchmaschinen wie Google zurückgriffen. Die Ergebnisse waren eindeutig: Teilnehmer, die Chatbots verwendeten, schnitten nicht nur schlechter ab als die Chatbots selbst bei Laborbewertungen, sondern auch schlechter als diejenigen, die herkömmliche Suchwerkzeuge verwendeten.

Insbesondere erreichten Personen, die Google für die Suche nach ihren Symptomen nutzten, in mehr als 40 Prozent der Fälle eine korrekte Diagnose, was die durchschnittliche Genauigkeitsrate von 35 Prozent der KI-Chatbot-Nutzer deutlich übertraf. Mahdi betonte, dass dieser Unterschied statistisch bedeutsam ist, was darauf hindeutet, dass das weit verbreitete 'Dr. Google' für viele Einzelpersonen, die eine erste medizinische Beratung suchen, eine zuverlässigere Ressource bleibt als aktuelle konversationelle KI.

Die im Rahmen der Studie eingesetzten KI-Modelle galten Ende 2024 als hochmodern, was weitere Verbesserungen ihres medizinischen Kernwissens erschwert. "Das Problem war die Interaktion mit Menschen", erklärte Mahdi. In einigen Fällen lieferten die Chatbots falsche, unvollständige oder irreführende Informationen. Das Hauptproblem scheint jedoch die Art und Weise zu sein, wie Benutzer mit den LLMs interagieren. Menschen neigen dazu, Informationen schrittweise zu liefern, Details Stück für Stück anzubieten, anstatt einen umfassenden Überblick zu geben. KI-Chatbots können leicht durch irrelevante oder teilweise Informationen abgelenkt werden, was zu fehlerhaften Ausgaben führt. Darüber hinaus ignorierten die Teilnehmer manchmal korrekte Diagnosen der Chatbots, was auf mangelndes Vertrauen oder Verständnis hindeutet.

Die Studie deckte auch die tiefgreifenden Auswirkungen subtiler Formulierungen auf KI-Antworten auf. Zum Beispiel, bei der Beschreibung einer subarachnoidalen Blutung, einer potenziell tödlichen Art von Schlaganfall, präsentierten zwei Teilnehmer GPT-4o ähnliche Symptome (Kopfschmerzen, Lichtempfindlichkeit, Nackensteifigkeit). Ein Freiwilliger beschrieb den Beginn als "plötzlich, die schlimmsten Kopfschmerzen aller Zeiten", was die KI dazu veranlasste, sofortige medizinische Hilfe zu empfehlen. Im Gegensatz dazu beschrieb ein anderer Freiwilliger sie als "schreckliche Kopfschmerzen". Diese weniger dringliche Formulierung führte dazu, dass GPT-4o eine Migräne vorschlug und Ruhe in einem dunklen Raum empfahl - eine potenziell tödliche Fehldiagnose im Falle eines Schlaganfalls.

Die Gründe für solch dramatische Veränderungen in den KI-Antworten, die auf geringfügigen sprachlichen Variationen beruhen, bleiben unklar und tragen zum "Black-Box-Problem" vieler KI-Modelle bei, bei denen selbst ihre Entwickler ihren Denkprozess nicht vollständig nachvollziehen können. Die Studienautoren kamen zu dem Schluss, dass "keines der getesteten Sprachmodelle für den Einsatz in der direkten Patientenversorgung bereit war".

Diese Schlussfolgerung wird von anderen Organisationen für die Sicherheit von Gesundheitstechnologien geteilt. Ein Bericht von ECRI, einer globalen Non-Profit-Organisation für Patientensicherheit, der am 21. Januar veröffentlicht wurde, identifizierte die Nutzung von KI-Chatbots im medizinischen Bereich als die bedeutendste Gefahr im Gesundheitswesen für das Jahr 2026. Der Bericht zitiert Beispiele, in denen KI selbstbewusst fehlerhafte Diagnosen vorschlägt, anatomische Teile erfindet, gefährliche medizinische Produkte oder Verfahren empfiehlt und potenziell gesundheitliche Ungleichheiten durch voreingenommene Ausgaben verschärft. Frühere Studien haben auch ethische Fehltritte von Chatbots in therapeutischen Kontexten hervorgehoben.

Trotz dieser Bedenken integrieren viele Ärzte bereits KI-Chatbots in ihre Arbeitsabläufe für Aufgaben wie die Transkription von Krankenakten und die Überprüfung von Testergebnissen. Große Technologieunternehmen haben spezielle KI-Gesundheitsprodukte auf den Markt gebracht, wobei ChatGPT allein täglich über 40 Millionen Gesundheitsanfragen bearbeitet. Die Anziehungskraft dieser Werkzeuge liegt in ihrer Fähigkeit, riesige Datenmengen zu verarbeiten und Informationen auf verdauliche und selbstbewusste Weise zu präsentieren. Experten warnen jedoch: "Kommerzielle LLMs sind nicht für den primetime klinischen Einsatz bereit. Sich ausschließlich auf die Ausgabe des LLM zu verlassen, ist nicht sicher."

Mit Blick auf die Zukunft erwarten Forscher, dass sich sowohl KI-Modelle als auch Benutzer weiterentwickeln und möglicherweise die in Mahdis Studie identifizierte Kommunikationslücke schließen werden. Die Ergebnisse bekräftigen die langjährigen Bedenken der Machine-Learning-Community hinsichtlich der Sicherheit und Zuverlässigkeit von LLMs in der Patientenversorgung. Laufende Forschungsarbeiten zielen darauf ab, das Training, die Tests und die Implementierung von KI-Modellen zu verbessern, um ihre Zuverlässigkeit in verschiedenen medizinischen Kontexten zu erhöhen.

Mahdi plant weitere Studien zu KI-Interaktionen in mehreren Sprachen und über längere Zeiträume. "Der erste Schritt ist, das Messproblem zu beheben", erklärte er. "Wir haben nicht gemessen, was wichtig ist" - nämlich, wie KI in kritischen Situationen mit echten Menschen tatsächlich funktioniert.

Tags: # KI-Chatbots # medizinischer Rat # Gesundheits-KI # Diagnosegenauigkeit # Benutzerinteraktion # große Sprachmodelle # Nature Medicine Studie # Universität Oxford # Patientensicherheit # KI-Grenzen