Ekhbary
Thursday, 19 February 2026
Breaking

Medizinische Fragen aus der realen Welt überfordern KI-Chatbots

Aktuelle KI-Chatbots zeigen bei der Interaktion mit Menschen

Medizinische Fragen aus der realen Welt überfordern KI-Chatbots
7DAYES
3 hours ago
1

USA - Ekhbary Nachrichtenagentur

KI-Chatbots scheitern bei realen medizinischen Beratungen, enthüllt Oxford-Studie

Hochmoderne Chatbots künstlicher Intelligenz (KI), die zwar in kontrollierten Laborumgebungen eine beeindruckende Genauigkeit aufweisen, stoßen bei der Beantwortung realer medizinischer Fragen von Menschen auf erhebliche Schwierigkeiten. Eine bahnbrechende Studie, die am 9. Februar in der angesehenen Fachzeitschrift Nature Medicine veröffentlicht wurde, legt nahe, dass diese fortschrittlichen KI-Systeme oft schlechter abschneiden als einfache Internetrecherchen, wenn Einzelpersonen Hilfe bei Gesundheitsproblemen suchen.

Die Forschung, durchgeführt von einem Team des "Reasoning with Machines Lab" der Universität Oxford, offenbarte einen starken Kontrast zwischen dem Potenzial der KI und ihrer praktischen Leistung. Im Labor waren KI-Chatbots in der Lage, medizinische Probleme mit einer bemerkenswerten Genauigkeit von 95 % zu identifizieren und in über 56 % der Fälle angemessene Maßnahmen wie die Inanspruchnahme einer Notfallversorgung oder die Kontaktaufnahme mit einem Arzt korrekt zu empfehlen. Diese Zahlen deuteten zunächst auf ein leistungsfähiges neues Werkzeug für die vorläufige medizinische Beurteilung hin.

Als jedoch dieselben KI-Modelle medizinische Szenarien durch konversationelle Interaktionen mit fast 1.300 Studienteilnehmern präsentiert wurden, waren die Ergebnisse deutlich weniger beeindruckend. Die Genauigkeit bei der Diagnose von Erkrankungen fiel unter 35 %, und die Fähigkeit, den richtigen Handlungsverlauf zu identifizieren, sank auf etwa 44 %. Dieser signifikante Rückgang unterstreicht eine kritische Kluft zwischen den umfassenden Datenverarbeitungsfähigkeiten der KI und ihrer Fähigkeit, die Nuancen menschlicher Kommunikation und komplexer medizinischer Situationen zu bewältigen.

Adam Mahdi, Mathematiker und Leiter der Studie, formulierte das Kernproblem: "Die KI verfügt über das medizinische Wissen, aber die Menschen haben Schwierigkeiten, nützliche Ratschläge von ihr zu erhalten." Er erklärte, dass das Problem nicht in einem Mangel an medizinischem Verständnis der KI liege, sondern vielmehr darin, wie Benutzer mit diesen hochentwickelten Large Language Models (LLMs) interagieren. Die Studie testete führende Modelle, darunter GPT-4o, Command R+ und Llama 3.

Zur weiteren Untersuchung verglichen die Forscher die Leistung von KI-Chatbots mit traditionellen Methoden. Die Teilnehmer wurden zufällig ausgewählt, entweder ein LLM oder andere Methoden wie Google-Suchen zu verwenden, um medizinische Szenarien zu bewerten. Entscheidend ist, dass Teilnehmer, die Suchmaschinen wie Google nutzten, bei der Diagnose des Problems erfolgreicher waren und eine Genauigkeit von über 40 % erzielten, verglichen mit einer durchschnittlichen Genauigkeit von 35 % bei Chatbot-Nutzern. Mahdi betonte, dass dieser Unterschied statistisch signifikant sei und darauf hindeute, dass "Dr. Google" eine zuverlässigere Quelle für anfängliche medizinische Ratschläge sein könnte als aktuelle KI-Chatbots.

Die Studie legt nahe, dass die KI-Chatbots zum Zeitpunkt der Untersuchung (Ende 2024) tatsächlich auf dem neuesten Stand der Technik waren, was Verbesserungen ihres medizinischen Kernwissens erschwert. Das Haupthindernis war die Mensch-KI-Interaktion selbst. Benutzer liefern Informationen oft schrittweise, anstatt ein vollständiges Bild auf einmal zu präsentieren, was die KI leicht durch irrelevante Details ablenken oder verwirren kann.

Darüber hinaus ergab die Studie, dass geringfügige Abweichungen in der Beschreibung von Symptomen durch die Benutzer die Antwort der KI drastisch verändern konnten. In einem bemerkenswerten Beispiel, das eine subarachnoidale Blutung betraf, eine potenziell tödliche Art von Schlaganfall, führte die Beschreibung eines Freiwilligen eines "plötzlich aufgetretenen, schlimmsten Kopfschmerzes" dazu, dass GPT-4o korrekt sofortige medizinische Hilfe empfahl. Im Gegensatz dazu erhielt ein anderer Freiwilliger, der einen "schrecklichen Kopfschmerz" beschrieb, den Vorschlag einer Migräne mit dem Rat, sich in einem dunklen Raum auszuruhen – eine potenziell lebensbedrohliche Fehldiagnose.

Die Gründe für diese drastischen Veränderungen in der KI-Ausgabe, die auf geringfügigen sprachlichen Abweichungen beruhen, bleiben unklar und fallen unter das "Black-Box-Problem" der KI, bei dem selbst Entwickler den Denkprozess des Modells nicht vollständig nachvollziehen können. Diese Unvorhersehbarkeit wirft ernsthafte Bedenken hinsichtlich der Sicherheit und Zuverlässigkeit des Einsatzes dieser Werkzeuge in der direkten Patientenversorgung auf.

Die Schlussfolgerung der Studie, dass "keines der getesteten Sprachmodelle für den Einsatz in der direkten Patientenversorgung bereit war", stimmt mit breiteren Bedenken im Sektor der Gesundheitstechnologie überein. Ein im Januar veröffentlichter Bericht der ECRI, einer globalen gemeinnützigen Organisation für Patientensicherheit, identifizierte die Nutzung von KI-Chatbots in der Medizin als die größte Gefahr im Bereich der Gesundheitstechnologie für 2026. Der Bericht zitierte Fälle, in denen KI zuversichtlich fehlerhafte Diagnosen stellte, anatomische Teile erfand, potenziell gefährliche medizinische Produkte oder Verfahren empfahl und Vorurteile aufrechterhielt, die gesundheitliche Ungleichheiten verschärfen.

Trotz dieser Risiken beschleunigt sich die Integration von KI im Gesundheitswesen. Ärzte nutzen Chatbots zunehmend für Aufgaben wie die Transkription von Krankenakten und die Überprüfung von Testergebnissen. OpenAI und Anthropic haben spezialisierte Gesundheitsversionen ihrer Flaggschiffprodukte eingeführt, wobei ChatGPT Berichten zufolge täglich über 40 Millionen Gesundheitsanfragen bearbeitet. Scott Lucas, Vizepräsident für Gerätesicherheit bei ECRI, räumte die Attraktivität von KI ein: "Sie können auf Milliarden von Datenpunkten zugreifen... und sie in einem verdaulichen, glaubwürdigen, überzeugenden Format präsentieren, das Ihnen gezielte Ratschläge zu genau Ihrer Frage geben kann." Er warnte jedoch: "kommerzielle LLMs sind nicht für den klinischen Einsatz bereit. Sich ausschließlich auf die Ausgabe der LLMs zu verlassen, ist nicht sicher."

Zukünftig erwarten Experten, dass sich sowohl KI-Modelle als auch die Benutzerkompetenz weiterentwickeln und möglicherweise die vom Oxford-Studie hervorgehobene Kommunikationslücke schließen werden. Forscher wie Michelle Li, KI-Medizinforscherin an der Harvard Medical School, arbeiten aktiv daran, die Zuverlässigkeit von KI durch verbesserte Schulungs-, Test- und Implementierungsstrategien zu erhöhen. Mahdi selbst plant weitere Studien in verschiedenen Sprachen und über längere Zeiträume, mit dem Ziel, KI-Entwickler bei der Erstellung robusterer und zuverlässigerer medizinischer KI-Assistenten zu unterstützen. "Der erste Schritt ist, das Messproblem zu lösen", sagte Mahdi. "Wir haben nicht gemessen, was wichtig ist" – nämlich, wie die KI im komplexen, unvorhersehbaren Umfeld der realen menschlichen Interaktion abschneidet.

Tags: # KI-Chatbots # medizinischer Rat # Gesundheitstechnologie # diagnostische Genauigkeit # Mensch-KI-Interaktion # LLMs # Nature Medicine # Oxford-Studie # KI-Sicherheit # klinische Nutzung