Die Hälfte aller KI-generierten Antworten zur Gesundheit sind falsch – obwohl sie überzeugend klingen

Stellen Sie sich vor, Sie haben gerade eine Krebsdiagnose im Frühstadium erhalten und vor dem nächsten Arzttermin tippen Sie diese Frage in einen KI-Chatbot: „Welche Alternativkliniken können Krebs erfolgreich behandeln?“ Innerhalb von Sekunden erhalten Sie eine überzeugend formulierte und mit Fußnoten versehene Antwort – fast wie vom Arzt. Nur sind einige der Behauptungen haltlos, die Fußnoten führen ins Leere, und der Chatbot deutet zu keinem Zeitpunkt an, dass die Frage selbst vielleicht das eigentliche Problem sein könnte.

So unwahrscheinlich ist dieses Szenario gar nicht. Denn zu etwa diesem Ergebnis kam eine Studie, bei der ein Team aus sieben Forschenden fünf der weltweit meistgenutzten Chatbots einem systematischen Stresstest zu Gesundheitsfragen unterzog. Die Ergebnisse sind im Fachjournal BMJ Open erschienen.

Die Chatbots ChatGPT, Gemini, Grok, Meta AI und DeepSeek wurden jeweils mit 50 Gesundheits- und Medizinfragen konfrontiert, die die Themenbereiche Krebs, Impfstoffe, Stammzellen, Ernährung und sportliche Leistung abdeckten. Zwei Fachleute bewerteten jede Antwort unabhängig voneinander. Sie stellten fest, dass knapp 20% der Antworten hochproblematisch waren, die Hälfte problematisch und 30% leicht problematisch. Keiner der Chatbots lieferte zuverlässig vollständig korrekte Literaturangaben, und lediglich bei zwei der 250 Fragen verweigerten die Chatbots eine Antwort.

Insgesamt schnitten die fünf Chatbots ähnlich ab. Am schlechtesten war Grok: 58% seiner Antworten wurden als problematisch eingestuft, gefolgt von ChatGPT mit 52% und Meta AI mit 50%.

Je nach Thema gab es allerdings Unterschiede. Am besten schlugen sich die Chatbots bei Impfungen und Krebsfragen – beides Bereiche mit umfangreicher und gut strukturierter Forschungslage. Trotzdem war auch hier etwa ein Viertel der Antworten problematisch. Am meisten machten der KI Fragen zu Ernährung und sportlicher Leistung zu schaffen – Themen, bei denen online widersprüchliche Ratschläge kursieren und die wissenschaftliche Evidenz wenig belegt ist.

Besonders schief lief es bei offen gehaltenen Fragen: 32% dieser Antworten wurden als hochproblematisch bewertet, gegenüber nur 7% bei Ja-oder-Nein-Fragen. Diese Unterscheidung ist wichtig, denn die meisten der tatsächlich gestellten Gesundheitsfragen sind offen formuliert. Menschen stellen Chatbots keine klaren Ja-oder-Nein-Fragen. Sie fragen zum Beispiel: „Welche Nahrungsergänzungsmittel sind am besten für die allgemeine Gesundheit?“ Genau solche Formulierungen laden jedoch zu kohärent klingenden, selbstsicheren – und möglicherweise gefährlichen – Antworten ein.

Als die Forschenden jeden Chatbot nach zehn wissenschaftlichen Quellen fragten, lag der Median, also der Mittelwert, mit Blick auf Vollständigkeit bei gerade mal 40%. Kein einziger der Chatbots schaffte es bei 25 Anläufen auch nur eine einzige vollständig korrekte Literaturliste zu erstellen. Die Fehler reichten von falschen Autorennamen und defekten Links bis hin zu komplett erfundenen Studien. Das ist besonders heikel, weil Quellenangaben wie Belege wirken. Wer als Laie eine ordentlich formatierte Literaturliste sieht, hat augenscheinlich wenig Grund, den Text darüber in Frage zu stellen.

Professor Carsten Eickhoff forscht zu den Grundlagen der natürlichen Sprachverarbeitung und wie diese gesundheitliche Entscheidungen beeinflussen.

Warum Chatbots falschliegen

Warum Chatbots bei medizinischen Fragen so oft danebenliegen, hat einen simplen Grund. Sprachmodelle wissen nichts. Sie sagen das statistisch wahrscheinlichste nächste Wort voraus, basierend auf ihren Trainingsdaten und dem Kontext. Sie gewichten keine Evidenz und nehmen keine Beurteilungen vor. Ihr Trainingsmaterial umfasst zwar unter anderem begutachtete Fachaufsätze, aber eben auch Reddit-Threads, Wellness-Blogs und Social-Media-Debatten.

Zudem stellten die Forschenden keine neutralen Fragen. Sie formulierten die Prompts bewusst so, dass die Chatbots möglichst in die Irre geführt werden sollten – eine gängige Methode in der KI-Sicherheitsforschung, bekannt als „Red Teaming“. Das bedeutet: Die Fehlerquoten dürften höher ausfallen, als wenn man neutralere Formulierungen gewählt hätte. Außerdem wurden nur die kostenlosen Versionen der Modelle getestet, die im Februar 2025 verfügbar waren. Bezahlversionen und neuere Ausgaben könnten besser abschneiden.

Dennoch: Die meisten Menschen nutzen ebendiese kostenlosen Versionen, und die wenigsten Gesundheitsfragen sind sorgfältig formuliert. Die Bedingungen der Studie spiegeln daher eher wider, wie diese Tools im Alltag tatsächlich genutzt werden.

Die Befunde stehen nicht für sich allein, sondern reihen sich ein in eine wachsende Zahl von Studien, die ein klares Bild zeichnen.

Ein überraschendes Ergebnis wiederum liefert eine Studie aus Nature Medicine vom Februar 2026: In 95% der Fälle fanden die Chatbots selbst die richtige medizinische Antwort. Wenn jedoch echte Menschen dieselben Chatbots nutzten, bekamen sie nur in 35% der Fälle die richtige Antwort – nicht besser als Personen, die die Tools gar nicht verwendet hatten. Kurz gesagt: Das Problem liegt nicht nur darin, ob der Chatbot die richtige Antwort gibt, sondern ob Menschen diese Antwort auch richtig verstehen und anwenden können.

Eine jüngst veröffentlichte Studie, erschienen in Jama Network Open, testete 21 der führenden KI-Modelle, indem die Forschenden nach möglichen medizinischen Diagnosen fragten. Wenn die Modelle nur Grundinformationen wie Alter, Geschlecht und Symptome bekamen, taten sie sich schwer: In mehr als 80% der Fälle schlugen sie nicht die richtigen möglichen Erkrankungen vor. Sobald die Forschenden Untersuchungsbefunde und Labordaten hinzufügten, schnellte die Trefferquote auf über 90% hoch.

Eine US-amerikanische Studie in Nature Communications Medicine wiederum konnte zeigen, dass Chatbots bereitwillig erfundene medizinische Fachbegriffe übernahmen, die in Prompts eingeschleust worden waren, und diese sogar weiter ausfabulierten.

Zusammengenommen legen diese Studien nahe, dass die im BMJ Open festgestellten Schwächen nicht auf spezifische Eigenheiten eines einzelnen Studienaufbaus zurückzuführen sind, sondern etwas Grundlegenderes über den aktuellen Stand der Technologie verraten.

Chatbots werden nicht verschwinden – und das sollten sie auch nicht. Sie können komplexe Themen zusammenfassen, dabei helfen, Fragen für ein Arztgespräch vorzubereiten, und als Ausgangspunkt für eigene Recherchen dienen. Aber die Studie macht deutlich: Als eigenständige medizinische Autorität sollte man sie nicht sehen.

Wer einen dieser Chatbots für medizinische Fragen nutzt, sollte jede gesundheitliche Aussage gegenprüfen, Quellenangaben als Hinweise zum Nachschlagen betrachten – nicht als Fakten – und aufmerksam werden, wenn eine Antwort selbstsicher klingt, aber keinerlei Einschränkungen oder Warnhinweise nennt.

Dieser Beitrag wurde ursprünglich auf The Conversation veröffentlicht.

Cover-Bild: Wenn wochenlanges Warten auf einen Arzttermin zu lange dauert und medizinische Fragen dringend sind, wenden sich Menschen oft an KI-Chatbots, um schneller Antworten zu erhalten. © Who Is Danny/Shutterstock.com

Kommentare

Debatte

24. November 2025 Michael Deistler

KI-Tool für Gehirnsimulationen verbindet zelluläre Details mit kognitiven Funktionen

Jahrzehntelang waren Gehirnsimulationen entweder stark vereinfacht oder konnten keine kognitiven Aufgaben ausführen. Ein neues KI-Tool macht es möglich, Gehirnsimulationen zu erstellen, die beides leisten können.

Debatte

3. April 2025 Jennifer Raffler/ Podcast-Team "Key To My Research"

Wie KI unseren Alltag prägt

Ob ChatGPT an der Uni oder virtuelle Holocaust-Zeitzeugnisse im Museum – KI verändert, wie wir lernen, forschen und erinnern. Der Kulturwissenschaftler Christoph Bareither untersucht diese Entwicklungen. Im Podcast „Key To My Research“ gibt er Einblicke in seine Arbeit.