| Daniela Hüttemann |
| 05.11.2025 15:00 Uhr |
Im Praxistest hielt ChatGPT 3.5 das Insulin Actrapid für ein Schmerzmittel und empfahl unsinnigerweise unter DOAK-Therapie den INR-Wert zu monitoren. / © Getty Images/David Sacks
Können Large Language Models wie ChatGPT Medizinern dabei helfen, informierte, rationale und schnelle pharmakotherapeutische Entscheidungen zu treffen? Derzeit wohl eher nicht, zeigt eine aktuelle Studie der Medizinischen Hochschule Hannover (MHH), zumindest was die frei verfügbare Version 3.5 von ChatGPT angeht. Die Ergebnisse wurden jetzt im »British Journal of Clinical Pharmacology« veröffentlicht.
Bewertet wurden Antworten auf 70 echte pharmakotherapeutische Fragestellungen meist zu konkreten Patientenfällen, die dem Arzneimittelinformationszentrum der MHH gestellt wurden. Dieses wird von Medizinern geführt. Die Fragen kamen vor allem aus dem Krankenhaus und wurden am häufigsten von Chirurgen, Internisten und Psychiatern gestellt. Sie betrafen am häufigsten Interaktionen, Indikationen/Kontraindikationen, Nebenwirkungen und Dosisanpassungen. Die Fragen wurden von einem Team aus Ärzten und Apothekern bearbeitet, wobei jede skizzierte Antwort von einem Seniorarzt (Spezialist in Pharmakologie oder Innerer Medizin) autorisiert wurde, was dem regulären Prozedere der Informationsstelle entspricht.
Das Studienteam um den Lehrbeauftragten und Hausarzt Dr. Benjamin Krichevsky fütterte nun ChatGPT 3.5 mit denselben Fragen und ließ sowohl die KI-Antworten als auch die des Arzneimittelinformationszentrums verblindet von drei Evaluatoren unabhängig bewerten. Version 3.5 war im Gegensatz zu Version 4.0 zum Zeitpunkt der Studiendurchführung ohne Subskription verwendbar.
In den ChatGPT-Antworten fanden alle drei Bewerter mehr sachliche Fehler als in den menschlichen Antworten, die zudem schwerwiegender waren. Insgesamt war die Qualität der Informationen in den von Ärzten generierten Antworten höher, so das Fazit. »Unsere Studie legt nahe, dass bislang dringend von der Verwendung von ChatGPT in der pharmakotherapeutischen Beratung abgeraten werden muss.«
Fehler von ChatGPT waren unter anderem, dass der Agent das Antibiotikum Tazobactam für ein Sedativum hielt und eine Wechselwirkung mit Hydromorphon annahm, die Beschreibung des Insulin-Analogons Actrapid als Analgetikum und die Empfehlung der Überwachung des INR-Werts unter Therapie mit direkten oralen Antikoagulanzien. Hätten die Ärzte diese Empfehlungen umgesetzt, hätten die Patienten ernsthaft zu Schaden kommen können.