| Theo Dingermann |
| 29.04.2025 16:20 Uhr |
Ein KI-System hat in einer Studie exaktere Diagnosen gestellt und auch in puncto empathischer Gesprächsführung besser abgeschnitten als Hausärzte. Allerdings war die Gesprächssituation ein Chat und damit kein realistisches Szenario für eine Hausarztpraxis. / © Adobe Stock/chinnarach
Systeme mit Künstlicher Intelligenz (KI) werden zunehmend leistungsfähiger und zuverlässiger und könnten künftig die Zugänglichkeit und Qualität der Versorgung verbessern. AMIE (Articulate Medical Intelligence Explorer) ist ein derartiges KI-System, das Forschende um Dr. Tao Tu, Dr. Mike Schaekermann und Dr. Anil Palepu von Google Research in Mountain View, USA, jetzt im Fachjournal »Nature« vorstellen. Das KI-System wurde für diagnostische Dialoge im klinischen Kontext optimiert, um eine natürliche, empathische und medizinisch fundierte Interaktion zwischen KI auf der einen Seite und Patienten auf der anderen Seite zu ermöglichen, insbesondere in textbasierten Telemedizin-Szenarien.
AMIE basiert auf einem großen Sprachmodell (LLM), das durch mehrere Datenquellen feinabgestimmt wurde. Zu diesen zählten das MedQA (medizinisches Question-Answering) Dataset, das Multiple-Choice-Fragen enthält, die für die US-amerikanischen medizinischen Zulassungsprüfungen (USMLE) verwendet werden, ärztliche Langform-Frage/Antwort-Systeme, die detaillierte Erklärungen bieten und die Komplexität realer klinischer Szenarien widerspiegeln, Zusammenfassungen klinischer Notizen und transkribierte reale medizinische Gespräche.
Eine Besonderheit von AMIE ist das sogenannte zweistufige Self-Play-Verfahren, bei dem die KI in simulierten Dialogen sowohl die Rolle des Arztes als auch die des Patienten einnimmt. Diese Dialoge werden durch eine zusätzliche Kritiker-KI bewertet, die Feedback zu diagnostischer Qualität, Empathie und Professionalität gibt. Auf diese Weise entsteht ein iteratives Selbstverbesserungssystem.
Um die Relevanz klinischer Entscheidungen zu erhöhen, nutzt AMIE während der Dialogführung eine sogenannte Chain-of-Reasoning-Strategie, bei der in mehreren Schritten Symptome, Differenzialdiagnosen und notwendige weitere Informationen analysiert werden, bevor eine Antwort formuliert wird.
In einer randomisierten, doppelblinden Cross-over-Studie wurde die Leistungsfähigkeit von AMIE mit der diagnostischen Einschätzung von 20 realen Hausärzten verglichen. Insgesamt wurden 159 standardisierte Fallbeispiele verwendet, die sechs medizinische Fachbereiche abdeckten und von geschulten Schauspielern aus Kanada, Großbritannien und Indien präsentiert wurden.
Die Bewertung der Ergebnisse erfolgte dann durch spezialisierte Ärzte, die die Qualität der Diagnosen, der Managementpläne und der Interaktionen anhand medizinischer Kriterien bewerteten. Zusätzlich schätzten qualifizierte Patientenstellvertreter die Empathie, Kommunikationsqualität und Vertrauenswürdigkeit von AMIE mittels validierter Fragebögen ein.
Es zeigte sich, dass AMIE sogar besser war als die Hausärzte: Sie übertraf die Einschätzungen der Mediziner in 30 von 32 medizinisch relevanten Evaluationsachsen (Spezialistensicht) und in 25 von 26 kommunikativen und empathischen Achsen (Patientensicht). Die Diagnostikgenauigkeit von AMIE war der von Ärzten in nahezu allen medizinischen Fachbereichen überlegen, insbesondere bei internistischen und respiratorischen Erkrankungen. Zudem war AMIE bei der Informationsgewinnung ähnlich effizient wie die Hausärzte und zeigte bei der Interpretation und Auswertung der erhaltenen Informationen deutlich bessere Leistungen.
Trotz des sehr guten Abschneidens der KI gibt es einige Limitationen. So verwendete die Studie eine textbasierte Chat-Schnittstelle, was nicht dem klinischen Alltag entspricht und insbesondere für Ärzte ungewohnt war. Die Patientenszenarien waren überwiegend krankheitspositiv, das heißt Nicht-Krankheitszustände waren unterrepräsentiert. Das schränkt die Generalisierbarkeit ein. Weiterhin wurden potenzielle Verzerrungen und die mangelnde Robustheit gegenüber sprachlichen Defiziten (zum Beispiel geringe Englischkenntnisse) als offene Herausforderungen benannt.
Dennoch markiert die Leistung von AMIE einen Meilenstein in der Entwicklung medizinischer Dialogsysteme. Die Autoren betonen allerdings auch die Notwendigkeit weiterer Studien zur klinischen Integration inklusive Validierung in realen Settings, einer regulatorischen Einbettung und ethischen Überwachung.