| Theo Dingermann |
| 29.04.2025 16:20 Uhr |
In einer randomisierten, doppelblinden Cross-over-Studie wurde die Leistungsfähigkeit von AMIE mit der diagnostischen Einschätzung von 20 realen Hausärzten verglichen. Insgesamt wurden 159 standardisierte Fallbeispiele verwendet, die sechs medizinische Fachbereiche abdeckten und von geschulten Schauspielern aus Kanada, Großbritannien und Indien präsentiert wurden.
Die Bewertung der Ergebnisse erfolgte dann durch spezialisierte Ärzte, die die Qualität der Diagnosen, der Managementpläne und der Interaktionen anhand medizinischer Kriterien bewerteten. Zusätzlich schätzten qualifizierte Patientenstellvertreter die Empathie, Kommunikationsqualität und Vertrauenswürdigkeit von AMIE mittels validierter Fragebögen ein.
Es zeigte sich, dass AMIE sogar besser war als die Hausärzte: Sie übertraf die Einschätzungen der Mediziner in 30 von 32 medizinisch relevanten Evaluationsachsen (Spezialistensicht) und in 25 von 26 kommunikativen und empathischen Achsen (Patientensicht). Die Diagnostikgenauigkeit von AMIE war der von Ärzten in nahezu allen medizinischen Fachbereichen überlegen, insbesondere bei internistischen und respiratorischen Erkrankungen. Zudem war AMIE bei der Informationsgewinnung ähnlich effizient wie die Hausärzte und zeigte bei der Interpretation und Auswertung der erhaltenen Informationen deutlich bessere Leistungen.
Trotz des sehr guten Abschneidens der KI gibt es einige Limitationen. So verwendete die Studie eine textbasierte Chat-Schnittstelle, was nicht dem klinischen Alltag entspricht und insbesondere für Ärzte ungewohnt war. Die Patientenszenarien waren überwiegend krankheitspositiv, das heißt Nicht-Krankheitszustände waren unterrepräsentiert. Das schränkt die Generalisierbarkeit ein. Weiterhin wurden potenzielle Verzerrungen und die mangelnde Robustheit gegenüber sprachlichen Defiziten (zum Beispiel geringe Englischkenntnisse) als offene Herausforderungen benannt.
Dennoch markiert die Leistung von AMIE einen Meilenstein in der Entwicklung medizinischer Dialogsysteme. Die Autoren betonen allerdings auch die Notwendigkeit weiterer Studien zur klinischen Integration inklusive Validierung in realen Settings, einer regulatorischen Einbettung und ethischen Überwachung.