| Christina Hohmann-Jeddi |
| 08.01.2026 09:00 Uhr |
Microsoft ist nicht das einzige Unternehmen, das an medizinischen KI-Systemen arbeitet. So hat beispielsweise der Mitbewerber Google ein großes Sprachmodell namens AMIE (Articulate Medical Intelligence Explorer) entwickelt, das nicht nur auf medizinischen Daten trainiert, sondern auch speziell für diagnostisches Denken optimiert wurde.
Auch dieses Modell hat sich schon erfolgreich mit Ärztinnen und Ärzten gemessen. Die Ergebnisse stellte ein Team um Daniel McDuff von Google Research im April 2025 im Journal »Nature« vor (DOI: 10.1038/s41586-025-08869-4). Auch das Google-Team testete sein System an realen Patientenfällen aus der NEJM-Serie. Dabei erstellten jeweils zwei Kliniker für einen Fall eine Liste von potenziellen Differenzialdiagnosen. Dabei konnte jeweils ein Arzt zusätzlich zur Patientenakte auf Suchmaschinen und medizinische Literatur und ein Arzt auf alles plus AMIE zugreifen. Alle Mediziner erstellten zudem ganz zu Beginn eine Differenzialdiagnose ohne Unterstützung.
Es zeigte sich, dass AMIE allein am genauesten diagnostizierte. Hier war die korrekte Diagnose in 59,1 Prozent der Fälle in der Top-10-Liste an Differenzialdiagnosen. Bei Ärzten ohne Unterstützung lag die Quote bei 33,6 Prozent, mit der Hilfe von Suchmaschinen bei 44,4 Prozent. Das Interessante: Selbst mit AMIE-Unterstützung schnitten Ärzte schlechter ab als das Modell allein. Sie erreichten eine Top-10-Trefferquote von 51,7 Prozent. Dabei hatte AMIE nur textbasierte Informationen zur Verfügung, während die Ärzte auch Laborwerte und Bildgebungsdaten mit heranziehen konnten.
»Unsere Studie legt nahe, dass AMIE das diagnostische Denken und die Genauigkeit von Klinikern in anspruchsvollen Fällen verbessern kann und eine weitere Evaluation im realen klinischen Einsatz gerechtfertigt ist«, schreibt das Google-Team.
Dabei ist AMIE nicht nur genauer, sondern auch empathischer als die Ärztegruppe, die für den Vergleich antrat. Das berichten Google-Autoren um Tao Tu in einer zweiten Publikation in »Nature« (DOI: 10.1038/s41586-025-08866-7). Dafür ließen die Experten von Google-Research AMIE und 20 Allgemeinmediziner diagnostische Dialoge mit Schauspielern, die Patienten spielten, über einen Text-Chat durchführen. Danach wurden die Dialoge und Diagnosen von Fachärzten und den Schauspielern bewertet.
Die Dialoge von AMIE kamen nicht nur zu einem besseren Ergebnis, sie wurden auch von Fachärzten und den Schauspielern in fast allen Konversationsqualitäten besser bewertet: Sie wurden als höflicher empfunden; zudem »hörte« AMIE besser zu und erklärte Erkrankung und Therapie auch verständlicher.
Dass AMIE als empathischer empfunden wurde, könne auch daran gelegen haben, dass ihre Antworten im Dialog im Schnitt länger ausfielen als die der Ärzte, schreiben die Autoren. Die Ärzte hatten zudem in diesem Studiensetting aufgrund der textbasierten Kommunikation keine Möglichkeit, mit Stimme, Gesten oder Körpersprache zu punkten. AMIE müsse noch in weiteren Studien untersucht werden, bevor sie eines Tages in der Klinik eingesetzt werden könnte.