Pharmazeutische Zeitung online Avoxa
whatsApp instagram facebook bluesky linkedin xign

KI in der Diagnostik
-
Klüger als die natürliche Intelligenz?

Zur richtigen Diagnose zu kommen, ist ein komplexer Prozess. Dabei könnten spezialisierte Sprachmodelle in Zukunft unterstützen. Schon jetzt zeigen sie in Studien bessere Ergebnisse als erfahrene Mediziner – und sind auch noch empathischer.
AutorKontaktChristina Hohmann-Jeddi
Datum 08.01.2026  09:00 Uhr

Um Krankheiten therapieren zu können, müssen sie korrekt diagnostiziert werden. Das ist ein komplexer Prozess, bei dem Heilberufler Anamnese, körperliche Untersuchung und eventuell Bildgebungsdaten und Laborwerte berücksichtigen. Dabei werden Schritt für Schritt Hypothesen aufgestellt und überprüft. Je nach Seltenheit der Erkrankung und Ausprägung der Symptome kann es schwierig sein, die richtige Diagnose zu finden. Hier kann künstliche Intelligenz (KI) die Ärzteschaft unterstützen.

Schon jetzt werden etwa in der Kardiologie und der Onkologie Programme zur Auswertung von Bildgebungs- oder EKG-Daten genutzt. Und auch Large Language Models (LLM) wie ChatGPT oder Gemini liefern schon recht gute Ergebnisse, wenn man sie nach Diagnosen zu verschiedenen Symptomen befragt. Aber speziell trainierte LLM und KI-Diagnostiktools sollen in Zukunft noch sehr viel mehr können.

Microsoft-Orchestrator: präziser als Hausärzte

»Ich denke, es ist ziemlich klar, dass wir in den nächsten Jahren Modelle entwickeln werden, die in der Diagnostik besser sind als die überwiegende Mehrheit der erfahrenen Kliniker in jedem Bereich.« Das sagte vor Kurzem Mustafa Suleyman, Geschäftsführer von Microsoft AI, in einem Kurzinterview gegenüber dem Nachrichtenportal von »Nature«. Das Unternehmen arbeite an einer medizinischen Superintelligenz. Und es ist dabei auf einem guten Weg. Laut einer Studie, die Suleyman und sein Team im Juli 2025 auf dem Preprint-Server »Arxiv« veröffentlichten, ist das KI-Tool »Microsoft AI Diagnostic Orchestrator« (MAI-DxO) in der Kombination mit einem LLM in der Diagnostik bereits viermal präziser als Hausärzte.

Für die Bewertung von KI-Modellen und Ärzten entwickelte das Team von Microsoft zunächst ein Testsystem namens Sequential Diagnosis Benchmark (SDBench), das den mehrstufigen Diagnoseprozess simuliert. Bei diesem kann der diagnostische Akteur – Mensch oder Maschine – selbst entscheiden, welche Fragen er stellt, welche zusätzlichen Tests er anfordert und wann er sich auf eine Diagnose festlegt. Die benötigten Informationen werden auf die Nachfragen geliefert.

Mit dem SDBench-System bewertete das Team um Suleyman und Erstautor Harsha Nori eine Gruppe von 21 erfahrenen Ärzten aus den USA und Großbritannien (mittlere Berufserfahrung von zwölf Jahren, 17 Allgemeinmediziner, vier Krankenhausmediziner) im Vergleich zu mehreren KI-Modellen nach Genauigkeit und Kosteneffizienz. Verwendet wurden dabei 304 echte, besonders herausfordernde Patientenfälle, die im »New England Journal of Medicine« (NEJM) in einer Serie publiziert worden waren.

Die Gruppe von Ärztinnen und Ärzten erreichte eine Diagnostikgenauigkeit von 20 Prozent bei durchschnittlichen Kosten von 2963 US-Dollar (2530 Euro) pro Patientenfall bei diesen komplexen Fällen. Das LLM GPT-4o von Open AI diagnostizierte genauer (Genauigkeit 49,3 Prozent) bei geringeren Kosten (2745 US-Dollar beziehungsweise 2350 Euro pro Fall), während das Reasoning-Modell o3 von OpenAI, ein fortgeschrittenes LLM, das mehrstufige »Denkprozesse« durchführt, eine Genauigkeit von 78,6 Prozent erreichte, jedoch bei deutlich höheren Kosten (7850 US-Dollar beziehungsweise 6710 Euro pro Fall).

Der modellunabhängige Orchestrator MAI-DxO, der jedes KI-Sprachmodell in ein virtuelles Ärztegremium verwandelt, verbesserte die Ergebnisse von allen getesteten LLM (unter anderem auch Claude und Deepseek). Das beste Ergebnis erreichte er in Kombination mit dem Reasoning-Modell o3: Die Kombination diagnostizierte mit einer Genauigkeit von 80 Prozent und durchschnittlichen Diagnosekosten von 2397 US-Dollar (2050 Euro) pro Patientenfall. Damit ist sie viermal genauer und 20 Prozent preiswerter als die Diagnostik der Ärztegruppe.

Die Ergebnisse der Untersuchung wurden bislang nur als Preprint und noch nicht in einem Peer-Reviewed Journal veröffentlicht. Das Team weist in einer Mitteilung darauf hin, dass die Ärztegruppe aus Allgemeinmedizinern bestand und nicht aus Spezialisten wie etwa Rheumatologen oder Neurologen, die zumindest für Krankheiten aus ihrem Fachbereich bessere Ergebnisse erreicht hätten. Kein Arzt könne allerdings die gesamte Bandbreite der NEJM-Serie von Patientenfällen abdecken, schreiben die Autoren. KI-Systeme könnten hier in Zukunft eine Lösung sein, weil sie keine Spezialisierung haben. 

Googles AMIE ist genauer als Ärzte …

Microsoft ist nicht das einzige Unternehmen, das an medizinischen KI-Systemen arbeitet. So hat beispielsweise der Mitbewerber Google ein großes Sprachmodell namens AMIE (Articulate Medical Intelligence Explorer) entwickelt, das nicht nur auf medizinischen Daten trainiert, sondern auch speziell für diagnostisches Denken optimiert wurde.

Auch dieses Modell hat sich schon erfolgreich mit Ärztinnen und Ärzten gemessen. Die Ergebnisse stellte ein Team um Daniel McDuff von Google Research im April 2025 im Journal »Nature« vor (DOI: 10.1038/s41586-025-08869-4). Auch das Google-Team testete sein System an realen Patientenfällen aus der NEJM-Serie. Dabei erstellten jeweils zwei Kliniker für einen Fall eine Liste von potenziellen Differenzialdiagnosen. Dabei konnte jeweils ein Arzt zusätzlich zur Patientenakte auf Suchmaschinen und medizinische Literatur und ein Arzt auf alles plus AMIE zugreifen. Alle Mediziner erstellten zudem ganz zu Beginn eine Differenzialdiagnose ohne Unterstützung.

Es zeigte sich, dass AMIE allein am genauesten diagnostizierte. Hier war die korrekte Diagnose in 59,1 Prozent der Fälle in der Top-10-Liste an Differenzialdiagnosen. Bei Ärzten ohne Unterstützung lag die Quote bei 33,6 Prozent, mit der Hilfe von Suchmaschinen bei 44,4 Prozent. Das Interessante: Selbst mit AMIE-Unterstützung schnitten Ärzte schlechter ab als das Modell allein. Sie erreichten eine Top-10-Trefferquote von 51,7 Prozent. Dabei hatte AMIE nur textbasierte Informationen zur Verfügung, während die Ärzte auch Laborwerte und Bildgebungsdaten mit heranziehen konnten.

»Unsere Studie legt nahe, dass AMIE das diagnostische Denken und die Genauigkeit von Klinikern in anspruchsvollen Fällen verbessern kann und eine weitere Evaluation im realen klinischen Einsatz gerechtfertigt ist«, schreibt das Google-Team.

.. und auch empathischer

Dabei ist AMIE nicht nur genauer, sondern auch empathischer als die Ärztegruppe, die für den Vergleich antrat. Das berichten Google-Autoren um Tao Tu in einer zweiten Publikation in »Nature« (DOI: 10.1038/s41586-025-08866-7). Dafür ließen die Experten von Google-Research AMIE und 20 Allgemeinmediziner diagnostische Dialoge mit Schauspielern, die Patienten spielten, über einen Text-Chat durchführen. Danach wurden die Dialoge und Diagnosen von Fachärzten und den Schauspielern bewertet.

Die Dialoge von AMIE kamen nicht nur zu einem besseren Ergebnis, sie wurden auch von Fachärzten und den Schauspielern in fast allen Konversationsqualitäten besser bewertet: Sie wurden als höflicher empfunden; zudem »hörte« AMIE besser zu und erklärte Erkrankung und Therapie auch verständlicher.

Dass AMIE als empathischer empfunden wurde, könne auch daran gelegen haben, dass ihre Antworten im Dialog im Schnitt länger ausfielen als die der Ärzte, schreiben die Autoren. Die Ärzte hatten zudem in diesem Studiensetting aufgrund der textbasierten Kommunikation keine Möglichkeit, mit Stimme, Gesten oder Körpersprache zu punkten. AMIE müsse noch in weiteren Studien untersucht werden, bevor sie eines Tages in der Klinik eingesetzt werden könnte.

Wann kommt die LLM-Diagnostik?

Bis diese KI-Diagnostik-LLM von Microsoft oder Google neben anderen die klinische Praxis erreichen werden, kann es noch eine Weile dauern. Eine große Hürde ist, Zulassungen der regulatorischen Behörden zu erhalten. Denn noch sind einige Sicherheits- und Datenschutzfragen zu klären.

Als nächstes arbeite man daran, die KI-Tools klinisch zu evaluieren, sagt auch Microsoft-AI-Geschäftsführer Suleyman in dem Nature-Interview. Dabei sieht er ein enormes Potenzial für die künstliche Intelligenz. »Diagnose ist nur der erste Schritt.« Der nächste Schritt sei, die Patientenwege im Krankenhaus mittels KI zu managen: dass jeder Patient zur richtigen Zeit den richtigen Arzt sieht, ausreichend und geeignete Tests durchläuft und am Ende die richtige Therapie erhält. Diese Funktionen seien bereits heute in den Modellen verfügbar. Bis sie eingesetzt werden, könnte es noch einige Jahre dauern. »Aber es ist definitiv der Weg, den wir eingeschlagen haben«, so Suleyman. 

Mehr von Avoxa