| Christina Hohmann-Jeddi |
| 08.01.2026 09:00 Uhr |
Spezielle für Diagnostik optimierte KI-Modelle können in Zukunft Ärztinnen und Ärzte unterstützen. Einige Tech-Unternehmen sind hier schon auf gutem Weg. / © Shutterstock/Gorodenkoff
Um Krankheiten therapieren zu können, müssen sie korrekt diagnostiziert werden. Das ist ein komplexer Prozess, bei dem Heilberufler Anamnese, körperliche Untersuchung und eventuell Bildgebungsdaten und Laborwerte berücksichtigen. Dabei werden Schritt für Schritt Hypothesen aufgestellt und überprüft. Je nach Seltenheit der Erkrankung und Ausprägung der Symptome kann es schwierig sein, die richtige Diagnose zu finden. Hier kann künstliche Intelligenz (KI) die Ärzteschaft unterstützen.
Schon jetzt werden etwa in der Kardiologie und der Onkologie Programme zur Auswertung von Bildgebungs- oder EKG-Daten genutzt. Und auch Large Language Models (LLM) wie ChatGPT oder Gemini liefern schon recht gute Ergebnisse, wenn man sie nach Diagnosen zu verschiedenen Symptomen befragt. Aber speziell trainierte LLM und KI-Diagnostiktools sollen in Zukunft noch sehr viel mehr können.
»Ich denke, es ist ziemlich klar, dass wir in den nächsten Jahren Modelle entwickeln werden, die in der Diagnostik besser sind als die überwiegende Mehrheit der erfahrenen Kliniker in jedem Bereich.« Das sagte vor Kurzem Mustafa Suleyman, Geschäftsführer von Microsoft AI, in einem Kurzinterview gegenüber dem Nachrichtenportal von »Nature«. Das Unternehmen arbeite an einer medizinischen Superintelligenz. Und es ist dabei auf einem guten Weg. Laut einer Studie, die Suleyman und sein Team im Juli 2025 auf dem Preprint-Server »Arxiv« veröffentlichten, ist das KI-Tool »Microsoft AI Diagnostic Orchestrator« (MAI-DxO) in der Kombination mit einem LLM in der Diagnostik bereits viermal präziser als Hausärzte.
Für die Bewertung von KI-Modellen und Ärzten entwickelte das Team von Microsoft zunächst ein Testsystem namens Sequential Diagnosis Benchmark (SDBench), das den mehrstufigen Diagnoseprozess simuliert. Bei diesem kann der diagnostische Akteur – Mensch oder Maschine – selbst entscheiden, welche Fragen er stellt, welche zusätzlichen Tests er anfordert und wann er sich auf eine Diagnose festlegt. Die benötigten Informationen werden auf die Nachfragen geliefert.
Mit dem SDBench-System bewertete das Team um Suleyman und Erstautor Harsha Nori eine Gruppe von 21 erfahrenen Ärzten aus den USA und Großbritannien (mittlere Berufserfahrung von zwölf Jahren, 17 Allgemeinmediziner, vier Krankenhausmediziner) im Vergleich zu mehreren KI-Modellen nach Genauigkeit und Kosteneffizienz. Verwendet wurden dabei 304 echte, besonders herausfordernde Patientenfälle, die im »New England Journal of Medicine« (NEJM) in einer Serie publiziert worden waren.
Die Gruppe von Ärztinnen und Ärzten erreichte eine Diagnostikgenauigkeit von 20 Prozent bei durchschnittlichen Kosten von 2963 US-Dollar (2530 Euro) pro Patientenfall bei diesen komplexen Fällen. Das LLM GPT-4o von Open AI diagnostizierte genauer (Genauigkeit 49,3 Prozent) bei geringeren Kosten (2745 US-Dollar beziehungsweise 2350 Euro pro Fall), während das Reasoning-Modell o3 von OpenAI, ein fortgeschrittenes LLM, das mehrstufige »Denkprozesse« durchführt, eine Genauigkeit von 78,6 Prozent erreichte, jedoch bei deutlich höheren Kosten (7850 US-Dollar beziehungsweise 6710 Euro pro Fall).
Große Sprachmodelle geben schon jetzt gute Hinweise auf Diagnosen, wenn man sie nach Symptomen befragt. / © Getty Images/alexsl
Der modellunabhängige Orchestrator MAI-DxO, der jedes KI-Sprachmodell in ein virtuelles Ärztegremium verwandelt, verbesserte die Ergebnisse von allen getesteten LLM (unter anderem auch Claude und Deepseek). Das beste Ergebnis erreichte er in Kombination mit dem Reasoning-Modell o3: Die Kombination diagnostizierte mit einer Genauigkeit von 80 Prozent und durchschnittlichen Diagnosekosten von 2397 US-Dollar (2050 Euro) pro Patientenfall. Damit ist sie viermal genauer und 20 Prozent preiswerter als die Diagnostik der Ärztegruppe.
Die Ergebnisse der Untersuchung wurden bislang nur als Preprint und noch nicht in einem Peer-Reviewed Journal veröffentlicht. Das Team weist in einer Mitteilung darauf hin, dass die Ärztegruppe aus Allgemeinmedizinern bestand und nicht aus Spezialisten wie etwa Rheumatologen oder Neurologen, die zumindest für Krankheiten aus ihrem Fachbereich bessere Ergebnisse erreicht hätten. Kein Arzt könne allerdings die gesamte Bandbreite der NEJM-Serie von Patientenfällen abdecken, schreiben die Autoren. KI-Systeme könnten hier in Zukunft eine Lösung sein, weil sie keine Spezialisierung haben.