Was KI-Systeme können |
Christina Hohmann-Jeddi |
07.02.2024 18:00 Uhr |
Die Bewertung von digitalen Aufnahmen von Muttermalen zur Hautkrebsdiagnose war eine der ersten Aufgaben, für die medizinische KI-Systeme entwickelt wurden. / Foto: Paz Ruiz Luque
Sie interpretieren MRT-Bilder und Retina-Scans oder diagnostizieren Hautkrebs anhand von Fotos: In den vergangenen Jahren haben auf künstlicher Intelligenz (KI) basierende Anwendungen immer stärker Einzug in die medizinische Diagnostik gehalten. Solche KI-basierten Programme werden heute schon unter anderem in der Augenheilkunde, Dermatologie, Endoskopie, Krebsmedizin und Pathologie eingesetzt. Bei der Entwicklung solcher Systeme werden Algorithmen mit einer großen Menge an Bildern und dazugehöriger Diagnose auf eine spezielle Aufgabe hin trainiert, etwa Lungenkrebs in CT-Scans zu erkennen. Mit jedem weiteren Bild lernen sie dazu.
Einen Überblick zu dem aktuellen Stand, zu Hindernissen und zukünftigen Möglichkeiten der KI-basierten Diagnostikwerkzeuge gaben Dr. Pranav Rajpurkar vom Department of Biomedical Informatics an der Harvard Medical School in Boston und Dr. Matthew P. Lungren vom Center for Artifical Intelligence in Medcine & Imaging der kalifornischen Stanford University im Mai 2023 im »New England Journal of Medicine« (DOI: 10.1056/NEJMra2301725). Die entsprechenden Programme hätten in den vergangenen Jahren bereits gezeigt, dass sie »bemerkenswert erfolgreich bei der Interpretation medizinischer Bilder« seien, so die Autoren.
So ist es auch nicht verwunderlich, dass die Zahl der KI-basierten Werkzeuge für die medizinische Versorgung stetig wächst: Mehr als 500 hat die US-amerikanische Zulassungsbehörde FDA für den Einsatz in der Medizin bereits zugelassen – die allermeisten im Bereich Bildgebung. Neben der Interpretation von Bildern werden sie zur Verbesserung von Aufnahmen, zum Ausmessen von anatomischen Strukturen und zur Kennzeichnung von Testergebnissen für die Nachuntersuchung eingesetzt, indem etwa besonders dringende Fälle markiert werden. In Europa werden entsprechende KI-Anwendungen durch die EU-Medizinprodukteverordnung reguliert, die derzeit keine Zulassung vorschreibt.
Trotz der großen Zahl an KI-Anwendungen müssten noch einige Hindernisse überwunden werden, bevor man einen breiten klinischen Nutzen von den Systemen erwarten könne, legen Rajpurkar und Lungren dar. So hätten Studien gezeigt, dass einige Krankenhäuser sowie andere Point-of-Care-Zentren KI-Produkte bereits erfolgreich einsetzen. Viele seien es aber noch nicht, heißt es in dem Übersichtsartikel. Die Durchdringung des Gesundheitssystems in den USA werde auf lediglich 2 Prozent geschätzt.
Zwar haben einer Analyse in 39 Ländern zufolge etwa 10 bis 30 Prozent der Ärzte KI-Anwendungen schon einmal verwendet (»Frontiers in Medicine« 2022, DOI: 10.3389/fmed.2022.990604). Jedoch mangelt es vielen Medizinern an Vertrauen in die Zuverlässigkeit der Systeme. So gebe es nur wenige Studien, die die Wirksamkeit der KI-Anwendungen zeigen, betonen Rajpurkar und Lungren. Zudem seien die KI-Anwendungen häufig nicht außerhalb des Umfelds getestet, in dem sie trainiert wurden – nicht einmal die Systeme mit FDA-Zulassung. Es sei daher schlecht abzuschätzen, wie gut die Übertragbarkeit auf andere klinische Umgebungen mit anderen Patientengruppen und leicht unterschiedlichen Bildgebungsprozessen, zum Beispiel unterschiedliche Gerätehersteller von MRT- oder Röntgengeräten in verschiedenen Krankenhäusern, ist.
Wenige randomisierte kontrollierte Studien zeigen Sicherheit und Effektivität der KI-basierten Anwendungen. In einigen Fällen seien die Real-World-Daten schlechter ausgefallen als die der FDA gemeldeten. Es brauche dringend Methoden, um die Übertragbarkeit von Algorithmen auf neue klinische Settings zu gewährleisten, fordern die beiden Autoren. Die Systeme müssten darauf untersucht werden, bevor sie breit klinisch eingesetzt werden. Um die Übertragbarkeit zu verbessern, gibt es verschiedene Ansätze, etwa das Training der Systeme auf großen öffentlichen Datensammlungen oder auf dezentralen Datenquellen (föderiertes Lernen).
Ein weiteres Vertrauensproblem: Viele KI-Systeme seien Blackboxes – sie erklärten und begründeten ihre Entscheidungen nicht, heißt es in dem Übersichtsartikel. Ärzte würden die Entscheidungen aber gerne nachvollziehen können. Abhilfe kann hier die sogenannte erklärbare KI (explainable AI, XAI) schaffen, die verständlich macht, wie die Systeme zu ihrer Entscheidung kommen.
Bei einem Besuch am Deutschen Krebsforschungszentrum demonstriert Titus Brinker Gesundheitsminister Professor Karl Lauterbach (SPD) das KI-Dermatoskop. / Foto: DKFZ/Uwe Anspach
Ein entsprechendes KI-basiertes Unterstützungssystem für die Hautkrebsdiagnostik entwickelten Wissenschaftler im Deutschen Krebsforschungszentrum (DKFZ). Die Arbeitsgruppe um Dr. Titus Brinker stellte es vor Kurzem im Fachjournal »Nature« vor (2024, DOI: 10.1038/s41467-023-43095-4). Das System verwendet etablierte Diagnosemerkmale, die sich auf bestimmte Bereiche der verdächtigen Läsionen beziehen. Wie gut es funktioniert und wie sehr die Ärzteschaft ihm vertraut, testete das Team um Tirtha Chanda in einer Studie mit mehr als 100 Dermatologen aus 33 verschiedenen Ländern.
Die Ärzte diagnostizierten eine Reihe von digitalisierten Aufnahmen verschiedener Läsionen dreimal – einmal auf der Basis ihrer Erfahrung, einmal mit Unterstützung eines herkömmlichen KI-Systems und dann mithilfe der XAI. Die diagnostische Genauigkeit bei der Erkennung von Melanomen erhöhte sich durch die Nutzung eines KI-Systems und sie konnte durch den Einsatz der XAI nicht weiter gesteigert werden. Was sich aber veränderte, war das Vertrauen der Dermatologen in die eigene Entscheidung: Dieses verbesserte sich durch das KI-System und dieser Effekt konnte durch das XAI-Systems noch einmal deutlich verstärkt werden. Solche XAI-Systeme könnten in Zukunft die »Zusammenarbeit« von Ärzten und KI verbessern und die Transparenz erhöhen, folgern die Autoren.
Für die Zukunft ist aber nicht nur angedacht, dass die KI-Systeme verständlicher werden, sondern auch umfassender. Die bisher verfügbaren KI-Programme in der Medizin sind auf einzelne begrenzte Interpretations- oder Analyseaufgaben spezialisiert und benötigen hierfür speziell aufbereitete Daten. Die nächste Generation soll dagegen eine Fülle von Daten – Bilder, Laborwerte, Messungen von Wearables wie Smartwatches, Patientenakten und gesprochenes Wort – auswerten können und damit unterschiedliche Aufgaben erfüllen können. So sollen sie nicht nur medizinische Aufnahmen auswerten, sondern auch Diagnosen stellen, Therapien vorschlagen und Berichte schreiben können. Diese Vorstellung einer »generalisierten medizinischen KI« stellten Forschende der Stanford University um Dr. Michael Moor und Rajpurkar 2023 im Fachjournal »Nature« vor (DOI: 10.1038/s41586-023-05881-4).
Hierfür müssten sogenannte Grundmodelle ähnlich wie ChatGPT-3 auf umfangreichen, vielfältigen medizinischen Datensätzen trainiert werden, um zahlreiche Aufgaben bearbeiten und auch neue, ihnen unbekannte Aufgaben lernen zu können. Erste Ansätze hierzu gebe es bereits, heißt es in der Publikation. Schwierigkeiten bestünden dabei aber im Zugang zu den notwendigen großen Datenmengen und den hohen Kosten für das Training. Zudem seien der Datenschutz und die Verlässlichkeit der Systeme problematisch.
Letzteres sei das größte Problem, machen die Autoren um Moor in einer Pressemitteilung der Stanford University deutlich. Woher solle man wissen, dass das Modell richtigliegt und sich nicht etwas ausdenkt, fragen die Autoren und spielen dabei auf ein von Chat-GPT bekanntes Problem mit der Wahrheit an. Diese Vorstellungen von medizinischen Grundmodellen werden also noch eine Weile Zukunftsmusik bleiben.