Der Klang der Stimme kann von verschiedenen Krankheiten beeinflusst werden. KI-basierte Programme sollen in Zukunft schon feine Abweichungen erkennen können und bei der Frühdiagnostik helfen. / Foto: Adobe Stock/Yuliia
Die Stimme des Menschen ist einzigartig; keine zwei klingen exakt gleich. Um sie zu erzeugen, wird ein Luftstrom in Klangmuster umgewandelt. An diesem Prozess sind drei Hauptkomponenten beteiligt: die Lunge zum Erzeugen des Luftstroms, der Kehlkopf mit den Stimmbändern und beteiligten Muskeln, um die Luft zum Schwingen zu bringen, und die Artikulatoren (Zunge, Gaumen, Lippen), um den Ton zu formen.
Stimmerzeugung (Phonation) geschieht zum großen Teil unbewusst und mehrere Hirnnerven sind daran beteiligt, unter anderem der Vagusnerv. Er ist ein Teil des parasympathischen Nervensystems und ist mit dem Stimmapparat verbunden; ein bestimmter Zweig von ihm (Nervus laryngeus recurrens) ist an der motorischen Steuerung der Kehlkopfmuskulatur beteiligt. Abnormalitäten in jeder Phase in diesem Prozess können zu charakteristischen Stimm- und/oder Sprachmerkmalen führen, die von Algorithmen detektiert werden können.
Die Stimme ist außerdem wandelbar, zum einen physiologisch aufgrund altersbedingter Veränderungen am Kehlkopf, zum anderen, weil Erkrankungen Stimme und Sprache beeinflussen. Neben sofort wahrnehmbaren Abweichungen sind sie vor allem früh im Verlauf von Krankheiten oft noch so fein, dass man sie nicht heraushören kann.
Künstliche Intelligenz (KI) soll dies übernehmen. Dafür werden KI-basierte Programme mit Tausenden Sprach- und Stimmproben gefüttert und dann mittels Deep-Learning-Verfahren trainiert, um charakteristische Muster zu erkennen, die zu bestimmten Krankheitsbildern passen. Für eine ganze Reihe von Erkrankungen wird derzeit an solchen Sprach- und Stimmanalysen zur Diagnostik geforscht.
So sind Stimmprobleme etwa bei neurodegenerativen Erkrankungen häufig. In Untersuchungen zeigten bis zu 78 Prozent der Parkinson-Erkrankten im Frühstadium Anzeichen in der Stimme. Diese betreffen meist die Akustik, also beispielsweise eine Hypophonie (leise Stimme) und eine ungenaue Artikulation. Häufig anzutreffen ist auch eine Brüchigkeit oder ein Zittern in der Stimme, weshalb KI hier mit Stimmproben des Vokals A, über fünf Sekunden ausgehalten, trainiert werden kann. Diese Technik eignet sich außerdem für multilinguale Analysen, um Störfaktoren durch andere Sprachen und Akzente auszuschließen.
Weitere Arten von Stimmproben sind beispielsweise ein Wort, eine gelesene Passage oder ein freigesprochener Satz. Letzteres ist die geeignete Methode, um auf eine Alzheimer-Erkrankung zu testen, denn hier stehen zusätzlich auch linguistische Aspekte wie etwa die häufigere Verwendung von Pronomen und Füllwörtern im Vordergrund.
Die Vorteile der Sprachanalyse zur frühen Detektion oder zum Monitoring von Krankheiten liegen auf der Hand: So gut wie jeder besitzt ein Smartphone und damit schon die erforderliche Technik. Zudem ist dieses Verfahren nicht invasiv, schnell und jederzeit zu Hause durchführbar. Die KI könnte objektive Zusatzinformationen liefern bei Patienten, die ihre Symptome nicht gut beschreiben können, und beispielsweise anzeigen, ob eine Therapie anschlägt oder nicht. Eine Verwendung als Surrogat-Endpunkt in klinischen Studien wäre ebenso möglich.
Auch Erkrankungen, die auf den ersten Blick keinen Zusammenhang mit der Stimme zu haben scheinen, lassen sich mit einer solchen KI überwachen. Eine davon ist die Herzinsuffizienz. Sie erforscht aktuell ein Ärzteteam um Privatdozent Dr. Felix Hohendanner am Deutschen Herzzentrum der Charité in Berlin in Kooperation mit der US-amerikanischen Mayo Clinic in Rochester in einer Studie namens VAMP-HF (AI-Based Voice Analysis for Monitoring Patients Hospitalized with Acute Decompensated Heart Failure).
Bei einer Herzinsuffizienz nimmt insgesamt die Pumpleistung des Organs und damit das Herzzeitvolumen ab. Dadurch kommt es zu einem Blutstau vor dem Herzen sowie über verschiedene Rückkopplungsmechanismen zu einer Abnahme der Nierenfunktion und somit der Wasserausscheidung. Es lagert sich im gesamten Körper Wasser ein. Diese Einlagerungen betreffen unter anderem die Extremitäten, aber auch die Lunge und Stimmbänder. Dadurch verändert sich die Stimme der Patienten. Sie bildet sich entsprechend zurück, wenn die Therapie mit Diuretika anspricht.
Dr. Chong Bin Lee (Mitte) und Emanuel Heil nehmen bei einem Patienten mit Herzinsuffizienz eine Stimmprobe auf. / Foto: DHZC/Maier
»Der klinische Standard zur Erfassung einer Wassereinlagerung oder einer erfolgreichen diuretischen Therapie ist unter anderem das Körpergewicht«, erläutert Dr. Chong Bin Lee, Kardiologe und Mitglied des Studienteams, gegenüber der PZ. »Jedoch fällt das tägliche Wiegen unserer meist älteren Patienten in ihrem eigenen Heim sehr schwer und die Ergebnisse können oft von diesen nicht richtig interpretiert werden.« Auch eine schnelle Gewichtszunahme werde von ihnen häufig allein mit der Nahrungsaufnahme verbunden.
»Das Ziel unserer Studie ist es, täglich bei solchen Patienten Stimmaufnahmen zu sammeln«, erklärt Lee weiter. »Mit diesen Daten kann die künstliche Intelligenz in der Zukunft eine akute Herzinsuffizienz voraussagen.« Ein KI-basiertes Programm, das anhand der Stimmen eine drohende Dekompensation voraussagen könnte, würde den Patienten sehr helfen, um zu verhindern, dass diese mit akuter Luftnot und schweren Wassereinlagerungen in ein Krankenhaus eingeliefert werden müssten. »Noch zu Hause könnte in einer frühen Phase in ärztlicher Rücksprache zum Beispiel die orale diuretische Therapie angepasst werden und so eine schwere Volumenüberladung verhindert werden.« Es hätten bereits etwa 75 Prozent der anvisierten Teilnehmenden rekrutiert werden können, so Lee. Erste Studienergebnisse würden im Jahr 2025 erwartet.
Diabetische Stoffwechsellagen können ebenfalls mit einem stimmbasierten Biomarker detektiert werden. Untersuchungen haben gezeigt, dass bei Menschen mit Typ-2-Diabetes mit hohen Blutzuckerwerten oder mit einer Neuropathie die häufigsten Stimmmerkmale eine stimmliche Schwäche und Heiserkeit waren. Ein Team der Ontario Tech University in Toronto unter der Leitung von Jaycee Kaufman hat daraufhin ein Früherkennungs- und Monitoring-Tool entworfen und getestet.
192 Nichtdiabetiker und 75 an Typ-2-Diabetes Erkrankte sprachen eine festgelegte Textpassage bis zu sechsmal täglich über zwei Wochen in eine Smartphone-App, was mehr als 18.000 Aufnahmen ergab. Die KI filterte 14 Merkmale heraus, die sich bei nicht diabetischen und bei Personen mit Diabetes unterscheiden. Beim Test konnte die KI mit einer Genauigkeit von 89 Prozent die Erkrankung bei Frauen erkennen; bei Männern lag sie bei 86 Prozent. Hohe Blutglucosespiegel hätten einen Einfluss auf die elastischen Eigenschaften der Stimmbänder, und ein hoher Langzeitzucker könne zu Muskelschwäche und Neuropathie innerhalb des Kehlkopfes führen, vermuten die Autoren.
Die Zulassungsbehörden in den USA (FDA) und in Europa (EMA) haben bislang noch keinen sprachbasierten Biomarker zugelassen; zudem existiert auch noch kein Standardprotokoll für das Sammeln von Sprach- und Stimmproben, schrieb ein Forscherteam um Guy Fagherazzi 2021 in einer Übersichtsarbeit zu dem Thema im Journal »Digital Biomarkers«.
Ein großer Nachteil ist, dass die KI zum gegenwärtigen Zeitpunkt noch eine Blackbox ist: Wissenschaftler können nicht nachvollziehen, wie die Ergebnisse zustande kommen. Es besteht die Gefahr von falsch positiven und falsch negativen Ergebnissen und in der Folge von Über- beziehungsweise Unterbehandlung. Stimmbasierte Biomarker sollten den Autoren einer weiteren Übersichtsarbeit aus dem Jahr 2023 zufolge eher als Zusatztool angesehen werden, das Ärzten eine Entscheidungshilfe bieten kann (»Mayo Clinic Proceedings«).
Des Weiteren müssen Aspekte des Datenschutzes und des damit einhergehenden Missbrauchspotenzials der Technologie geklärt werden, denn die Stimme wird als nicht anonym eingestuft. Forschende sind sich einig, dass es weiterer großer prospektiver Studien mit linguistisch diversen Populationen bedarf, um verlässliche Messungen und Ergebnisse zu generieren.
Mit dem Einzug der Telemedizin und der Verbreitung von Smartphones bieten sich aber durch KI-basierte Sprachanalysetools zahlreiche Möglichkeiten für eine verbesserte Gesundheitsversorgung besonders in abgelegenen Regionen oder bei immobilen Patienten. So könnten etwa Therapien schneller eingeleitet oder angepasst werden (Beispiel Herzinsuffizienz). Klinische Studien könnten zeit- und kostensparend mit mehr Teilnehmenden durchgeführt werden, was insbesondere bei Arzneimittelstudien dazu beitragen könnte, vielversprechende Wirkstoffe sicherer zu erkennen.