Der Klang der Stimme kann von verschiedenen Krankheiten beeinflusst werden. KI-basierte Programme sollen in Zukunft schon feine Abweichungen erkennen können und bei der Frühdiagnostik helfen. / Foto: Adobe Stock/Yuliia
Die Stimme des Menschen ist einzigartig; keine zwei klingen exakt gleich. Um sie zu erzeugen, wird ein Luftstrom in Klangmuster umgewandelt. An diesem Prozess sind drei Hauptkomponenten beteiligt: die Lunge zum Erzeugen des Luftstroms, der Kehlkopf mit den Stimmbändern und beteiligten Muskeln, um die Luft zum Schwingen zu bringen, und die Artikulatoren (Zunge, Gaumen, Lippen), um den Ton zu formen.
Stimmerzeugung (Phonation) geschieht zum großen Teil unbewusst und mehrere Hirnnerven sind daran beteiligt, unter anderem der Vagusnerv. Er ist ein Teil des parasympathischen Nervensystems und ist mit dem Stimmapparat verbunden; ein bestimmter Zweig von ihm (Nervus laryngeus recurrens) ist an der motorischen Steuerung der Kehlkopfmuskulatur beteiligt. Abnormalitäten in jeder Phase in diesem Prozess können zu charakteristischen Stimm- und/oder Sprachmerkmalen führen, die von Algorithmen detektiert werden können.
Die Stimme ist außerdem wandelbar, zum einen physiologisch aufgrund altersbedingter Veränderungen am Kehlkopf, zum anderen, weil Erkrankungen Stimme und Sprache beeinflussen. Neben sofort wahrnehmbaren Abweichungen sind sie vor allem früh im Verlauf von Krankheiten oft noch so fein, dass man sie nicht heraushören kann.
Künstliche Intelligenz (KI) soll dies übernehmen. Dafür werden KI-basierte Programme mit Tausenden Sprach- und Stimmproben gefüttert und dann mittels Deep-Learning-Verfahren trainiert, um charakteristische Muster zu erkennen, die zu bestimmten Krankheitsbildern passen. Für eine ganze Reihe von Erkrankungen wird derzeit an solchen Sprach- und Stimmanalysen zur Diagnostik geforscht.
So sind Stimmprobleme etwa bei neurodegenerativen Erkrankungen häufig. In Untersuchungen zeigten bis zu 78 Prozent der Parkinson-Erkrankten im Frühstadium Anzeichen in der Stimme. Diese betreffen meist die Akustik, also beispielsweise eine Hypophonie (leise Stimme) und eine ungenaue Artikulation. Häufig anzutreffen ist auch eine Brüchigkeit oder ein Zittern in der Stimme, weshalb KI hier mit Stimmproben des Vokals A, über fünf Sekunden ausgehalten, trainiert werden kann. Diese Technik eignet sich außerdem für multilinguale Analysen, um Störfaktoren durch andere Sprachen und Akzente auszuschließen.
Weitere Arten von Stimmproben sind beispielsweise ein Wort, eine gelesene Passage oder ein freigesprochener Satz. Letzteres ist die geeignete Methode, um auf eine Alzheimer-Erkrankung zu testen, denn hier stehen zusätzlich auch linguistische Aspekte wie etwa die häufigere Verwendung von Pronomen und Füllwörtern im Vordergrund.
Die Vorteile der Sprachanalyse zur frühen Detektion oder zum Monitoring von Krankheiten liegen auf der Hand: So gut wie jeder besitzt ein Smartphone und damit schon die erforderliche Technik. Zudem ist dieses Verfahren nicht invasiv, schnell und jederzeit zu Hause durchführbar. Die KI könnte objektive Zusatzinformationen liefern bei Patienten, die ihre Symptome nicht gut beschreiben können, und beispielsweise anzeigen, ob eine Therapie anschlägt oder nicht. Eine Verwendung als Surrogat-Endpunkt in klinischen Studien wäre ebenso möglich.