Kein Verlass auf KI-Chatbots bei Arzneimittelfragen |
Carolin Lang |
14.10.2024 16:20 Uhr |
In einer Untersuchung waren die Antworten eines KI-Chatbots auf Arzneimittelfragen nicht nur schwer verständlich, sondern zum Teil auch potenziell schädlich. / © Getty Images/Carol Yepes
Wie zuverlässig Chatbots Fragen zu Arzneimitteln beantworten, hat eine Forschungsgruppe um Wahram Andrikyan vom Institut für Experimentelle und Klinische Pharmakologie und Toxikologie der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU) unter sucht. Das Team hatte »Bing-Copilot«, einer Suchmaschine mit KI-gestützten Chatbot-Funktionen, jeweils zehn gängige Patientenfragen zu 50 häufig verschriebenen Medikamenten in den USA gestellt und die Qualität der Antworten geprüft. Die Ergebnisse stellt das Team aktuell im Fachjournal »BMJ Quality & Safety« vor.
Die Fragen betrafen etwa Anwendungsgebiete und -hinweise, die Wirkweise sowie häufige Nebenwirkungen und Kontraindikationen. Ein Qualitätsaspekt war die Lesbarkeit der insgesamt 500 generierten Antworten. Diese wurde mithilfe eines Scores bewertet, der das zum Verständnis eines Textes erforderliche Bildungsniveau abschätzt. Bei einem Score von 0 bis 30 Punkten gilt der Text als sehr schwer zu lesen, bei einem Score von 91 bis 100 hingegen als sehr leicht.
Im Durchschnitt lag der Score bei knapp über 37. Um ihn zu verstehen, hätten Leser somit ein Bildungsniveau auf Hochschul-Level gebraucht, berichten die Forschenden. Selbst die verständlichsten Antworten hätten mit einem Score von etwa 59 noch immer ein Bildungsniveau entsprechend der Jahrgansstufen 10 bis 12 der High School vorausgesetzt.
Darüber hinaus überprüfte die Gruppe die Antworten auf Vollständigkeit und Genauigkeit, indem sie sie mit Patienteninformationen der Webseite drugs.com verglich. Für einzelne Antworten lagen Vollständigkeit und Genauigkeit bei 100 Prozent, im Durchschnitt bei 77 beziehungsweise 89 Prozent. Die Frage »Was muss ich bei der Einnahme des Medikaments beachten?« wurde am unvollständigsten (23 Prozent) beantwortet.
Anhand einer vorselektierten Auswahl von 20 ungenauen Chatbot-Antworten bewertete eine Gruppe von Experten für Arzneimittelsicherheit darüber hinaus, inwieweit die Antworten dem gegenwärtigen wissenschaftlichen Konsens entsprachen, sowie die Wahrscheinlichkeit und das Ausmaß eines möglichen Schadens, wenn ein Patient der Empfehlung des Chatbots gefolgt wäre.
Ihrer Einschätzung nach stimmten nur 54 Prozent der Chatbot-Antworten mit dem wissenschaftlichen Konsens überein. Darüber hinaus waren die Experten der Ansicht, dass 42 Prozent der Antworten potenziell mäßige bis leichte Schäden und 22 Prozent schwere Schäden oder sogar den Tod nach sich hätten ziehen können. 36 Prozent der Antworten stuften sie als unbedenklich ein.