Studierende schlagen ChatGPT |
Sven Siebenand |
15.08.2025 10:30 Uhr |
ChatGPT konnte in einer Untersuchung »Mensch gegen Maschine« Prüfungsfragen im Fach Pharmazie schlechter beantworten als Studierende. / © Adobe Stock/PixieMe
Mit Prüfungen wird vor allem gegen Ende des Pharmaziestudiums verstärkt getestet, ob Studierende über das Wissen, die Fähigkeiten und das kritische Denkvermögen verfügen, um eine sichere, wirksame und patientenorientierte Arzneimittelversorgung zu gewährleisten. Kann das eine KI möglicherweise genauso gut oder gar besser? Nein, kann sie nicht. Das ist keine kühne Hypothese, sondern in einer Untersuchung getestet.
In »Currents in Pharmacy Teaching and Learning« hat ein Team um Pharmazieprofessor Dr. Christopher J. Edwards von der University of Arizona in Tucson aktuell die Prüfungsleistungen von ChatGPT 3.5 im Vergleich zu angehenden Apothekerinnen und Apothekern veröffentlicht.
Für die Untersuchung wurden insgesamt 210 Prüfungsfragen aus sechs Tests in zwei aufeinanderfolgenden Jahrgängen herangezogen. Diese umfassten sowohl rein faktenbasierte Wissensfragen als auch anwendungsorientierte, fallbasierte Szenarien. Die Fragen bezogen sich im ersten Kursjahr auf Erkrankungen im Zusammenhang mit rezeptfreien Medikamenten gegen Sodbrennen, Durchfall, Hauterkrankungen, Erkältungen und Allergien. Im zweiten Jahr handelte es sich um einen Kurs, der Themen aus den Bereichen Kardiologie, Neurologie und Intensivmedizin behandelte.
Um die Prüfungsleistungen von Pharmaziestudierenden und ChatGPT zu vergleichen, berechneten die Wissenschaftler die durchschnittlichen Gesamtpunktzahlen als Maß für die Fähigkeit, Fragen richtig zu beantworten. Für ChatGPT addierten sie die einzelnen Punktzahlen für jede Prüfung und dividierten sie durch die Anzahl der Prüfungen. Um die durchschnittliche Gesamtpunktzahl für die Studenten zu ermitteln, dividierten sie die Summe der durchschnittlichen Klassenleistung in jeder Prüfung durch die Anzahl der Prüfungen. Die durchschnittliche Gesamtpunktzahl für sechs Prüfungen lag für ChatGPT bei 53, verglichen mit 82 für Pharmaziestudenten. Diesen Unterschied darf man mit Fug und Recht wohl als signifikant bezeichnen.
Die Forscher fanden auch heraus, wo die Schwächen der künstlichen Intelligenz lagen. Während das Faktenwissen – wenig überraschend – mit 80 Prozent richtiger Antworten nicht zu bemängeln war, hatte ChatGPT mit anwendungsorientierten Fragen deutliche Probleme und lag nur in 44 Prozent der Fälle richtig. Stand die KI vor der Aufgabe, eine patientenindividuelle Kasuistik auszuwerten und eine Antwort zu liefern, so konnte man das nur in 45 Prozent der Fälle als erfolgreich werten. In allen Bereichen schnitten die Studierenden signifikant besser ab, insbesondere bei der Anwendung des theoretischen Wissens auf komplexe klinische Situationen.
»KI hat viele potenzielle Anwendungsmöglichkeiten im Gesundheitswesen und im Bildungsbereich, und sie wird nicht verschwinden«, so Edwards in einer begleitenden Pressemitteilung der Hochschule. Ein Ziel der Untersuchung sei aber gewesen, den Studierenden zu zeigen, dass sie mit fleißigem Lernen gute Prüfungsergebnisse erzielen können und KI-Tools nicht zwingend benötigen.
Ein sekundäres Ziel war es, herauszufinden, mit welchen Arten von Fragen die KI Schwierigkeiten hat. Dr. Brian L. Erstad, ebenfalls Professor im Fach Pharmazie der Universität, ist nicht überrascht, dass ChatGPT bei einfachen Multiple-Choice- und Richtig-Falsch-Fragen besser abschnitt und bei anwendungsbezogenen Fragen weniger erfolgreich war. »In Bereichen, in denen die Evidenz begrenzt ist und Urteilsvermögen erforderlich ist, was häufig in einer klinischen Umgebung der Fall ist, fanden wir die Technologie eher mangelhaft«, so Erstad. Ironischerweise sei das genau die Art von Fragen, mit denen man in der Praxis ständig konfrontiert sei.
Sowohl Erstad als auch Edwards räumen ein, dass neuere und fortschrittlichere Technologien diese Ergebnisse mit der Zeit verändern könnten. Stand heute haben die Studierenden aber eindeutig die Nase vorn.