Jedes Jahr leistungsfähiger |
Solche Chatbots generieren leider auch immense Mengen an »KI-Slop«. Slop ist das Pendant zu Spam in E-Mails, also unerwünschte Nachrichten, welche die Nutzer manipulieren sollen. Dadurch kann es zu einer Überflutung mit Nachrichten kommen. Um relevante Informationen von irrelevanten zu unterscheiden – egal ob von Menschen oder KI-Systemen erstellt –, sind zusätzliche Filter erforderlich.
Slop birgt auch das Risiko, dass zukünftige KI-Systeme Schwierigkeiten mit ihrem eigenen Output bekommen. Schon heute stammen viele Online-Inhalte von generativen Modellen, weshalb sich viele Nutzer auf Plattformen mit Zugangsbeschränkungen zurückziehen.
Wenn öffentlich zugängliche Netzwerke fast ausschließlich synthetische Daten bieten, könnten KI-Systeme beginnen, sich selbst mit diesen Daten zu trainieren. Dies kann zu Problemen führen: Die Modelle funktionieren möglicherweise nicht mehr korrekt und produzieren immer mehr Nonsens. Bestenfalls machen sie keine weiteren Fortschritte.
Außer ChatGPT und anderen großen Sprachmodellen (Large Language Model, LLM) haben sich auch weitere KI-Anwendungen sehr erfolgreich weiterentwickelt. Einsatzgebiete sind zum Beispiel Sprachverarbeitung, Übersetzungen, Proteinstrukturbestimmung, Screening neuer Wirkstoffe und medizinische Bildverarbeitung.
Mittlerweile ist KI bei der Diagnose von Hautkrebs etwa genauso leistungsfähig wie menschliche Experten. Daher sind KI-Assistenzsysteme aus der Dermatologie nicht mehr wegzudenken (DOI: 10.1038/s41746-024-01103-x). Ein schönes Beispiel aus der pharmazeutischen Bildverarbeitung hat Apotheker Marc Kriesten geschaffen. Seine KI-basierte App kann den Hauttyp von Kunden sehr schnell und treffsicher beurteilen und empfiehlt daraufhin die richtige Pflege (www.glueckauf-apotheke-dinslaken.de). Die Einführung von erklärbaren KI-Systemen (eXplainable AI; XAI), die ihre Entscheidungsprozesse transparent machen, wird die Akzeptanz weiter steigern (DOI: 10.1038/s41467-023-43095-4).
Für komplexere Aufgaben in der Forschung, zum Beispiel Drug Repurposing, wird der Anfang bisher von KI-Systemen gemacht, die einem »Human-in-the-loop«-Ansatz folgen. Das bedeutet, dass sie eine weitreichende Einflussnahme des Menschen zulassen, bevor sie überhaupt zu einem Ergebnis kommen (DOI: 10.1038/s41467-021-27138-2).
Bei der Verwendung von KI-Systemen ist es immens wichtig, kritisch zu hinterfragen, wie gut sie trainiert und evaluiert wurden. Daher sind auch weitere Standards und Register in diesem Bereich nötig, zum Beispiel das AIME-Register (Registry for Artificial Intelligence in Biomedical Research; DOI: 10.1038/s41592-021-01241-0).
Zunehmend kann KI nicht nur pharmazeutische Aufgaben lösen (Kasten), sondern Studierende nutzen sie auch als Lernpartner. Derzeit ähnelt das Lernen mit KI dem Lernen mit einem durchschnittlichen Kommilitonen.
Studierende berichten, dass KI bei richtiger Nutzung selten konkret falsche Antworten liefere, jedoch neige sie zu langatmigen und allgemeinen Antworten. Gute Lehrbücher seien oft effizienter und kämen schneller zum Wesentlichen
Dies verdeutlicht, dass die Leistungsfähigkeit von KI maßgeblich von der Qualität der zugrunde liegenden Daten und auch vom exakten Prompting (Aufgabenstellung oder Befehl an die KI) abhängt.
© Adobe Stock/Robert Kneschke
Es ist erstaunlich, wie schnell sich die Leistungsfähigkeit von ChatGPT verbessert. Dies prüft die Arbeitsgruppe um die Autoren dieses Artikels laufend. Im Jahr 2023 lieferte der Chatbot beeindruckende Ergebnisse bei pharmazeutischen Aufgaben, zeigte aber noch eine Reihe von gravierenden Schwächen. Eine davon war eine Rechenschwäche.
Die neue Version ChatGPT 4o (»o« wie omni) löst an sich einfache Berechnungen anstandslos mit Angabe des Lösungswegs. Die Arbeitsgruppe fragte:
Hier die Antwort von ChatGPT 4o: Der neue pH-Wert des Magensafts nach der Einnahme von 187,5 mg NaHCO₃ beträgt ungefähr 1,59.
Eine zweite Aufgabe soll den Studierenden den Zusammenhang zwischen pKa-Werten und der Gleichgewichtskonstanten des Massenwirkungsgesetzes verdeutlichen:
Diese Aufgabe wird von Studierenden als schwer empfunden, aber Version 4o löst auch diese sehr gut. Die Antwort lautet: Der Wert der Gleichgewichtskonstanten K für die Reaktion von Essigsäure mit Ammoniak unter Standardbedingungen beträgt ungefähr 10⁴,⁵.
Den Lösungsweg für beide Aufgaben finden Sie hier:
https://cloud.tu-braunschweig.de/s/krZDBTzcX66BFxP
Erstes Staatsexamen würde bestanden
Auch Aufgaben für höhere Semester wurden getestet – mit klarem Ergebnis: ChatGPT 4o würde die meisten Klausuren bestehen. Es ist zurzeit noch etwas schwierig, Aufgaben mit Bildern zu lösen. Aufgaben des IMPP dürfen aus Gründen der Urheberrechte nicht für solche Untersuchungen verwendet werden. Nach Erfahrungen mit eigenen Aufgaben, welche die Lehrenden im 4. Semester verwenden und an den Schwierigkeitsgrad der Fragen für die Erste Pharmazeutische Prüfung (1. Staatsexamen) anpassen, würde ChatGPT 4o etwa 65 bis 70 Prozent der Punkte erzielen. Das entspricht einem leicht überdurchschnittlichen Ergebnis.
Unser Fazit: ChatGPT 4o kann Aufgaben übernehmen, die ein leicht überdurchschnittlicher Werksstudent übernehmen könnte. Zu einem ähnlichen Schluss kommt Bastian Strauß, ein Experte aus dem handwerklichen Bereich. Er sagt, man könne den Chatbot in einigen Bereichen wie einen guten Praktikanten einsetzen.
Ähnlich wie bei einem Praktikanten oder Werkstudenten muss man der KI die Aufgaben gut erklären und ihr eine gute Datenbasis geben, damit sie zum Erfolg kommt.