| Christina Hohmann-Jeddi |
| 13.01.2026 09:00 Uhr |
In einem zweiten Schritt wurden die drei fortgeschrittenen Sprachmodelle auf ihre Resistenz gegenüber sogenannte Man-in-the-Middle-basierte, Client-seitige Prompt-Injektionen getestet. Dabei wird von einem Angreifer der Prompt des Nutzers des Sprachmodells unbemerkt so verändert, dass zum Beispiel zusätzliche Instruktionen eingefügt werden, die bestehende Sicherheitsmechanismen abschwächen oder überschreiben. Die Injektion wird dabei vom LLM als Teil des offiziellen Prompts des Nutzers angesehen und ausgeführt. Diese Attacken waren bei GPT 5 und Gemini 2.5 Pro in dem Thalidomid-für-Schwangere-Szenario zu 100 Prozent erfolgreich. Bei Claude 4.5 Sonnet waren 4 von 5 Attacken erfolgreich (80 Prozent).
Der in dieser Studie verwendete Angriffsvektor sei zwar konstruiert, spiegele aber ein realistisches Bedrohungsszenario wider, schreiben die Autoren in der Publikation. Die Arbeit offenbart vorhandene Schwachstellen wie kompromittierte Browser-Erweiterungen, Drittanbieter-Plug-ins oder manipulierte Antworten von Programmierschnittstellen, die offenbar auch fortgeschrittene LLM-Modelle besitzen.
Aussagen von solcherart manipulierten Modellen zu Gesundheitsfragen könnten besonders für Patienten ohne ausreichende medizinische Vorkenntnisse gefährlich werden. Diese Ergebnisse zeigten, dass die LLM anfällig für präzise Angriffe sind und ihre systemischen Schutzmaßnahmen vor einem klinischen Einsatz noch ausgebaut werden müssen.