Therapiestudien kritisch bewerten |
22.04.2014 13:46 Uhr |
Von Iris Hinneburg / Wer die Wirksamkeit eines Arzneimittels beurteilen will, braucht Studien. Doch nicht jede Studie liefert tatsächlich einen aussagekräftigen Beleg für die Wirksamkeit. Deshalb ist es wichtig, Studien kritisch zu beurteilen.
Brokkoli hilft gegen Krebs. Das Multivitaminpräparat unterstützt die Glaukomtherapie. Das Mittel stärkt das Immunsystem. Publikumsmedien und die Werbung zitieren häufig Studien, mit denen sich solche Behauptungen angeblich belegen lassen. Wer sich dabei auf die Marketingabteilung verlässt, kann leicht in die Irre gehen. Das zeigen einige häufige Irrtümer und Missverständnisse. Dieser Beitrag beleuchtet anhand von Beispielen wichtige Aspekte bei der Beurteilung von Studien und erklärt, worauf Apotheker achten sollten.
Missverständnis Nr. 1:
Der Pharmareferent argumentiert: »Dieses Nahrungsergänzungsmittel wurde in zahlreichen Studien untersucht.« Dabei verweist er auf eine lange Literaturliste in der Begleitbroschüre. Damit ist die Wirksamkeit doch wissenschaftlich belegt.
Gerade in Hochglanzbroschüren von OTC-Präparaten oder Nahrungsergänzungsmitteln findet man nicht selten beeindruckende Listen von Literaturzitaten. Bei näherem Hinsehen verbergen sich dahinter jedoch mitunter Laborversuche oder Tierexperimente – dann ist nicht klar, ob die Ergebnisse auf den Menschen übertragbar sind. Doch auch mit Untersuchungen am Menschen (klinischen Studien) ist nicht immer eine zuverlässige Aussage über die Wirksamkeit möglich. Denn die Aussagekraft der verschiedenen Studientypen hängt von der jeweiligen Fragestellung ab.
Grundsätzlich lassen sich zwei Arten von klinischen Studien unterscheiden (Grafik): Interventionsstudien und Beobachtungsstudien (Synonym: epidemiologische Studien). Bei Interventionsstudien legt der Studienplan eine Intervention gezielt fest, also etwa die Einnahme eines bestimmten Medikaments zur Behandlung einer Erkrankung. Zu diesen Studientypen gehören die randomisierten kontrollierten Studien (RCT) oder die kontrollierten klinischen Studien (CCT).
Bei Beobachtungsstudien dagegen sind die Exposition, zum Beispiel die Einnahme von Arzneimitteln oder Nahrungsergänzungsmitteln, oder externe Einflüsse wie Feinstaub oder Laborchemikalien auch unabhängig von der Studie vorhanden.
Beobachtungsstudien: kontrolliert oder nicht?
Die weitere Unterteilung der Beobachtungsstudien orientiert sich daran, ob es in der Studie eine Kontrollgruppe gibt oder nicht. Eine Kontrollgruppe ist etwa bei Kohortenstudien, Fall-Kontroll-Studien oder Querschnittsstudien vorhanden, fehlt dagegen bei Fallberichten, Fallserien oder Anwendungsbeobachtungen. Bei Studien mit Kontrollgruppe sprechen Fachleute auch von analytischen Studien im Gegensatz zu deskriptiven Studien ohne Kontrollgruppe.
Die analytischen Studien unterscheiden sich hauptsächlich nach der Richtung von Exposition und Ergebnis (englisch: outcome). Bei Kohortenstudie besteht die Untersuchungsgruppe aus Probanden, die einer bestimmten Exposition ausgesetzt sind – ihr weiteres Ergehen, etwa Gesundheitszustand oder Krankheitsverlauf, beobachtet die Studie über einen bestimmten Zeitraum im Vergleich zu einer Kontrollgruppe, bei der die Exposition nicht vorhanden ist. Das bezeichnet man auch als prospektives Design.
Ein Beispiel für eine Kohortenstudie: Frauen in den Wechseljahren entscheiden gemeinsam mit dem Arzt, ob sie ihre Beschwerden mit einer Hormontherapie behandeln wollen oder nicht. Die Studie untersucht über einen Zeitraum von zehn Jahren, ob bestimmte Krebserkrankungen im Vergleich zur Kontrollgruppe (ohne Hormonbehandlung) häufiger auftreten. Problematisch an Kohortenstudien ist vor allem die fehlende Strukturgleichheit zwischen den Behandlungsgruppen. So lässt sich im Beispiel nicht ausschließen, dass der Arzt einer Frau mit bestimmten Risikofaktoren abgeraten hat von der Hormonbehandlung, anderen jedoch nicht. Solche Einflüsse können das Ergebnis der Untersuchung verzerren.
Eine retrospektive Betrachtungsweise kennzeichnet Fall-Kontroll-Studien. Eine typische Fragestellung ist, bei erkrankten Personen in der Vergangenheit nach Risikofaktoren oder Ursachen für die Erkrankung zu suchen. Als Kontrollgruppe dienen gesunde Probanden. Im Arzneimittelbereich könnten Studienplaner etwa Patienten mit Leberzirrhose danach befragen oder in den Krankenakten suchen, ob sie ein potenziell hepatotoxisches Arzneimittel eingenommen haben. Das Beispiel zeigt aber auch die Problematik von Fall-Kontroll-Studien: Die möglichen Ursachen für die aufgetretene Erkrankung können vielfältig sein, und häufig lassen sich die genauen Umstände im Nachhinein nicht mehr vollständig rekonstruieren.
Querschnittsstudien schließlich erfassen gleichzeitig Exposition und Ergebnis. Ein Beispiel: Eine Studie beobachtet, dass bei Frauen mit Arthrose häufiger Übergewicht auftritt als bei gelenksgesunden Frauen. Hier stellt sich die Frage: Führt das Übergewicht zu den Gelenkschäden oder sind Frauen mit Arthrose immobiler und nehmen deshalb an Gewicht zu?
Kein Beleg für Kausalität
Bei epidemiologischen Studien kann – außer der jeweils interessierenden Exposition – eine Reihe von Einflüssen zu dem beobachteten Ergebnis führen. Deshalb lässt sich auf der Basis dieser Studien in der Regel kein kausaler Zusammenhang zwischen der Exposition und dem Ergebnis herstellen. Zeigt eine Kohortenstudie beispielsweise, dass in der Gruppe mit Exposition das beobachtete Ergebnis häufiger vorkommt als in der Kontrollgruppe, sprechen Statistiker daher korrekt lediglich von einer Assoziation.
Epidemiologische Studien liefern keinen Wirksamkeitsnachweis für eine bestimmte Intervention. Sie können lediglich Anhaltspunkte für eine Hypothese geben (1, 2).
Missverständnis Nr. 2:
Randomisierte kontrollierte Studien haben doch keine Vorteile, sie sind nur komplizierter. Warum sollen sie bei Therapiestudien der »Goldstandard« sein?
Bei Interventionsstudien gibt es neben der eigentlichen Behandlung, etwa der Gabe eines bestimmten Medikaments, eine Reihe von Faktoren, die das Ergebnis beeinflussen können. Dazu zählen zum Beispiel der Gesundheitszustand oder das Krankheitsstadium des Patienten, weitere individuelle Parameter wie Ernährung, Alter und soziale Verhältnisse, der Einfluss des Arztes und die subjektive Einschätzung des Zustands. Diese Einflussfaktoren können zu einer systematischen Verzerrung (englisch: bias) der Ergebnisse führen, sodass der Effekt des Arzneimittels nicht sicher beurteilt werden kann. Deshalb werden sie auch als »Störfaktoren« (englisch: confounder) bezeichnet.
Bei RCT sollen die Prinzipien »Kontrollgruppe«, »Randomisierung mit verdeckter Zuteilung« und »Verblindung« systematische Verzerrungen möglichst ausschließen (Tabelle). Allerdings müssen die Prinzipien sachgerecht umgesetzt werden. Daher lohnt sich auch ein Blick in den Methodenteil der Studienpublikation.
Kontrollgruppe: Einflüsse erkennen
Wenn Forscher die Wirksamkeit eines Arzneimittels in einem RCT untersuchen, teilen sie die Patienten häufig in zwei Gruppen ein. Die Beobachtungsgruppe erhält das zu untersuchende Arzneimittel (häufig ein neues Präparat), die Kontrollgruppe eine bewährte Therapie oder – wenn ethisch gerechtfertigt – ein Placebo (Parallelgruppen-Design). Dabei wollen die Untersucher in der Regel nachweisen, dass das neue Arzneimittel besser wirkt als das Mittel in der Kontrollgruppe (Überlegenheitsstudie).
Möglichkeit der Verzerrung | Abhilfe durch qualitativ hochwertige RCT |
---|---|
Krankheitsbild verbessert sich von selbst, auch ohne Therapie | Kontrollgruppe: Unterscheidung zwischen der Wirkung der Therapie und Effekten anderer Ursache |
systematische Unterschiede in der Zusammensetzung der Gruppen, etwa Männer/Frauen, Ältere/Jüngere, Patienten mit leichteren oder schwereren Symptomen (Selektionsbias) | Randomisierung: zufällige und verdeckte Zuteilung der Patienten in eine Gruppe |
systematische Unterschiede in den Interventionen, etwa unterschiedliche Begleitmedikation oder Aufmerksamkeit des Pflegepersonals (Performance- Bias), systematische Unterschiede in der Bewertung der Ergebnisse (Beobachter-Bias) | Verblindung möglichst aller Beteiligten |
systematische Unterschiede zwischen den Gruppen bei Abweichungen vom Studienprotokoll (Attrition-Bias) | Intention-to-treat-Analyse |
Anhand von Kontrollgruppen können Statistiker berechnen, welcher Teil des Studienergebnisses auf das untersuchte Arzneimittel und welcher Teil auf andere Faktoren zurückzuführen ist. Solche anderen Faktoren sind etwa die Zuwendung in der Studie oder der natürliche Krankheitsverlauf. Ohne Kontrollgruppe können besonders bei Erkrankungen mit einer hohen Rate an Spontanheilungen (wie Erkältungshusten) oder progredientem Verlauf (wie Diabetes mellitus) Verzerrungen entstehen. Auch natürliche Schwankungen im Verlauf chronischer Erkrankungen (etwa wiederkehrende Schübe bei rheumatoider Arthritis) lassen sich durch Kontrollgruppen berücksichtigen.
Wichtig: Die Interventionen in der Behandlungs- und Kontrollgruppe müssen bis auf die untersuchte Therapie gleich sein. Dazu ist eine ausreichend detaillierte Beschreibung der Interventionen notwendig. Bei Studien, die eine neue Therapie mit der bisherigen Standardtherapie vergleichen, sollte man auch prüfen, ob die Standardtherapie nach dem Stand der Wissenschaft erfolgt. Eine zu niedrige Dosierung etwa verschafft dem neuen Präparat einen ungerechtfertigten Vorsprung bei der Wirksamkeit, während eine zu hohe Dosierung den Vergleich der Verträglichkeit verzerren kann (3).
Vorteile durch Randomisierung
Eine Randomisierung sorgt dafür, dass bekannte und unbekannte Störfaktoren möglichst gleichmäßig auf die Behandlungs- und die Kontrollgruppe verteilt sind und die Ausgangssituation in beiden Gruppen möglichst ähnlich ist. Ohne Randomisierung könnte es passieren, dass der entscheidende Arzt Patienten mit bestimmten Eigenschaften, etwa Risikofaktoren, bevorzugt einer der beiden Gruppen zuteilt.
Wenn bereits bekannt ist, dass bestimmte Faktoren wie Alter oder Rauchstatus das Ergebnis der Studie beeinflussen können, kann auch eine stratifizierte Randomisierung erfolgen. Damit wird der betreffende Faktor gleichmäßig auf die beiden Gruppen verteilt.
assessment: Beurteilung
assignment: Zuteilung (zu den Gruppen)
baseline data: Ausgangsdaten der Patienten zu Beginn der Studie
bias: systematische Verzerrung
case-control study: Fall-Kontroll-Studie
cohort study (longitudinal study): Kohortenstudie (Synonym: Längsschnittstudie)
concealment of allocation: verdeckte Zuteilung
confidence interval (CI): Konfidenzintervall, Vertrauensbereich
confounder: Störfaktor
drop-out: Studienabbrecher
eligibility criteria: Auswahlkriterien,
inclusion criteria: Einschlusskriterien
exclusion criteria: Ausschlusskriterien
enrollment: Aufnahme in die Studie
intention-to-treat: Auswerteverfahren, bei dem alle Teilnehmer in der ursprünglich zugeordneten Gruppe berücksichtigt werden
masking: Verblindung
measurement: Messung
monitoring: Überwachung
non-inferiority: Nicht-Unterlegenheit
observational study: Beobachtungsstudie
outcome: Zielgröße, Endpunkt, Ergebnis
per-protocol: Auswerteverfahren, bei dem nur die Teilnehmer berücksichtigt werden, die die Studie gemäß Studienplan beendet haben
power: statistische Trennschärfe der Studie
superiority: Überlegenheit
treatment: Behandlung
Wer klinische Studien lesen und verstehen will, muss einige englische Fachbegriffe kennen. Aber keine Angst: Das Vokabular ist relativ standardisiert und lässt sich leicht aneignen. Hier eine Auswahl der wichtigsten Begriffe, die im Methodenteil von klinischen Studien verwendet werden.
In allen Fällen ist es wichtig, dass Patienten und Behandler die Zugehörigkeit zu den Gruppen nicht erraten können. Das wäre zum Beispiel möglich, wenn die Zuteilung der Patienten alternierend oder nach Wochentag erfolgt. Deshalb erfolgt bei hochwertigen Studien die Randomisierung der Patienten nicht durch den Prüfarzt, sondern eine unabhängige Stelle erstellt einen Randomisierungsplan und weist die Patienten der entsprechenden Behandlung zu. In der Publikation sollten Details zur Randomisierungsmethode nicht fehlen, ebenso Angaben, wie die verdeckte Zuteilung gewährleistet wurde. Aufschluss über den Erfolg dieser Maßnahme liefert die Angabe der Basisdaten von Behandlungs- und Kontrollgruppe (englisch: baseline data) (4).
Unverzerrte Wahrnehmung
Während der gesamten Laufzeit der Studie ist es wichtig, dass alle Beteiligten nicht wissen, ob der Patient zur Behandlungs- oder Kontrollgruppe gehört. Diese »Verblindung« erfordert umfangreiche Maßnahmen (unter anderem identisches Aussehen der Medikamente). Damit soll gewährleistet werden, dass alle Patienten gleich behandelt werden.
Fehlt die Verblindung, können systematische Fehler auftreten: So könnte sich die Aufmerksamkeit von Ärzten und Pflegepersonen oder angebotene Maßnahmen unterscheiden, wenn die Beteiligten wissen, ob der Patient zur Behandlungs- oder zur Kontrollgruppe gehört. Dieses Wissen kann vor allem bei subjektiven Parametern wie Schmerzen die Wahrnehmung des Patienten beeinflussen. Aus Studien weiß man, dass es auch die Befunderhebung durch Ärzte verzerren kann. Auf der Ebene der Datenauswertung kann eine fehlende Verblindung beispielsweise beeinflussen, wie Statistiker mit unklaren Befunden oder fehlenden Daten umgehen (5).
Weil das Risiko für systematische Verzerrungen bei methodisch hochwertigen RCT im Vergleich zu anderen Studientypen am geringsten ist, gelten RCT für therapeutische Fragestellungen als Goldstandard.
Missverständnis Nr. 3:
Die Auswertung einer RCT zeigt, dass das Mittel den Cholesterolspiegel um 57 Prozent senkt. Das ist doch ein beeindruckendes Ergebnis.
Wer Studien kritisch beurteilen will, sollte unbedingt klären, wie groß der Behandlungseffekt tatsächlich war. Deshalb lohnt ein genauer Blick auf die Ergebnisse. Bei Studien zur Arzneimitteltherapie kommen am häufigsten binäre (Synonym: dichotome) oder kontinuierliche Endpunkte vor. Ein typischer binärer Endpunkt, der eine von zwei Ausprägungen annehmen kann, ist etwa die Mortalität (Patient ist verstorben oder nicht) oder ein kardiovaskuläres Ereignis (Patient hat einen Herzinfarkt erlitten oder nicht). Ein kontinuierlicher Endpunkt ist beispielsweise die Senkung des Cholesterolspiegels oder des Blutdrucks. Diese Größe kann viele verschiedene Werte innerhalb eines bestimmten Bereichs annehmen.
Bei binären Endpunkten lässt sich berechnen, wie stark die Intervention das Risiko für das Ereignis absolut oder relativ senkt (Kasten). Geworben wird oft mit relativen Angaben, da die Werte in der Regel höher sind. Aussagekräftiger sind jedoch die absoluten Angaben. Sie zeigen, wie häufig das Ereignis tatsächlich aufgetreten ist. Anschaulich ist die Number needed to treat (NNT): Sie beschreibt, wie viele Patienten mit dem Testpräparat in dem untersuchten Zeitraum behandelt werden müssen, um ein zusätzliches Ereignis im Vergleich zur Standardtherapie zu vermeiden (4).
Das Relative Risiko (RR) beschreibt das Risiko, dass ein Ereignis in der Behandlungsgruppe auftritt im Vergleich zur Kontrollgruppe.
RR = Ereignisrate in der Behandlungsgruppe : Ereignisrate in der Kontrollgruppe
Bei RR = 1 gibt es keinen Unterschied zwischen den Gruppen.
Die relative Risikoreduktion (RRR) beschreibt die relative Abnahme der Ereignisrate in der Behandlungsgruppe im Vergleich zur Kontrollgruppe.
RRR (%) = 100 x (1 – RR)
Die absolute Risikoreduktion (ARR) ist der Betrag (Absolutwert, ohne Vorzeichen) der Differenz der Ereignisraten von Behandlungs- und Kontrollgruppe.
ARR = |Ereignisrate in der Behandlungsgruppe – Ereignisrate in der Kontrollgruppe|
Die Number needed to treat (NTT) beschreibt die Anzahl der Patienten, die behandelt werden müssen, um das Ereignis zu vermeiden.
NNT = 1/ARR
Ein Beispiel: In einem RCT wird untersucht, ob ein neues Arzneimittel gegenüber der Standardtherapie bei Patienten mit Vorhofflimmern einen Schlaganfall verhindern kann. Jede Gruppe umfasst 2500 Patienten (insgesamt also 5000), die über einen Zeitraum von fünf Jahren behandelt werden. In der Behandlungsgruppe treten 75 Schlaganfälle auf, in der Kontrollgruppe 100.
RR= (75/2500) : (100/2500) = 0,75
RRR = 100 x (1 – 0,75) = 25 %
ARR = |(75/2500) – (100/2500)| = 0,01 oder 1 %
NNT = 1/0,01 = 100
Das neue Arzneimittel senkt das Risiko eines Schlaganfalls also relativ um 25 Prozent. Die absolute Risikoreduktion beträgt jedoch nur 1 Prozent. Anders ausgedrückt: Man muss 100 Patienten über einen Zeitraum von fünf Jahren mit dem neuen Arzneimittel statt der Standardtherapie behandeln, um einen Schlaganfall mehr zu verhindern.
In Fall-Kontroll-Studien kann kein relatives Risiko berechnet werden, sondern stattdessen wird das »Odds ratio« (Chancenverhältnis) berechnet. Die Interpretation erfolgt analog zum relativen Risiko: Ein Odds ratio von 1 bedeutet keinen Unterschied bei den Ergebnissen von Behandlungs- und Kontrollgruppe (4).
Handelt es sich bei dem Endpunkt um eine kontinuierliche Variable, finden sich dagegen andere Effektmaße. Bei einer Studie mit einem neuen Präparat zur Hypertoniebehandlung wird etwa angegeben, wie groß der mittlere Unterschied in der Blutdrucksenkung war (standardisierte Differenz der Mittelwerte).
Nur signifikant oder auch relevant?
Eine sorgfältige Planung und Ausführung der RCT soll systematische Fehler möglichst verhindern. Allerdings können die erhobenen Messwerte auch durch Zufallsfehler vom (unbekannten) wahren Wert abweichen. In Publikationen finden sich daher Angaben zur statistischen Sicherheit der Ergebnisse: Konfidenzintervalle (Synonym: Vertrauensbereiche) und p-Werte.
Das Konfidenzintervall wird so berechnet, dass der wahre Wert, etwa der Mittelwert, mit einer bestimmten Wahrscheinlichkeit (häufig 95 Prozent) innerhalb des angegebenen Bereichs liegt. Eine Irrtumswahrscheinlichkeit (auch als Fehler 1. Art oder α-Fehler bezeichnet) von 5 Prozent wird in Kauf genommen. Die Variabilität der Ergebnisse zwischen den Patienten und die Größe der Stichprobe beeinflussen die Breite des Konfidenzintervalls.
Häufig wird stattdessen oder zusätzlich der p-Wert angegeben. Er beschreibt die Wahrscheinlichkeit, dass der gefundene Unterschied zwischen den Behandlungsgruppen im durchgeführten statistischen Test nur zufällig zustande gekommen ist und in Wirklichkeit nicht existiert. Liegt der p-Wert unter 0,05, werden Unterschiede konventionsgemäß auch als »statistisch signifikant« bezeichnet.
Das bedeutet allerdings nicht automatisch, dass die Unterschiede auch klinisch relevant sind, die Behandlung dem Patienten also tatsächlich nützt. Deshalb lohnt sich bei statistisch signifikanten Unterschieden ein Blick auf das Konfidenzintervall. Ein Beispiel: Eine Studie vergleicht den Effekt zweier Antihypertonika auf den Blutdruck. Eine bessere Wirksamkeit des neuen Arzneimittels wird in der Studie nur angenommen, wenn der Unterschied zwischen Behandlungs- und Vergleichsgruppe mindestens 4 mmHg beträgt (Grenze für die klinische Relevanz). In der Auswertung ist der Unterschied zwischen den Gruppen zwar statistisch signifikant, doch umfasst das Konfidenzintervall einen Bereich zwischen 1 und 5 mmHg. Danach ist es nicht unplausibel, dass der wahre Wert auch unterhalb der Relevanzgrenze liegen könnte – ein eindeutiger Vorteil des neuen Arzneimittels lässt sich mit der Studie also nicht belegen (6).
Patientenrelevante Endpunkte
Eine wichtige Frage ist, ob es sich bei den untersuchten Endpunkten um eine Zielgröße handelt, die für den Patienten eine Rolle spielt (beispielsweise Sterblichkeit, Behinderung, Funktionalität) oder lediglich um Surrogatparameter. Häufig sind dies Laborparameter wie Blutdrucksenkung, HbA1c-Wert bei Diabetikern oder die Knochendichte bei Osteoporosepatienten.
Surrogatparameter sind beliebte Zielgrößen, weil die Studien in der Regel kürzer laufen als bei patientenrelevanten Endpunkten. Allerdings ist nicht immer klar, ob Surrogatparameter tatsächlich zuverlässige Stellvertreter für patientenrelevante Endpunkte sind. So hat eine Metaanalyse gezeigt, dass zwischen der kardiovaskulären Mortalität von Diabetikern und dem HbA1c-Wert keineswegs eine lineare Korrelation besteht (je niedriger der HbA1c, desto geringer die Mortalität), sondern dass auch eine zu starke Senkung des HbA1c-Werts die Mortalität ansteigen lässt (7).
Missverständnis Nr. 4:
In der Werbung für das Arzneimittel wird eine Reihe von randomisierten kontrollierten Studien mit patientenrelevanten Endpunkten zitiert. Dann ist die Wirksamkeit doch erwiesen, oder? Die Ergebnisse einer RCT gelten nur dann als zuverlässig, wenn das Studiendesign eine Verzerrung durch systematische Einflüsse so weit wie möglich ausschließt. Nicht alle systematischen Fehler lassen sich bereits durch Kontrollgruppe, Randomisierung und Verblindung verhindern. Daher sollte man auch auf Details der Planung, Durchführung und Auswertung achten (Kasten).
(Überlegenheitsstudien); Auswahl, modifiziert nach 4, 15
Fragen zum Studiendesign
Fragen zur Auswertung und Berichterstattung
So sollten die Autoren die Zielstellung der Studie sowie die Ein- und Ausschlusskriterien für die Patienten genau definieren. Diese Angaben sind wichtig, wenn es um die Übertragbarkeit der Ergebnisse auf einen konkreten Patienten geht. Details sind auch für die Zielgrößen, etwa Mortalität, Blutdrucksenkung oder Amputationsrate, und die jeweiligen Methoden zur Erfassung notwendig. Häufig gibt es einen primären Endpunkt und mehrere sekundäre Endpunkte.
Bei einer sorgfältig geplanten Studie führen die Autoren vor Beginn eine Fallzahlplanung durch. Das ist wichtig, damit einerseits ein Unterschied zwischen den Behandlungsgruppen auch statistisch signifikant nachgewiesen werden kann, andererseits aber nicht zu viele Patienten in die Studie eingeschlossen werden (ethische und finanzielle Aspekte). In die Berechnung gehen die erwarteten Effekte und Streuung, das angestrebte Signifikanzniveau sowie die statistische Trennschärfe (englisch: power) der Studie ein. Bei Studien besteht immer ein Risiko, vorhandene Unterschiede zwischen den Behandlungsgruppen nicht festzustellen (auch als Fehler 2. Art oder β-Fehler bezeichnet). Die Power einer Studie berechnet sich als 1 – β, angestrebt wird häufig ein Wert von 80 Prozent (8).
Für die Beurteilung von RCT spielt die Fallzahlplanung auch deshalb eine Rolle, weil sie sich in der Regel nur auf den primären Endpunkt bezieht und die statistischen Tests (Signifikanztests) im strengen Sinn auch nur für diese Zielgröße aussagekräftig sind.
Je mehr statistische Tests bei der Studienauswertung vorgenommen werden, desto größer ist das Risiko für ein zufällig signifikantes Ergebnis, das in Wirklichkeit nicht existiert. Das müssen die Autoren in ihren Schlussfolgerungen entsprechend berücksichtigen. Deshalb sollte man misstrauisch sein, wenn sich in einer Studie kein Unterschied bei dem primären Endpunkt findet, die Autoren sich in der Diskussion aber auf Unterschiede bei den sekundären Endpunkten konzentrieren – das ist in vielen Fällen nicht aussagekräftig (3).
Aufgepasst bei Subgruppenanalysen
Gleiches gilt, wenn die Autoren bei der Auswertung zahlreiche Subgruppenanalysen ausführen. In den meisten Fällen lässt sich damit keine zulässige Aussage für bestimmte Untergruppen der untersuchten Patienten treffen, besonders wenn die Subgruppen erst nach Erhebung der Daten gebildet wurden. Experten fordern daher, die Zahl der Subgruppenanalysen in einer Studie zu beschränken, die Subgruppen vor Beginn der Studie zu spezifizieren und im Idealfall bei der Fallzahlplanung zu berücksichtigen (etwa im Rahmen einer stratifizierten Randomisierung).
Ebenso ist ein angemessenes Auswerteverfahren notwendig (Interaktionstest statt multiplem Testen von Hypothesen). Sinnvolle Subgruppen beziehen sich auf Parameter, die bereits vor Beginn der Studie vorhanden waren, etwa Altersgruppen oder bestimmte Risikogruppen.
Ein beliebter Trick besteht darin, bei einem nicht signifikanten Ergebnis der gesamten Studienpopulation nach einer speziellen Subgruppe zu suchen, bei der man zufällig ein signifikantes Ergebnis findet, und die anderen Subgruppen zu verschweigen (9, 10). Dies kann zu abstrusen Resultaten führen. Das haben Autoren einer Studie zur Behandlung des Myokardinfarkts sehr anschaulich demonstriert. Bei Patienten, die unter dem Sternzeichen Zwillinge oder Waage geboren waren, gab es keinen Hinweis auf einen Nutzen von Acetylsalicylsäure, während Patienten mit anderen Sternzeichen signifikant davon profitierten (10).
Zwischenanalysen und Studienabbrecher
Aufmerksamkeit ist auch geboten, wenn eine Studie vorzeitig abgebrochen wurde, ohne dass vorher entsprechende Kriterien definiert waren. Das gilt besonders dann, wenn der Grund für den Abbruch ein vermeintlich hoher Therapieeffekt in der Behandlungsgruppe war, der in Zwischenanalysen auffiel, aber nur auf relativ wenigen Ereignissen beruht (11).
Interessant ist auch, wie Ergebnisse von Patienten berücksichtigt wurden, die vom Studienprotokoll abgewichen sind, etwa die Therapie nicht wie verordnet durchgeführt haben, zu Untersuchungen nicht erschienen sind oder ihre Teilnahme abgebrochen haben (Drop-outs). Werden nur die Daten von Patienten ausgewertet, die gemäß Studienprotokoll behandelt wurden (Per-protocol-Analyse), resultiert eine Überschätzung der Wirkung und eine Unterschätzung der Nebenwirkungen in der Behandlungsgruppe. Denn vielleicht haben Patienten in einer Studie zu einem Arthrosepräparat ihre Teilnahme beendet, weil das neue Medikament die Knieschmerzen nicht ausreichend gelindert oder zu starken Magenbeschwerden geführt hat. Daher sollte die Analyse immer die Daten aller Patienten umfassen und zwar in der Gruppe, der sie ursprünglich zugeteilt waren. Dieses Vorgehen bezeichnet man als Intention-to-treat-Analyse (12).
Spezialfall: Nicht-Unterlegenheitsstudien
Die beschriebenen Kriterien beziehen sich im Allgemeinen auf Überlegenheitsstudien. Gelegentlich gibt es aber auch Studiendesigns, bei denen eine Nicht-Unterlegenheit des untersuchten Arzneimittels gegenüber einer bewährten Therapie gezeigt werden soll.
Hier sollte man besonders aufmerksam sein: So darf sich die statistische Auswertung nicht darauf beschränken, die Überlegenheit der bewährten Therapie nicht nachweisen zu können. Vielmehr ist ein expliziter Test auf Nicht-Unterlegenheit erforderlich. Dabei werden vor der Datenerhebung Äquivalenzgrenzen definiert.
Bei Nicht-Unterlegenheitsstudien ist eine angemessene Fallzahlplanung wichtig, da eine unzureichende Fallzahl vorhandene Unterschiede zwischen den Behandlungen leicht verwischen kann. Auch Abweichungen vom Studienprotokoll verringern die eventuell vorhandenen Unterschiede zwischen den untersuchten Medikamenten. Deshalb kann eine Intention-to-treat-Analyse, wie sie bei Überlegenheitsstudien bevorzugt wird, möglicherweise in die Irre führen. Empfohlen wird zusätzlich eine Per-protocol-Analyse. Als vertrauenswürdig gelten die Ergebnisse der Nicht-Unterlegenheitsstudie, wenn beide Analysen nicht gravierend voneinander abweichen (13, 14). /
Iris Hinneburg studierte Pharmazie an der Philipps-Universität Marburg und wurde an der Martin-Luther-Universität Halle-Wittenberg promoviert. Nach Tätigkeiten in Forschung und Lehre in Halle und Helsinki (Finnland) arbeitet sie heute freiberuflich als Medizinjournalistin. Ihr Schwerpunkt ist die pharmazeutische Fortbildung. Sie ist Fachbuchautorin und produziert einen Podcast mit Themen aus Medizin und Pharmazie für die Fortbildung in der Apotheke. Derzeit gibt es dort eine Themenreihe zur Evidenzbasierten Pharmazie.
Dr. Iris Hinneburg, Wegscheiderstraße 12, 06110 Halle (Saale), www.medizinjournalistin.blogspot.com