Bildung2026-04-107 Min. Lesezeit

p-Werte und statistische Signifikanz in der medizinischen Forschung

Was ist ein p-Wert?

Der p-Wert ist eine der am häufigsten verwendeten und am häufigsten missverstandenen Statistiken in der medizinischen Forschung. Die formale Definition: Der p-Wert ist die Wahrscheinlichkeit, Ergebnisse zu beobachten, die mindestens so extrem sind wie die gefundenen, unter der Annahme, dass die Nullhypothese wahr ist. Die Nullhypothese lautet normalerweise "Es gibt keinen Effekt" oder "Die beiden Behandlungen sind gleich." Ein kleiner p-Wert bedeutet: Wenn es wirklich keinen Effekt gäbe, wäre es sehr unwahrscheinlich, so extreme Ergebnisse zufällig zu sehen. Ein p-Wert von 0,03 bedeutet: Wenn die Nullhypothese wahr wäre, würden Sie so extreme oder noch extremere Ergebnisse nur 3% der Zeit durch Zufall sehen.

Was p < 0,05 NICHT bedeutet

Der Schwellenwert p < 0,05 ist tief in der medizinischen Forschung verankert, wird aber oft falsch interpretiert: **p < 0,05 bedeutet NICHT:** - Es gibt eine 95%ige Chance, dass das Ergebnis korrekt ist - Die Behandlung funktioniert definitiv - Der Effekt ist klinisch bedeutsam - Die Studie wird sich wiederholen lassen - Die Nullhypothese ist falsch **p < 0,05 BEDEUTET:** - Wenn die Nullhypothese wahr wäre, würden so extreme Ergebnisse weniger als 5% der Zeit durch Zufall auftreten - Der Befund erfüllt einen willkürlichen Schwellenwert für "statistische Signifikanz" Der 0,05-Schwellenwert wurde in den 1920er Jahren von Ronald Fisher als Faustregel gewählt — nicht als grundlegendes Naturgesetz.

Statistische Signifikanz vs. klinische Signifikanz

Ein statistisch signifikantes Ergebnis ist nicht notwendigerweise klinisch bedeutsam. **Beispiel:** Eine große Studie mit 50.000 Patienten stellt fest, dass ein neues Medikament den Blutdruck um 1 mmHg senkt (p = 0,0001). Dies ist hochgradig statistisch signifikant, aber klinisch bedeutungslos — ein Unterschied von 1 mmHg hat keine Auswirkungen auf kardiovaskuläre Ergebnisse. Umgekehrt findet eine kleine Studie mit 30 Patienten, dass ein Medikament die Tumorgröße um 40% reduziert (p = 0,08). Dies verfehlt den 0,05-Schwellenwert, kann aber einen tatsächlich wichtigen Effekt darstellen, der weitere Untersuchungen verdient. Fragen Sie immer: Was ist die Effektgröße? Ist sie klinisch bedeutsam? Was ist das Konfidenzintervall? Schließt es den minimal klinisch wichtigen Unterschied ein?

Konfidenzintervalle sind informativer

Ein 95%-Konfidenzintervall (KI) sagt Ihnen mehr als ein p-Wert allein. Wenn das 95%-KI für eine Odds Ratio 1,2 bis 3,4 beträgt: - Die beste Schätzung ist der Mittelpunkt (ungefähr 2,0) - Sie können mit 95%iger Sicherheit sagen, dass der wahre Effekt zwischen 1,2 und 3,4 liegt - Da 1,0 (kein Effekt) ausgeschlossen ist, ist das Ergebnis statistisch signifikant Konfidenzintervalle kommunizieren: - Die Richtung des Effekts - Die Größenordnung des Effekts - Die Präzision der Schätzung - Ob der Effekt klinisch bedeutsam ist Ein KI, das von 0,9 bis 12,0 reicht, ist technisch signifikant, wenn 1,0 ausgeschlossen ist, aber der riesige Bereich sagt Ihnen, dass die Schätzung sehr ungenau ist.

Mehrfachvergleiche und das Problem des P-Hackings

Wenn Sie 20 statistische Tests durchführen und p < 0,05 als Schwellenwert verwenden, würden Sie 1 "signifikantes" Ergebnis rein durch Zufall erwarten — auch wenn tatsächlich nichts passiert. Dies wird als Mehrfachvergleichsproblem bezeichnet und führt zu P-Hacking: viele Analysen durchführen und selektiv diejenigen berichten, die p < 0,05 erreichen. Um dies anzugehen: - **Bonferroni-Korrektur**: Teilen Sie den Schwellenwert durch die Anzahl der Vergleiche (z. B. 0,05/10 = 0,005) - **Vorregistrierung**: Verpflichten Sie sich zu Ihrem primären Ergebnis, bevor Sie Daten sammeln - **False Discovery Rate (FDR)**: Kontrolliert den erwarteten Anteil falsch positiver Ergebnisse Wenn Sie eine Studie mit mehreren Ergebnissen lesen, prüfen Sie, ob das primäre Ergebnis vorher festgelegt wurde und ob Korrekturen für mehrfache Vergleiche angewendet wurden.

Über p-Werte hinaus: Effektgrößen

Die American Statistical Association und viele Zeitschriften empfehlen jetzt, über binäre p < 0,05-Entscheidungen hinauszugehen und Effektgrößen mit Konfidenzintervallen zu berichten. Gängige Effektgrößenmaße: - **Cohens d**: Standardisierte mittlere Differenz (d = 0,2 klein, 0,5 mittel, 0,8 groß) - **Odds Ratio (OR)**: Verhältnis der Odds des Ergebnisses bei Exponierten vs. Nicht-Exponierten - **Relatives Risiko (RR)**: Verhältnis des Risikos in behandelter vs. Kontrollgruppe - **Absolute Risikoreduktion (ARR)**: Differenz der Ereignisraten (klinisch am intuitivsten) - **Number Needed to Treat (NNT)**: 1/ARR — wie viele Patienten müssen behandelt werden, damit einer profitiert MetaLens AI extrahiert und zeigt diese Effektgrößen aus veröffentlichten Abstracts an und gibt Ihnen ein reicheres Bild als p-Werte allein.

Bereit für KI-gestützte Meta-Analyse?

MetaLens AI kostenlos testen