Probleme des p-Werts
Eine kompakte Diagnose: was der p-Wert ist, was er nicht ist, und welche Konsequenzen seine Fehlinterpretation für Wissenschaft und Praxis hat.
Was der p-Wert tatsächlich bedeutet
Der p-Wert ist die Wahrscheinlichkeit, ein mindestens so extremes Ergebnis wie das beobachtete zu sehen, wenn die Nullhypothese wahr wäre und alle Modellannahmen zutreffen.
Er sagt nichts darüber,
- wie wahrscheinlich die Nullhypothese ist,
- wie wahrscheinlich deine Alternativhypothese ist,
- wie groß der gefundene Effekt ist,
- wie wichtig oder bedeutsam der Effekt ist,
- wie wahrscheinlich es ist, das Ergebnis zu replizieren,
- oder ob ein Effekt überhaupt existiert.
Die sieben verbreitetsten Fehlinterpretationen
1. „Der p-Wert ist die Wahrscheinlichkeit, dass die Nullhypothese wahr ist."
Falsch. Der p-Wert ist eine bedingte Wahrscheinlichkeit der Daten unter Annahme der Nullhypothese, nicht die Wahrscheinlichkeit der Hypothese selbst. Was du eigentlich wissen willst, also P(H | Daten), liefert nur die bayesianische Inferenz.
2. „p < .05 bedeutet, der Effekt ist real."
Falsch. Selbst bei wahrer Nullhypothese produzieren per Konstruktion 5 % aller Studien einen p-Wert < .05. Mit selektivem Reporting steigt diese Rate dramatisch.
3. „p < .05 bedeutet, der Effekt ist groß oder wichtig."
Falsch. Der p-Wert hängt von Effektgröße und Stichprobengröße ab. Mit ausreichend großer Stichprobe wird auch ein winziger, praktisch irrelevanter Effekt signifikant.
4. „1 − p ist die Replikationswahrscheinlichkeit."
Falsch. Ob sich ein Befund replizieren lässt, hängt von wahrer Effektstärke und Stichprobenqualität ab, nicht vom p-Wert der Originalstudie. Diese Fehlannahme ist eine der schädlichsten Folgen der Signifikanz-Ritualisierung.
5. „p ist die Wahrscheinlichkeit, dass das Ergebnis Zufall war."
Falsch. Der p-Wert beschreibt eine bedingte Häufigkeit unter unendlich vielen hypothetischen Wiederholungen, keine Aussage über dein konkretes Ergebnis.
6. „Nicht-signifikant bedeutet kein Effekt."
Falsch. „Absence of evidence is not evidence of absence." Nicht-signifikante Ergebnisse können auch durch zu kleine Stichproben oder zu hohes Rauschen entstehen. Bayesianische Analysen liefern hier echte Evidenz für die Nullhypothese, der Signifikanztest nicht.
7. „Konfidenzintervalle sind eine bessere Variante des p-Werts."
Halb richtig. Konfidenzintervalle zeigen wenigstens die Effektgröße. Aber die intuitive Lesart („der wahre Wert liegt mit 95 % Wahrscheinlichkeit im Intervall") ist ebenfalls falsch. Erst Glaubwürdigkeitsintervalle (HDI/CrI) aus der bayesianischen Inferenz erlauben genau diese Interpretation.
Warum das wichtig ist
Publikationsbias
Signifikante Ergebnisse werden bevorzugt publiziert, die Literatur verzerrt sich systematisch. Effekte werden im Mittel überschätzt; Replikationen scheitern, weil sie mit realistischeren (kleineren) Effekten arbeiten.
Fragwürdige Forschungspraktiken (QRPs)
Die Jagd nach p < .05 fördert p-Hacking, optionale Tests, selektives Reporting und HARKing. Simmons et al. (2011) zeigen: durch übliche QRPs steigt die effektive Falsch-positiv-Rate von 5 % auf bis zu 61 %.
Praktische Konsequenzen
„The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives." Ziliak und McCloskey (2008)
Therapien, Maßnahmen und politische Entscheidungen stützen sich auf „signifikante" Ergebnisse, die in Wahrheit Zufallsbefunde sind oder Effekte beschreiben, die für die Praxis irrelevant klein sind.
Was tun?
Effektgrößen berichten
Standardisiert und unstandardisiert, immer mit Glaubwürdigkeitsintervall.
Präzision planen, nicht Power
Wie schmal soll dein Intervall werden? Direkter, ehrlicher, planbarer.
Bayesianisch denken
Wahrscheinlichkeiten für Hypothesen, die Frage, die du eigentlich stellst.
Übungs-Kapitel: direkt anwenden
Diese Workshop-Kapitel vertiefen das Thema mit interaktiven Beispielen im Browser:
Fehlinterpretationen und binäres Denken
Theorie + interaktive Browser-App. ↗ extern.
02 Beyond Significancep-Wert und Stichprobengröße
Theorie + interaktive Browser-App. ↗ extern.
06 Beyond SignificancePublikationsbias
Theorie + interaktive Browser-App. ↗ extern.
03 Repräsentativität & Stichprobengrößep-Hacking und falsch-positive Ergebnisse
Theorie + interaktive Browser-App. ↗ extern.
Schlüsselliteratur
| Quelle | Worum es geht |
|---|---|
| Cohen, J. (1994). The earth is round (p < .05). | Klassische Polemik gegen die Schwellen-Logik |
| Wasserstein & Lazar (2016) | Offizieller ASA-Konsens zu p-Werten |
| Simmons, Nelson & Simonsohn (2011) | Wie QRPs die Falsch-positiv-Rate sprengen |
| Haller & Krauss (2002) | Empirischer Beleg, dass selbst Methoden-Lehrende falsch interpretieren |
| Meehl, P. E. (1978) | "...one of the worst things that ever happened in the history of psychology" |
→ Vollständige Liste in den Ressourcen.
Tieferer Einstieg
Der ausführliche Antragstext zum Pioniervorhaben steht im internen Bereich zur Verfügung. Bei Interesse Kontakt aufnehmen.