Zum Inhalt

Probleme des p-Werts

Eine kompakte Diagnose: was der p-Wert ist, was er nicht ist, und welche Konsequenzen seine Fehlinterpretation für Wissenschaft und Praxis hat.

7 verbreitete Fehlinterpretationen, alle systematisch falsch.
61 % Falsch-positiv-Rate beim Kombinieren üblicher fragwürdiger Forschungspraktiken (QRPs).
~ 90 % der Forschenden interpretieren mindestens eine Aussage zum p-Wert falsch (Haller & Krauss, 2002).
.05 eine willkürliche Schwelle, die zur Trennung von „wahr" und „falsch" geworden ist.

Was der p-Wert tatsächlich bedeutet

Der p-Wert ist die Wahrscheinlichkeit, ein mindestens so extremes Ergebnis wie das beobachtete zu sehen, wenn die Nullhypothese wahr wäre und alle Modellannahmen zutreffen.

Er sagt nichts darüber,

  • wie wahrscheinlich die Nullhypothese ist,
  • wie wahrscheinlich deine Alternativhypothese ist,
  • wie groß der gefundene Effekt ist,
  • wie wichtig oder bedeutsam der Effekt ist,
  • wie wahrscheinlich es ist, das Ergebnis zu replizieren,
  • oder ob ein Effekt überhaupt existiert.

Die sieben verbreitetsten Fehlinterpretationen

1. „Der p-Wert ist die Wahrscheinlichkeit, dass die Nullhypothese wahr ist."

Falsch. Der p-Wert ist eine bedingte Wahrscheinlichkeit der Daten unter Annahme der Nullhypothese, nicht die Wahrscheinlichkeit der Hypothese selbst. Was du eigentlich wissen willst, also P(H | Daten), liefert nur die bayesianische Inferenz.

2. „p < .05 bedeutet, der Effekt ist real."

Falsch. Selbst bei wahrer Nullhypothese produzieren per Konstruktion 5 % aller Studien einen p-Wert < .05. Mit selektivem Reporting steigt diese Rate dramatisch.

3. „p < .05 bedeutet, der Effekt ist groß oder wichtig."

Falsch. Der p-Wert hängt von Effektgröße und Stichprobengröße ab. Mit ausreichend großer Stichprobe wird auch ein winziger, praktisch irrelevanter Effekt signifikant.

4. „1 − p ist die Replikationswahrscheinlichkeit."

Falsch. Ob sich ein Befund replizieren lässt, hängt von wahrer Effektstärke und Stichprobenqualität ab, nicht vom p-Wert der Originalstudie. Diese Fehlannahme ist eine der schädlichsten Folgen der Signifikanz-Ritualisierung.

5. „p ist die Wahrscheinlichkeit, dass das Ergebnis Zufall war."

Falsch. Der p-Wert beschreibt eine bedingte Häufigkeit unter unendlich vielen hypothetischen Wiederholungen, keine Aussage über dein konkretes Ergebnis.

6. „Nicht-signifikant bedeutet kein Effekt."

Falsch. „Absence of evidence is not evidence of absence." Nicht-signifikante Ergebnisse können auch durch zu kleine Stichproben oder zu hohes Rauschen entstehen. Bayesianische Analysen liefern hier echte Evidenz für die Nullhypothese, der Signifikanztest nicht.

7. „Konfidenzintervalle sind eine bessere Variante des p-Werts."

Halb richtig. Konfidenzintervalle zeigen wenigstens die Effektgröße. Aber die intuitive Lesart („der wahre Wert liegt mit 95 % Wahrscheinlichkeit im Intervall") ist ebenfalls falsch. Erst Glaubwürdigkeitsintervalle (HDI/CrI) aus der bayesianischen Inferenz erlauben genau diese Interpretation.

Warum das wichtig ist

Publikationsbias

Signifikante Ergebnisse werden bevorzugt publiziert, die Literatur verzerrt sich systematisch. Effekte werden im Mittel überschätzt; Replikationen scheitern, weil sie mit realistischeren (kleineren) Effekten arbeiten.

Fragwürdige Forschungspraktiken (QRPs)

Die Jagd nach p < .05 fördert p-Hacking, optionale Tests, selektives Reporting und HARKing. Simmons et al. (2011) zeigen: durch übliche QRPs steigt die effektive Falsch-positiv-Rate von 5 % auf bis zu 61 %.

Praktische Konsequenzen

„The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives." Ziliak und McCloskey (2008)

Therapien, Maßnahmen und politische Entscheidungen stützen sich auf „signifikante" Ergebnisse, die in Wahrheit Zufallsbefunde sind oder Effekte beschreiben, die für die Praxis irrelevant klein sind.

Was tun?

Übungs-Kapitel: direkt anwenden

Diese Workshop-Kapitel vertiefen das Thema mit interaktiven Beispielen im Browser:

Schlüsselliteratur

Quelle Worum es geht
Cohen, J. (1994). The earth is round (p < .05). Klassische Polemik gegen die Schwellen-Logik
Wasserstein & Lazar (2016) Offizieller ASA-Konsens zu p-Werten
Simmons, Nelson & Simonsohn (2011) Wie QRPs die Falsch-positiv-Rate sprengen
Haller & Krauss (2002) Empirischer Beleg, dass selbst Methoden-Lehrende falsch interpretieren
Meehl, P. E. (1978) "...one of the worst things that ever happened in the history of psychology"

→ Vollständige Liste in den Ressourcen.

Tieferer Einstieg

Der ausführliche Antragstext zum Pioniervorhaben steht im internen Bereich zur Verfügung. Bei Interesse Kontakt aufnehmen.