Effekte & Effektgrößen
Frage 01, beantwortet. Wie groß ist der Effekt? Was er für Theorie, Praxis und Forschungsprogramm bedeutet, ergibt sich erst aus dieser Größe, nicht aus einem p-Wert.
Warum Effektgrößen?
Ein p-Wert verrät dir, wie überraschend deine Daten unter einer Annahme wären, aber nicht, wie groß der Unterschied oder Zusammenhang tatsächlich ist. Genau das ist jedoch die Frage, die für Theoriebildung und Praxisentscheidungen zählt.
Cohen, 1994
„The primary product of a research inquiry is one or more measures of effect size, not p values."
Zwei Familien
Unstandardisierte Effekte
In den Einheiten deiner Messung. Z. B. „die Therapie reduziert Depressionswerte im BDI-II um 4,2 Punkte". Direkt interpretierbar, wenn deine Skala gut bekannt ist.
Standardisierte Effektgrößen
Skalenfrei, vergleichbar über Studien hinweg. Cohen's d, Hedges' g, η², r, die gemeinsame Sprache der Meta-Analyse.
Die wichtigsten Effektgrößen-Maße
Cohen's d
Differenz zweier Mittelwerte, geteilt durch die gepoolte Standardabweichung. Klassiker für Vergleich zweier Gruppen.
Hedges' g
Variante von d mit Korrektur für kleine Stichproben. In der Meta-Analyse oft bevorzugt.
η² · ω² · partial η²
Anteil aufgeklärter Varianz. ω² ist weniger verzerrt; partial η² wird in mehrfaktoriellen Designs berichtet.
Pearson's r
Stärke und Richtung eines linearen Zusammenhangs zweier Variablen.
Odds Ratio · Risk Ratio
Standard für binäre Outcomes, vor allem in Medizin und Epidemiologie.
Common Language Effect Size
Wahrscheinlichkeit, dass ein zufälliger Wert aus Gruppe A größer ist als aus Gruppe B. Sehr gut kommunizierbar.
Cohens Klassifikation: mit Vorbehalt
Jacob Cohen schlug 1988 die Einteilung klein/mittel/groß vor, als grobe Orientierung, wenn keine fachspezifischen Vergleichswerte vorliegen. In der Praxis wird sie häufig als Naturgesetz fehlinterpretiert.
Domänenwissen schlägt Faustregel
Was als „klein" oder „groß" gilt, hängt vom Forschungsfeld ab. Ein d = 0.2 für eine Suizidpräventions-Intervention ist riesig. Ein d = 0.5 für ein neues Lernformat in einem etablierten Fachgebiet ist eher mittelmäßig. Vergleiche immer mit publizierten Effekten in deiner Subdisziplin.
Empirische Verteilungen für viele Subdisziplinen findest du in:
- Schäfer & Schwarz (2019). The meaningfulness of effect sizes in psychological research. Frontiers in Psychology.
Effektgrößen mit Unsicherheit
Eine Effektgröße ohne Intervall ist nur die halbe Geschichte. Berichte immer:
- Punktschätzer (z. B. d = 0.42)
- Intervall (z. B. 95 % CI [0.18, 0.66] oder bayesianisch HDI [0.20, 0.65])
- Modellannahmen und Effektgrößen-Variante (z. B. korrigiert für kleine Stichproben)
Cheatsheet: welche Effektgröße wann?
| Design | Empfohlene Effektgröße |
|---|---|
| Vergleich zweier Mittelwerte | Cohen's d (oder Hedges' g) |
| Vergleich von Mittelwerten + Anova | ω² oder partial η² |
| Linearer Zusammenhang | Pearson's r |
| Nicht-linearer / Rang-Zusammenhang | Spearman's ρ, Kendall's τ |
| 2×2-Tabelle | Odds Ratio, Phi |
| Klinische Risiken | Risk Ratio, Number Needed to Treat |
| Kommunikation für Laien | Common Language Effect Size |
Bayesianisches Pendant
Auch im bayesianischen Workflow sind Effektgrößen zentral. Du erhältst sie als Posterior-Verteilung über den Effekt (nicht nur als Punktschätzer). Damit lassen sich direkt Aussagen formulieren wie: „Mit 92 % Wahrscheinlichkeit ist der Effekt mindestens d = 0.3."
→ Mehr dazu in der Bayesianischen Datenanalyse.
Übungs-Kapitel: direkt anwenden
Diese Workshop-Kapitel vertiefen das Thema mit interaktiven Beispielen im Browser:
Unstandardisierte Effekte
Theorie + interaktive Browser-App. ↗ extern.
04 Beyond SignificanceStandardisierte Effektgrößen
Theorie + interaktive Browser-App. ↗ extern.
05 Beyond SignificancePraktische Bedeutsamkeit
Theorie + interaktive Browser-App. ↗ extern.
02 Beyond Significancep-Wert und Stichprobengröße
Theorie + interaktive Browser-App. ↗ extern.
Interaktiver Effektgrößen-Rechner
Wir bauen einen kleinen Web-Rechner, mit dem du Effektgrößen aus üblichen Berichts-Statistiken (t, F, χ², r) konvertieren und visualisieren kannst, inklusive Glaubwürdigkeitsintervall.