ANOVA – die Varianzanalyse einfach erklärt

Einleitung


Die ANOVA ist ein statistisches Verfahren, mit dem man analysieren kann, ob sich Mittelwerte signifikant voneinander unterscheiden. Im Gegensatz zum ähnlichen t-Test, lässt sich die ANOVA für den Vergleich von mehr als zwei Stichproben verwenden.

In diesem Artikel wird erklärt, was eine ANOVA ist, wofür man sie verwendet, welche Arten es gibt und wie man sie durchführt.

ANOVA


ANOVA einfach erklärt

Die ANOVA, oder auch Varianzanalyse, ist ein multivariantes Analyseverfahren, das die Mittelwerte von mehreren verschiedenen Stichproben miteinander vergleicht.

Der Name ANOVA stammt vom englischen Begriff „Analysis of variance“ ab, was in diesem Zusammenhang etwas irreführend ist. Bei der ANOVA werden keine Varianzen, sondern Mittelwerte miteinander verglichen. Dennoch spielt die Varianz eine entscheidende Rolle, denn es werden verschiedene Teile davon sowie deren Verhältnisse hergenommen, um Rückschlüsse auf die Gleich- oder Ungleichheit von Mittelwerten zu ziehen.

Durch den Vergleich mehrerer Mittelwerte, kann man die Varianzanalyse als Erweiterung des t-Tests verstehen. Die Durchführung beliebig vieler t-Tests anstatt einer ANOVA würde aufgrund von mathematischen Problemen nicht funktionieren.

Die ANOVA hat allerdings einen entscheidenden Nachteil. Sie liefert lediglich das Ergebnis, ob sich die Mittelwerte der betrachteten Gruppen signifikant voneinander unterscheiden. Sie sagt jedoch nichts darüber aus, welche Gruppen sich voneinander unterscheiden. Hierfür sind weitere Tests, sogenannte Nachfolgenanalysen oder Post-Hoc Tests notwendig.

Variablen, Faktor, Faktorstufen und Effekt


Bevor wir nun auf die Arten und die Durchführung eingehen, müssen zuerst einige Begriffe erklärt werden.

Die wichtigsten Grundbegriffe sind die abhängige und die unabhängige Variable. In der unabhängigen Variablen (UV) unterscheiden sich die Stichproben voneinander. Die abhängige Variable (AV) ist diejenige, die man untersuchen möchte und deren mittlere Ausprägung verglichen werden soll. Neben der Erklärung, dass man mit einer Varianzanalyse Mittelwerte miteinander vergleichen kann, liest man auch häufig die Definition, dass die ANOVA den Einfluss von einer unabhängigen auf eine abhängige Variable untersucht. Während die unabhängige Variable immer nominalskaliert ist, ist die abhängige Variable intervallskaliert.

  • Ziel der ANOVA ist es, einen möglichst großen Teil der Varianz durch die unabhängige Variable zu erklären.

Weitere relevante Begriffe sind der Faktor, die Faktorstufe und der Effekt:

  • Faktor: Die unabhängige Variable wird als Faktor bezeichnet.
  • Faktorstufe: Die verschiedenen Ausprägungen des Faktors werden als Stufen bezeichnet.
  • Effekt: Kann man mit Hilfe der ANOVA erklären, dass sich die Mittelwerte unterscheiden, nennt man dies Effekt.

Beispiel

Wir möchten wissen, ob sich das Einkommen in den Städten Hamburg, Berlin und München unterscheidet bzw. ob der Wohnort einen Einfluss auf das Einkommen hat. Die Stadt ist dabei der Faktor (unabhängige Variable) und das Einkommen die abhängige Variable, von der ich wissen möchte, wodurch sie beeinflusst wird. Hamburg, Berlin und München sind die Ausprägungen, also die drei Faktorstufen.

Sollten sich also die Einkommen unterscheiden, hat der Wohnort einen Effekt auf das Einkommen.

Arten der ANOVA


Je nachdem welche Daten man nach welchem Modell und wie viele Faktoren man untersucht, gibt es mehrere Arten der Varianzanalyse. Am häufigsten werden die einfaktorielle und die zweifaktorielle Varianzanalyse durchgeführt.

Während nahezu alle Varianzanalysen von einer abhängigen Variablen ausgehen, kann man bei der mehrfaktoriellen ANOVA (MANOVA) mit mehreren AVs rechnen. Da die MANOVA jedoch ein sehr komplexes Verfahren ist, gehen wir an dieser Stelle nicht näher darauf ein.

Arten der ANOVA

Durchführung


Da sich die ANOVA lediglich in der Anzahl der zu vergleichenden Mittelwerte vom t-Test unterscheidet, ist auch die Vorgehensweise zur Durchführung sehr ähnlich. Eine Varianzanalyse lässt sich ebenfalls manuell über Formeln oder über Programme wie SPSS, Excel, Google Tabellen oder andere Tabellenkalkulationsprogramme durchführen.

Zu Beginn wird auf Basis der Fragestellung eine oder mehrere Hypothesen aufgestellt. Im Falle der automatisierten Analyse werden die errechneten Werte direkt auf Basis des Signifikanzniveaus interpretiert. Bei der manuellen Analyse wird nach der Aufstellung der Hypothesen der sogenannte F-Wert berechnet und mit dem kritischen Wert aus der Tabelle verglichen. Dieser Wert leitet sich aus der Anzahl der Freiheitsgrade und dem Signifikanzniveau ab. Auf Basis dieses Vergleiches wird die Hypothese entweder angenommen oder verworfen.

Da die Formel für den F-Wert relativ komplex ist, verzichten wir an dieser Stelle auf die Ausführung.

Prozess ANOVA

In der Regel wird bei der ANOVA die Nullhypothese H0 aufgestellt, dass es zwischen den Mittelwerten der Gruppen keinen Unterschied gibt. Die Gegenhypothese H1 sagt aus, dass sich mindestens zwei Gruppenmittelwerte unterscheiden.

Voraussetzungen für eine ANOVA


Damit eine Varianzanalyse sinnvolle Ergebnisse liefert, müssen einige Bedingungen erfüllt sein:

  • Skalenniveau: die abhängige Variable sollte metrisch skaliert sein. Dabei ist egal, ob sie intervallskaliert (ohne natürlich gegebenen Nullpunkt und kein Verhältnis zueinander) oder ratioskaliert (mit natürlich gegebenem Nullpunkt und relativem Verhältnis) ist.
  • Normalverteilung: innerhalb der Gruppen sollten die Daten normalverteilt sein (siehe Artikel zur Normalverteilung).
  • Unabhängigkeit: die zu untersuchenden Faktoren sollten komplett unabhängig voneinander sein. Ist man sich nicht sicher, ob zwei unabhängige Variablen nicht vielleicht doch einen Zusammenhang haben, darf die Varianzanalyse nicht angewendet werden.
  • Homoskedastizität also Homogenität der Varianzen: die Varianzen für die verschiedenen Gruppen sollten in etwa gleich sein.
  • Zufall: Alle Daten pro Gruppe stammen aus einer Zufallsstichprobe.

Fazit


Mit einer ANOVA kann man, ähnlich wie mit einem t-Test, die signifikante Unterscheidung von Mittelwerten ermitteln. Jedoch kann man nur erkennen, ob sich die Mittelwerte unterscheiden, jedoch nicht welche.

Abhängig von der Anzahl der Faktoren spricht man von einfaktoriellen, zweifaktoriellen oder mehrfaktoriellen Varianzanalyse. Für die Durchführung stellt man eine Hypothese auf, die man anschließend mit Hilfe von Softwareberechnungen oder dem Vergleich eines empirischen Wertes mit einem Tabellenwert prüft.





Lektorat Plus für eine perfekte Bachelor- oder Masterarbeit.