Die ANOVA ist ein statistisches Verfahren, mit dem man analysieren kann, ob sich Mittelwerte signifikant voneinander unterscheiden. Im Gegensatz zum ähnlichen t-Test, lässt sich die ANOVA für den Vergleich von mehr als zwei Stichproben verwenden.
In diesem Artikel wird erklärt, was eine ANOVA ist, wofür man sie verwendet, welche Arten es gibt und wie man sie durchführt.
Die ANOVA, oder auch Varianzanalyse, ist ein multivariantes Analyseverfahren, das die Mittelwerte von mehreren verschiedenen Stichproben miteinander vergleicht.
Der Name ANOVA stammt vom englischen Begriff „Analysis of variance“ ab, was in diesem Zusammenhang etwas irreführend ist. Bei der ANOVA werden keine Varianzen, sondern Mittelwerte miteinander verglichen. Dennoch spielt die Varianz eine entscheidende Rolle, denn es werden verschiedene Teile davon sowie deren Verhältnisse hergenommen, um Rückschlüsse auf die Gleich- oder Ungleichheit von Mittelwerten zu ziehen.
Durch den Vergleich mehrerer Mittelwerte, kann man die Varianzanalyse als Erweiterung des t-Tests verstehen. Die Durchführung beliebig vieler t-Tests anstatt einer ANOVA würde aufgrund von mathematischen Problemen nicht funktionieren.
Die ANOVA hat allerdings einen entscheidenden Nachteil. Sie liefert lediglich das Ergebnis, ob sich die Mittelwerte der betrachteten Gruppen signifikant voneinander unterscheiden. Sie sagt jedoch nichts darüber aus, welche Gruppen sich voneinander unterscheiden. Hierfür sind weitere Tests, sogenannte Nachfolgenanalysen oder Post-Hoc Tests notwendig.
Bevor wir nun auf die Arten und die Durchführung eingehen, müssen zuerst einige Begriffe erklärt werden.
Die wichtigsten Grundbegriffe sind die abhängige und die unabhängige Variable. In der unabhängigen Variablen (UV) unterscheiden sich die Stichproben voneinander. Die abhängige Variable (AV) ist diejenige, die man untersuchen möchte und deren mittlere Ausprägung verglichen werden soll. Neben der Erklärung, dass man mit einer Varianzanalyse Mittelwerte miteinander vergleichen kann, liest man auch häufig die Definition, dass die ANOVA den Einfluss von einer unabhängigen auf eine abhängige Variable untersucht. Während die unabhängige Variable immer nominalskaliert ist, ist die abhängige Variable intervallskaliert.
Weitere relevante Begriffe sind der Faktor, die Faktorstufe und der Effekt:
Wir möchten wissen, ob sich das Einkommen in den Städten Hamburg, Berlin und München unterscheidet bzw. ob der
Wohnort einen Einfluss auf das Einkommen hat. Die Stadt ist dabei der Faktor (unabhängige Variable) und das Einkommen die abhängige Variable,
von der ich wissen möchte, wodurch sie beeinflusst wird. Hamburg, Berlin und München sind die Ausprägungen, also die drei Faktorstufen.
Sollten sich also die Einkommen unterscheiden, hat der Wohnort einen Effekt auf das Einkommen.
Je nachdem welche Daten man nach welchem Modell und wie viele Faktoren man untersucht, gibt es mehrere Arten der Varianzanalyse. Am häufigsten werden die einfaktorielle und die zweifaktorielle Varianzanalyse durchgeführt.
Während nahezu alle Varianzanalysen von einer abhängigen Variablen ausgehen, kann man bei der mehrfaktoriellen ANOVA (MANOVA) mit mehreren AVs rechnen. Da die MANOVA jedoch ein sehr komplexes Verfahren ist, gehen wir an dieser Stelle nicht näher darauf ein.
Da sich die ANOVA lediglich in der Anzahl der zu vergleichenden Mittelwerte vom t-Test unterscheidet, ist auch die Vorgehensweise zur Durchführung sehr ähnlich. Eine Varianzanalyse lässt sich ebenfalls manuell über Formeln oder über Programme wie SPSS, Excel, Google Tabellen oder andere Tabellenkalkulationsprogramme durchführen.
Zu Beginn wird auf Basis der Fragestellung eine oder mehrere Hypothesen aufgestellt. Im Falle der automatisierten Analyse werden die errechneten Werte direkt auf Basis des Signifikanzniveaus interpretiert. Bei der manuellen Analyse wird nach der Aufstellung der Hypothesen der sogenannte F-Wert berechnet und mit dem kritischen Wert aus der Tabelle verglichen. Dieser Wert leitet sich aus der Anzahl der Freiheitsgrade und dem Signifikanzniveau ab. Auf Basis dieses Vergleiches wird die Hypothese entweder angenommen oder verworfen.
Da die Formel für den F-Wert relativ komplex ist, verzichten wir an dieser Stelle auf die Ausführung.
In der Regel wird bei der ANOVA die Nullhypothese H0 aufgestellt, dass es zwischen den Mittelwerten der Gruppen keinen Unterschied gibt. Die Gegenhypothese H1 sagt aus, dass sich mindestens zwei Gruppenmittelwerte unterscheiden.
Damit eine Varianzanalyse sinnvolle Ergebnisse liefert, müssen einige Bedingungen erfüllt sein:
Mit einer ANOVA kann man, ähnlich wie mit einem t-Test, die signifikante Unterscheidung von Mittelwerten ermitteln.
Jedoch kann man nur erkennen, ob sich die Mittelwerte unterscheiden, jedoch nicht welche.
Abhängig von der Anzahl der Faktoren spricht
man von einfaktoriellen, zweifaktoriellen oder mehrfaktoriellen Varianzanalyse. Für die Durchführung stellt man eine Hypothese auf, die
man anschließend mit Hilfe von Softwareberechnungen oder dem Vergleich eines empirischen Wertes mit einem Tabellenwert prüft.