mathpoint.ch    
 

Grundidee der Varianzanalyse

   
 
  Analysis of Variance (ANOVA)
 

Zum Mathpoint-Index

 

 

 

Analysis of Variance (ANOVA) ist eine statistische Methode, um Differenzen mehrerer Mittelwerte zu testen. Dies geschieht durch die Analyse von Varianzen.

Beispiel:
Man testet vier verschiedene Trainingsmethoden, A, B, C, D, zur Förderung der Beweglichkeit bei Personen über 70. Am Schluss der Trainingskurse wird ein Beweglichkeitstest durchgeführt, der zu einer Gesamtpunktezahl führt. In jeder Gruppe seien 13 Personen.

Die Nullhypothese lautet: Die Kurse unterscheiden sich nicht, d.h. die Mittelwerte des Schlusstests sind bei allen Gruppen ungefähr gleich.

Begriffe:
abhängige Variable: Das untersuchte Merkmal, im Beispiel oben die Punktezahl im Beweglichkeitstest. Das Skalenniveau dieser Variablen muss metrisch sein.

unabhängige Variable, auch Faktor genannt: Im Beispiel oben das Beweglichkeitstraining. Die Faktoren müssen kategorial gestuft sein.

Wird der Einfluss eines einzigen Faktors untersucht, spricht man von einfaktorieller Varianzanalyse. Damit eine solche sinnvoll ist, muss sichergestellt sein, dass nicht andere, unberücksichtigte Faktoren hineinspielen und das Ergebnis unkontrolliert verfälschen. Unser Beispiel ist von der eher sinnvollen Art. Der Faktor "Beweglichkeitstraining" in seinen vier unterschiedlichen Behandlungsarten A, B, C und D wird Treatmentfaktor genannt.

Grundidee der einfaktoriellen Varianzanalyse*):
Die Varianz der Punktezahlen wird auf zwei Arten geschätzt:

a) Streuung der Punktezahlen unabhängig davon, ob die Nullhypothese gültig ist oder nicht (Mean squared Error MSE), d.h. Varianz aufgrund zufälliger oder störender Einflüsse (Fehlervarianz). In unserem Beispiel: Varianz durch die natürliche unterschiedliche Beweglichkeitskonstitution unserer Probanden, die bereits zufällig gegeben ist, unterschiedliche Tagesform, Motivation, usw. Das ist die Streuung ohne Treatment-Einfluss. Wir nehmen dafür den Mittelwert der Varianzen der einzelnen Gruppen.

Warum nimmt man nicht die totale Varianz aller 52 Daten? - Weil dort das Treatment einfliesst! Im MSE-Wert hingegen ist das Treatment nicht dabei! Er ist der Varianz-Schätzer ohne Treatment.

b) Streuung basierend auf der Gruppenmittelwert-Streuung (MSB-Wert = Mittelwertvarianz multipliziert mit Gruppengrösse; B steht für between Groups). Wir tun hier also so, als ob es innerhalb jeder Gruppe keine Streuung gäbe und alle Mitglieder gemäss dem Gruppenmittelwert abgeschlossen hätten. Die Streuung der Mittelwerte kommt zustande durch die natürliche Streuung der Mittelwerte bei Stichproben (hier 4 Stichproben à je 13 Personen) plus eine allfällige Treatmentwirkung.

 

Sind die Gruppenmittelwerte signifikant verschieden, ist also die Nullhypothese nicht richtig, wird die Varianz-Schätzung via MSB grösser ausfallen als diejenige via MSE, denn die natürliche Streuung der Mittelwerte durch die Stichprobenwahl wird dann durch die unterschiedliche Wirkung der Trainingsarten A, B, C, D noch verstärkt.
Gilt hingegen die Nullhypothese, hat also das Treatment keinen Einfluss, wird der MSB-Wert ungefähr dem MSE-Wert entsprechen; beide Werte schätzen dann (auf zwei verschiedene Berechnungsarten) die Varianz ohne Treatmenteinfluss.

Ist aber MSB erheblich grösser als MSE, kann geschlossen werden, dass mindestens zwei Trainingsmethoden sich voneinander signifikant unterscheiden; die Nullhypothese wird dann abgelehnt.

Wichtig:
ANOVA kann nicht sagen, welches Training anders wirkt! (Vgl. dazu die Anmerkung am Schluss.) Auch über "besser" oder "schlechter" wird nichts entschieden. Das Resultat ist also relativ schwammig und besagt nur: Mindestens zwei Methoden unterscheiden sich signifikant.

Voraussetzungen für ANOVA:

1) Die Gruppen müssen etwa gleiche Varianz haben. (Es darf also in unserem Beispiel nicht eine Gruppe einseitig aus ehemaligen Tänzerinnen und Tänzern bestehen.) Diese Voraussetzung kann mit einem Levene-Test sichergestellt werden. Die Gruppen unseres Beispiels sollten z.B. per Zufallsauswahl gebildet werden.

Wir nehmen hier auch an, dass das Treatment die Gruppenvarianz nur unbedeutend oder gar nicht verändert, obwohl solche Effekte durchaus auftreten können: Es könnte z.B. ein Beweglichkeitstraining vorwiegend die unbeweglicheren Personen fördern und die sehr beweglichen unterfordern, was vermutlich die Streuung verkleinern würde; oder es könnte ein Training nur auf die beweglicheren Personen abzielen und die andern überfordern, was dann ev. die Streuung erhöhen würde (die Beweglichen würden noch besser, die andern blieben auf gleich tiefem Niveau). Wir kennen solche Effekte auch aus dem Bildungsbereich, wenn eine Lehrmethode vorwiegend auf eine bestimmte Lernenden-Subgruppe zugeschnitten ist und die übrigen Lernenden "abhängen".

2) Die Gruppen müssen (in unserem Beispiel punkto Beweglichkeit) einer Normalverteilung genügen.

3) Jeder Ergebniswert ist unabhängig von den andern Ergebniswerten. (Jede Person erhält in unserem Beispiel genau eine Schlusspunktezahl, für die nur sie allein verantwortlich ist.)

*) Diese Einführung mit der Schätzung von MSE und MSB ist übernommen aus:
David M. Lane: An Introduction to Statistics - an interactive E-Book
Kapitel 15, Analysis of Variance
Vgl. auch dieses Open Textbook
Das illustrierende Beispiel entstammt nicht diesem Buch und ist erfunden.
 
 
 
 
 

Die Ergebnisse unseres Beispiel seien wie folgt:

Trainingsmethode Punktemittelwert der Gruppe Varianz
A 13.4 9.5
B 12.3 8.6
C 12.3 7.1
D 10.0 7.0
Mittelwert der Spaltendaten 12.0 8.05

Wir haben k = 4 Gruppen (Stufen) mit je gleicher Anzahl n = 13 teilnehmender Personen, also total k⋅n = N = 52 Versuchspersonen.

 

MSE-Wert:
Wir schätzen die Varianz durch das Mittel der Gruppen-Varianzen. Wir finden MSE = 8.05. Man sieht, dass in dieser Rechnung die Streuung der Gruppenmittelwerte und damit auch das Treatment keine Rolle spielt.

MSB-Wert:
Wir wissen, dass die Mittelwerte schwächer streuen als die Einzeldaten der Stichprobe.
Die Varianz σM2 der Mittelwerte ist σM2 = σ2 / n oder σ2 = n⋅ σM2 .

Wir schätzen σM2 durch die Varianz der empirisch erhaltenen Gruppenmittelwerte, die sich im Beispiel links zu 2.05 errechnet (Varianzformel mit Nenner 3). Um MSB zu bestimmen, multiplizieren wir diesen Wert mit n = 13 und erhalten MSB = 26.65. In diesen Schritt fliesst nun ein allfälliger Unterschied in der Wirkung der Varianten A, B, C und D ein.

Hätte das Treatment überhaupt keine Wirkung, wäre die Varianz der Gruppenmittelwerte (4 Stichproben à 13 Personen) in einem gewissen Streubereich um 0.619 herum, also sehr klein, und MSB wäre dann etwa 8.05, also etwa gleich wie MSE.

Nun bilden wir den Quotienten MSB : MSE = 26.65 : 8.05 = 3.31.
Dies ist der Fisher-Quotient, unsere Prüfgrösse.

 
 
 
 
 

Rechts: Die Ergebnisse unseres Beispiels (Tabelle oben) grafisch.

Sind mindestens zwei Mittelwerte signifikant verschieden oder nicht?

Ein Treatment-Einfluss ist umso wahrscheinlicher, je schmaler die Glockenkurven der Gruppen sind (MSE klein) und je grösser die Varianz der Mittelwerte ist (ergibt grosses MSB).

   
 
 
 
 

In unserem Beispiel ist der Fisherquotient 3.31. Die Streuung der Mittelwerte scheint also eine Rolle zu spielen. Ist dies aber hinreichend, um die Nullhypothese zu widerlegen?
Darüber gibt die Fisher-Verteilung Auskunft. Diese ist aber abhängig von der Stichprobengrösse, genauer von den sogenannten Freiheitsgraden (den Nennern) von MSB und MSE.

MSB hat in unserem Beispiel k-1=3 Freiheitsgrade (die Varianzformel hat Nenner 3).

MSE ist ein Mittelwert von k Varianzen mit je (n-1) Freiheitsgraden, hat somit
k⋅(n-1) = k⋅n - k = N - k Freiheitsgrade, in unserem Beispiel also 48.
Anschaulich im Beispiel oben:
Jede der vier Gruppenvarianzen hat in der Varianzformel Nenner n-1=12; wir addieren diese Varianzen (-> immer noch Nenner 12) und dividieren bei der Mittelwertsbildung durch k=4; so entsteht Nenner k⋅(n-1)=48.

 

Die kritische Grenze für die Fisher-Verteilung von MSB : MSE in Abhängigkeit des Zählerfreiheitsgrades (Freiheitsgrad von MSB; im Beispiel Wert 3) und des Nennerfreiheitsgrades (Freiheitsgrad von MSE; im Beispiel Wert 48) kann in einer Tabelle oder in einem Online-Rechner festgestellt werden.

In unserem Beispiel schneidet der Wert 3.31 vom rechten Teil der 3-48-Fisher-Verteilung ca. 2.8% ab, d.h. unter der Voraussetzung der Nullhypothese wäre ein Wert von 3.31 ziemlich unwahrscheinlich; wir verwerfen auf dem 5%-Signifikanzniveau die Nullhypothese und konstatieren: Mindestens zwei Trainingsmethoden unterscheiden sich bei diesem Signifikanzniveau in der Wirksamkeit. Welche wird jedoch nicht gesagt, und auch über die "Richtung" (besser oder schlechter) gibt es keine Auskunft: Der Test ist zweiseitig.
Auf dem 1%-Signifikanzniveau muss jedoch die Nullhypothese beibehalten werden. Mindestens zwei Methoden unterscheiden sich also signifikant (5%-Niveau), jedoch nicht hochsignifikant (1%-Niveau).

 
 
 
 
 

Bild rechts: Fisher-Verteilung unseres Beispiels.

 

Geogebra-Modell für die F-Verteilung bei verschiedenen Zähler- und Nennerfreiheitsgraden hier.

   
 
 
 
 

Anmerkung

Warum können nicht einfach je zwei Trainingsgruppen miteinander verglichen werden? Bei vier Gruppen A, B, C, D ergäbe dies sechs paarweise t-Tests auf Gleichheit der Mittelwerte, nämlich A-B, A-C, A-D, B-C, B-D, C-D.

Antwort: Bei jedem der 6 Tests auf Signifikanzniveau 5% ist die Wahrscheinlichkeit eines Fehlers erster Art 0.05. Wie gross ist dann die Wahrscheinlichkeit, in 6 Tests mindestens ein Mal einen solchen Fehler zu begehen?

 

Lösung: Wir arbeiten mit der Gegenwahrscheinlichkeit, also der Wahrscheinlichkeit, in 6 Tests keinen Fehler zu begehen. Diese Wahrscheinlichkeit beträgt 0.956 = 73.5%. Die gesuchte Wahrscheinlichkeit ist also 26.6% = Wahrscheinlichkeit mindestens eines Fehlers. Dies ist ein zu hoher Wert. Wir sprechen von einer Alpha-Fehler-Inflation.

Es gibt paarweise Post-hoc-Tests, die diese Schwierigkeit angehen.

Vergleichen wir in unserem Beispiel etwa D-A, D-B und D-C je paarweise (3 Tests), so müssen wir wegen der α-Fehler-Inflation für jeden Test das Signifikanzniveau senken. Nehmen wir hier statt 5% den Wert 1.7%. Bei 3 Tests ist dann die Wahrscheinlichkeit, mindestens ein Mal einen Fehler 1. Art zu begehen etwa 5%. Wir finden auf diesem Signifikanzniveau, dass sich lediglich D und A signifikant unterscheiden.

 
 
 
 
 

Der t-Test für den Vergleich der Mittelwerte von zwei unabhängigen Stichproben ist äquivalent zur einfaktoriellen Varianzanalyse mit k = 2, d.h. Zählerfreiheitsgrad 1.



Wir wiederholen das Beispiel von "Wahrscheinlichkeit 03; t-Test, Beispiel 2":

Man will die Wirksamkeit einer bestimmten Substanz auf die Konzentrationsfähigkeit einer Person testen.

Dazu testen wir in einem Doppelblindversuch je 15 Personen.

Gruppe S erhält während einer definierten Zeitspanne die Substanz, Gruppe P ein Placebo-Produkt. (In einem Doppelblindversuch wissen weder die Probanden noch die Versuchsleiter, wer zur Placebo-Gruppe gehört.)

Anschliessend wird ein geeichter Konzentrationstest durchgeführt, dessen Resultat eine "Konzentrationszahl" ist.

Wir vergleichen die Mittelwerte dieser Konzentrationszahlen für jede Gruppe separat und finden folgende Ergebnisse:

n1 = 15, x1  = 112.0,   s1= 14 (Gruppe, welche die Substanz erhielt).
n2 = 15, x2 = 100.5,   s2= 16 (Placebo-Gruppe).

Prüfgrösse t-Test:                                                            t = 2.09495

kritische Grenze zum 5%-Signifikanzniveau, zweiseitig: t* = 2.04841
(t-Verteilungsrechner hier)

Der kritische Wert wird auf dem 5%-Niveau leicht überschritten: Ablehnung der Nullhypothese "keine Wirkung". Auf dem 1%-Niveau würde allerdings die Nullhypothese beibehalten.

 
Gruppe Mittelwert der Gruppe Varianz
S ("Substanz") 112 196
P ("Placebo") 100.5 256
Mittelwert der Spalten 106.25 226

Varianz der Gruppenmittelwerte: 66.125 (Varianzformel mit Nenner 1).
n = 15 Personen in jeder Gruppe. k = 2 (Gruppe S bzw. P). N = 30.

MSE = 226
MSB = 15⋅66.125 = 991.875

F = MSB : MSE = 4.38883 = Prüfgrösse.
Zählerfreiheitsgrad: 1; Nennerfreiheitsgrad: 28
Kritischer F-Wert für 5%-Niveau: 4.19597

Vergleich mit dem t-Test: Man sieht, dass die Werte der Varianzanalyse die quadrierten Werte des t-Tests sind, sowohl für die Prüfgrösse als auch für die kritische Grösse.
Somit sind beide Tests äquivalent und liefern dieselben Resultate.
Ein schönes Ergebnis, beruhen doch die beiden Tests auf verschiedenen Verteilungen (t-Verteilung; F-Verteilung mit Zählerfreiheitsgrad 1).
Der Vergleich zeigt ebenfalls, dass die Varianzanalyse zweiseitig testet, obwohl in der F-Verteilung nur rechts Fläche abgeschnitten wird, während beim t-Test in der t-Verteilung links und rechts je 2.5% abgeschnitten wurden.