mathpoint.ch    
 

Wahrscheinlichkeit 4.Teil: Varia

   
 
 
Wahrscheinlichkeit 1.Teil Inhalt 4. Teil
Wahrscheinlichkeit 2.Teil 22. Statistische Sündenfälle
Wahrscheinlichkeit 3.Teil 23. Vertrauensintervalle für eine Wahrscheinlichkeit
Grundzüge Varianzanalyse 24. Das Simpson-Paradoxon
   
   
   
   
   
   
   
   
   
   
   
   
   
   

Erzeugen von Zufallszahlen für Simulationen: http://www.random.org/integers/

 

 

 

22. Statistische Sündenfälle und Erhebungsfehler

Empfehlenswerte Quellen
mathematik lehren, Sammelband: Wege in die Stochastik, Friedrich-Verlag, Best. Nr. 92919
Christel Weiss: Basiswissen medizinische Statistik, 5. Auflage, Springer Heidelberg, 2010

Das Erzwingen von Signifikanz

Man möchte zeigen, dass ein gesunder Lebensstil (der natürlich für die Studie genau zu definieren ist) das Risiko für Herz-Kreislauferkrankungen senkt. Nehmen wir für unser Beispiel an, dass man bereits weiss, dass 30% der über 50-jährigen von einer solchen Erkrankung betroffen sind. Nun möchte man zeigen, dass in der Gruppe der über 50-jährigen Personen mit dem klar definierten "gesunden Lebensstil" der Anteil Erkrankter < 30% ist. Man testet also einseitig.

Unser Forscherteam hat grosse Forschungsressourcen zur Verfügung und nimmt deshalb eine Stichprobe von 10'000 Personen mit gesundem Lebensstil.

Wir zeigen, dass man mit diesem bombastischen Aufwand (n = 10'000) fast sicher ein signifikantes Ergebnis erhält, selbst dann, wenn der Effekt eines "gesunden Lebensstils" kaum vorhanden ist: Man hat Signifikanz "erzwungen".

Einseitiger Binomialtest unter 10'000 Personen mit gesundem Lebensstil:

Testgrösse X: Anzahl erkrankte Personen der Stichprobe
H0: P("erkrankt") = 0.3, d.h. "keine Wirkung eines gesunden Lebensstils nachweisbar"
H1: P("erkrankt") < 0.3 (einseitig)
Signifikanzniveau: 5%

Wir finden als kritische Grösse k zum 5%-Niveau k = 2924.
Finden wir in der Stichprobe 2924 oder weniger Erkrankte, verwerfen wir die Nullhypothese, finden wir 2925 oder mehr Erkrankte, behalten wir die Nullhypothese ("keine Wirkung des gesunden Lebensstils") bei.

 

Nehmen wir nun einmal an, der Effekt eines gesunden Lebensstils sei nur unbedeutend, d.h. der Anteil Erkrankter unter den Personen mit gesundem Lebensstil sei nur wenig geringer als 30%, nämlich z.B. 28%. Die Nullhypothese (p = 0.3) besteht dann natürlich zu Unrecht (aber dieses "zu Unrecht" ist von sehr geringem Ausmass).

Wir zeigen, dass mit n = 10'000 Personen die Wahrscheinlichkeit, die Nullhypothese ("keine Wirkung") beizubehalten ausserordentlich klein ist.

Das bedeutet dann, dass wir H0 auf dem 5%-Signifikanzniveau fast sicher verwerfen werden.

Unsere Studie wird also fast sicher signifikant zeigen, dass ein gesunder Lebensstil das Risiko für Herz-Kreislauferkrankungen senkt, dies obwohl ein Anteil von 28% gegenüber einem Anteil von 30% keinen grossen Unterschied ausmacht.

In der Tat ist die Wahrscheinlichkeit, bei einer Stichprobengrösse von 10'000 und p("krank") = 0.28 die Zahl von 2925 oder mehr Erkrankten zu finden gleich 0.003 = 0.3%.
Mit nur 0.3% Wahrscheinlichkeit werden wir also H0 (natürlich zu Unrecht) beibehalten (man bezeichnet dies als Fehler 2. Art). Mit ca. 99.7% Wahrscheinlichkeit werden wir somit H0 zugunsten von H1 verwerfen.

Nun gehen wir bescheidener vor und begnügen uns mit einer Stichprobe von n = 50:

Kritische Zahl k bei p("krank") = 0.3:
k = 9 (bei 10 und mehr Erkrankten behalten wir H0 bei).

Die Wahrscheinlichkeit, in 50 Ziehungen und p(krank") = 0.28 die Zahl von 10 oder mehr Erkrankten zu finden, ist gleich 92.6%. Mit 92.6% Wahrscheinlichkeit werden wir diesmal H0 (fälschlicherweise) beibehalten, mit nur 7.4% verwerfen. Wir werden also kaum ein signifikantes Resultat der Studie vorzeigen können.

Fazit:

Mit einer bombastischen Stichprobengrösse kann für einen klinisch nicht relevanten Effekt Signifikanz "erzwungen" werden.
Statistische Signifikanz bedeutet noch nicht zwingend klinische Relevanz.

 
 
 
 
 

Der Publikations-Bias

Damit eine Studie in einer Fachzeitschrift veröffentlicht wird, muss sie Signifikanz besitzen. Das führt dazu, dass nur signifikante Resultate zur Veröffentlichung eingereicht werden. Das kann zu einer Verzerrung führen (Publikations-Bias).

Nehmen wir an, dass viele Forschungsteams dieselbe Hypothese erforschen. Diese Hypothese sei nicht signifikant zu stützen. Trotzdem wird bei der grossen Anzahl Forschungsteams bestimmt eines darunter sein, das als Ausreisser ein signifikantes Resultat erhält. Dieses wird dann publiziert, die übrigen, nicht-signifikanten Arbeiten verschwinden in der Schublade. So kann es sein, dass publizierte Resultate mit angeblicher Signifikanz reine Ausreisser sind, also "zufällig-signifikante Irrtümer".

Fachzeitschriften laufen so Gefahr, durch ihre Fixierung auf Signifikanz derartige zufällige Irrtümer als wissenschaftlich signifikante Erkenntnisse zu publizieren.

Dasselbe passiert, wenn ein Forscher seine statistischen Erhebungen so lange wiederholt, bis endlich ein signifikanter Ausreisser erscheint. Das ist natürlich ein grosser statistischer Sündenfall.

Zum Publikationsbias siehe z.B. hier.

 

Wir können dieses Phänomen simulieren. Ein Excel-Blatt genügt. Nehmen wir an, eine Untersuchung zeige, dass 10% der Männer einen IQ über 119 haben. Die Nullhypothese laute: Bei den Frauen ist der Anteil ebenfalls 10%.

Test: Wir testen den IQ einer Stichprobe von 100 Frauen aus der Gesamtbevölkerung:
H0: p(IQ > 119) = 0.1
H1: p(IQ > 119) < 0.1. Wir testen also einseitig, d.h. mit dem geschlechter-diskriminierenden Vorurteil, dass der IQ bei Frauen kleiner sei (solche Vorurteile gibt es ja leider auch heute noch).
Testgrösse X = Anzahl Frauen mit IQ > 119 in der Stichprobe.

Da wir nur das Phänomen des Publikationsbias zeigen wollen (und da obiges Vorurteil ja reiner Unsinn ist), modellieren wir künstlich eine weibliche Population, welche die Nullhypothese erfüllt: p = 0.1. Das tun wir so, dass wir in Excel 100 Felder mit einer Zufallszahl zwischen 1 und 10 programmieren. Zusätzlich programmieren wir einen Zähler, der ermittelt, wie oft in den 100 Fällen eine 1 aufgetreten ist (eine 1 soll IQ > 119 bedeuten). Der Zähler ermittelt also die Testgrösse X. Wir haben somit eine weibliche Population konstruiert, die ebenfalls mit p = 0.1 hochbegabt ist. Die Nullhypothese müsste also beibehalten werden.

Nun lassen wir 100 Forscherteams diese Frage erforschen. Wir werten also das Excelblatt 100-mal neu aus (Tastenkombination "Befehl =") und notieren jedes Mal die Testgrösse X.

Die kritische Grösse k auf dem 5%-Signifikanzniveau (einseitig, d.h. links max. 5% der Histogrammfläche abschneiden) liegt bei k = 4. Der Verwerfungsbereich der Nullhypothese ist also {0, 1, 2, 3, 4}. Führen wir den Versuch 100-mal aus, werden wir mit grosser Wahrscheinlichkeit mindestens einmal ein Extremresultat aus dem Verwerfungsbereich finden (Wahrscheinlichkeit 1 - 0.976100 ≈ 91%). Dieses Extremresultat wird die entsprechende Forschergruppe dazu bringen, die Nullhypothese "signifikant" zu verwerfen, also "signifikant" "zeigen", dass ein IQ-Geschlechterunterschied bestehe. (Wir wissen aber per Konstruktion, dass dies nicht stimmt.) Die übrigen Forscherteams, die keinen signifikanten Unterschied gefunden haben, werden ihre Forschungsresultate schubladisieren oder wegwerfen. Übrig für die breite Publikation bleibt der Ausreisser, der in den Medien als "wissenschaftliche Erkenntnis" verbreitet wird.

 
 
 
 
 

Der Selbstauswahl-Bias

Wer Umfragen startet, bei denen sich die Personen selber melden können, wenn sie sich beteiligen möchten, wird kaum eine repräsentative Auswahl finden. Viele Umfragen in Medien oder im Internet kranken an diesem Verzerrungsfehler.

 

Der Undercoverage-Bias

Damit ist gemeint, dass einige wichtige Gruppen, die zu einer repräsentativen Erhebung dazugehören würden, nicht einbezogen werden. So erreicht man etwa bei Telefonumfragen die festnetzlosen jungen Personen nicht.

 
 
 
 
 

Der Überlebens-Bias (Survivorship Bias)

Ein Beispiel: Im 2. Weltkrieg wurden die Flugabwehr-Schäden (Einschüsse) an zurückgekehrten Kampfflugzeugen statistisch untersucht, damit man besonders sensible Stellen künftig verstärken konnte. Wäre es eine gute Idee, die häufigsten Einschuss-Stellen zu erfassen und diese Stellen zu verstärken? - Antwort rechts.

Wer etwa eine Zehnjahres-Untersuchung zur Entwicklung von Firmen machen will, ist der Gefahr des Überlebens-Bias ausgesetzt: Einige Firmen, die vor 10 Jahren noch existierten, sind verschwunden oder wurden in andere Firmen integriert. Diese verschwundenen oder integrierten Firmen werden dann oft nicht erfasst, weil sie nicht überlebt haben. Hier müsste also gute historische Forschung betrieben werden.

  Antwort zur Flugzeug-Frage:
Wer so denkt, verfällt dem Überlebens-Bias. Man muss im Gegenteil diejenigen Stellen verstärken, die keine Einschüsse zeigen, denn man untersuchte ja Flugzeuge, die zurückgekehrt und nicht abgestürzt waren. Somit waren die Schäden an den Einschussstellen so, dass das Flugzeug nicht abstürzte. Um die richtigen Stellen zu finden, müsste man also die abgestürzten Maschinen untersuchen.
Der damalige Statistiker, Abraham Wald, wusste dies und empfahl die Verstärkung der Stellen, die bei den zurückgekehrten Flugzeugen nicht getroffen worden waren. Er vermied somit den Überlebens-Bias.
 
 
 
 
  23. Vertrauensintervalle für eine Wahrscheinlichkeit      
 

Wir würfeln mit einem elektronischen Glücksrad, das mit der unbekannten Wahrscheinlichkeit p einen Treffer und mit der (natürlich ebenfalls unbekannten) Wahrscheinlichkeit 1 - p eine Niete anzeigt.

Ein solches "Glücksrad" kann z.B. in Excel programmiert werden; dann kennen wir - als die Programmierenden - (im Gegensatz zu den Spielenden) den Wert von p.
Nehmen wir einmal an, wir programmierten eine Trefferwahrscheinlichkeit von 1/10.
Nehmen wir ferner an, dass jeweils 50-mal elektronisch "gewürfelt" wird.
Wir haben also eine Bernoullikette mit n = 50 und p = 0.1. Dieser Wert von p ist den Spielenden jedoch nicht bekannt.
In 50 Spielen werden im Mittel 5 Treffer erscheinen.

Hier die zufällligen Ergebnisse der Anzahl Treffer von 30 Fünfzigerserien, erzeugt mit Pseudozufallszahlen (Zufallsgrösse X ist also die Anzahl Treffer in 50 "Würfen"):

6, 3, 5, 3, 2, 4, 4, 6, 3, 4, 6, 3, 8, 5, 4, 10, 3, 5, 1, 5, 6, 4, 4, 5, 5, 2, 5, 4, 7, 3.

Selbstverständlich können auch grosse Abweichungen vom Mittelwert 5 auftreten. Die Wahrscheinlichkeit für 10 Treffer beträgt z.B.

vtri1

Theoretisch kann die Zufallsgrösse X jeden Wert zwischen 0 und 50 annehmen. Die meisten Werte werden jedoch um den Mittelwert 5 herum streuen.

Die spielenden Personen, die den wahren Wert von p nicht kennen, erhalten als Ergebnis von 50 Würfen die Zufallsgrösse X = Anzahl Treffer. Daraus erschliessen sie dann die unbekannte Wahrscheinlichkeit p.
Pech haben sie, wenn ein Extremresultat wie z.B. X = 10 entsteht; sie erschliessen dann ein p von 20%. Für X = 1 erhalten sie ein p von 2%.
Sie möchten deshalb nicht einfach eine Punktschätzung durchführen, sondern ein Intervall angeben, welches das wahre, unbekannte p mit einer grossen Wahrscheinlichkeit (von z.B. 95%) überdeckt.
Zu jedem Resultat X soll also ein Vertrauensintervall mitgeliefert werden, welches das unbekannte p mit einer Wahrscheinlichkeit von 95% überdeckt.

Nehmen wir an, die spielenden Personen fänden in 50 Würfen eine Trefferzahl von 6.
Wie baut sich das zu X = 6 zugehörige Vertrauensintervall für p auf?

Die Wahrscheinlichkeit, dass X ≤ 6 ist, beträgt

vtri2

 

Für das "wahre" p=0.1, das nur wir kennen, beträgt diese Wahrscheinlichkeit 0.770 = 77.0 %.
Es ist also recht wahrscheinlich, dass bei p=0.1 die Zufallsgrösse X einen Wert von 6 oder darunter annimmt.

Wäre p jedoch höher, so wäre die Wahrscheinlichkeit P(X≤6) geringer:
Im Fall p=0.25 betrüge sie 0.019 oder 1.9%.
Im Fall p=0.25 ist es also recht unwahrscheinlich, dass die Zufallsgrösse den Wert 6 oder weniger annimmt.

Wir suchen nun dasjenige p, für welches P(X≤6) den Wert 0.025 = 2.5% annimmt; dies soll unsere Grenze zwischen "wahrscheinlich" und "unwahrscheinlich" sein.
Wir haben demnach folgende Gleichung nach p aufzulösen:

vtri3

Ein Rechner liefert uns p = 0.243 = 24.3%. Ist p grösser als dieser Wert, so ist das Ereignis "X≤6" unwahrscheinlich (Wahrscheinlichkeit <2.5%). p = 0.243 ist unsere obere Vertrauensgrenze für p und wir schreiben deshalb p0  = 0.243.

Analog berechnen wir die untere Vertrauensgrenze pu : Wir lösen folgende Gleichung nach p auf:

vtri4

Es ergibt sich pu = 0.045 = 4.5%. Ist p kleiner als dieser Wert, ist es unwahrscheinlich (Wahrscheinlichkeit <2.5%), dass X≥6.

Die Spielenden, welche das wahre p nicht kennen, finden also folgendes Vertrauensintervall für p: [0.045, 0.243] = [4.5%, 24.3%]. Mit einer Wahrscheinlichkeit von 95% überdeckt dieses Intervall das wahre p.

Nun wird für jedes mögliche X zwischen 0 und 50 das zugehörige 95%Vertrauensintervall berechnet.

Das Vertrauensintervall [4.5%, 24.3%] zu X=6 ist recht breit. Ist uns diese Intervallschätzung zu ungenau, müssen wir die Anzahl n der Würfe erhöhen.

 
 
 
 
 

Konfidenzintervalle für das unbekannte p   (X ∈ {0, ... , 50}):

konfidenzellipse

 

Abb. links: Konfidenzgrenzen für die Wahrscheinlichkeit p bei 50-maligem Würfeln (X = Anzahl Treffer in 50 Versuchen). Die horizontalen Strecken geben das 95% -Vertrauensintervall für p an, wenn in 50 Versuchen x Treffer erschienen sind. Eingezeichnet sind nur die Intervalle bis X = 25.

 

In unserem Beispiel mit p = 0.1 fangen die Intervalle für X ∈ {1, ... ,9} Treffer die wahre Wahrscheinlichkeit p = 0.1 ein .
{1, ... , 9} ist auch der 95%-Annahmebereich der Hypothese p = 0.1.
In unseren 30 Versuchsserien oben lag nur der Wert X=10 so, dass p = 0.1 nicht innerhalb des Vertrauensintervalls lag (p = 0.1 liegt dort gerade auf dem Rand des Intervalls).
29 von 30 Intervallen fingen also den wahren Wert von p ein, das sind 96.6%, was ziemlich genau dem theoretischen Wert von 95% entspricht.

Wer also in einer 50er-Würfelserie 10 Treffer erzielte, hatte "Pech", denn in diesem Fall wird die unbekannte Wahrscheinlichkeit p zu hoch geschätzt werden. Die Wahrscheinlichkeit für eine solche Fehlschätzung (Nicht-Einfangen des wahren Wertes von p durch das Vertrauensintervall) liegt bei 5%.

 

Ein weiterer Zugang zu Vertrauensintervallen findet sich hier.

 

 
 
 
24. Das Simpson-Paradoxon      
 

Ein Beispiel (zitiert nach Nancy Cartwright: How the Laws of Physics Lie, Clarendon Press, Oxford, 1983, p.37)

Die Graduate School of Berkeley wurde beschuldigt, Frauen bei der Aufnahme zu diskriminieren: Die Durchfallquote bei Frauen war deutlich höher als diejenige der Männer.
Eine genauere, geschichtete Betrachtung der 85 einzelnen Departemente zeigte jedoch: Die Aufnahmequote zwischen Frauen und Männern unterschied sich nicht, in einigen Departementen war die Quote bei den Frauen sogar höher als diejenige der Männer. Die geschichtete Untersuchung liess also den Diskriminierungseffekt verschwinden.
Wie erklärt sich dies?
Die Departemente unterschieden sich in der Strenge der Aufnahmekriterien und Frauen bewarben sich häufiger als Männer für die "strengen" Studiengänge. Dies führte zum falschen Schluss bei der Gesamtbetrachtung.
Die Korrelation Frauen / tiefere Aufnahmequote erwies sich als Scheinkorrelation, die durch die geschichtete Betrachtung aufgelöst wurde. Der Einfluss, dass Frauen anspruchsvollere Studiengänge wählten, wurde nicht berücksichtigt.

Siehe auch hier.

Ein (fiktives) Zahlenbeispiel:
110 Männer und 210 Frauen (320 Personen) absolvierten eine Aufnahmeprüfung an einer Graduate School. 63 Männer und 78 Frauen bestanden, d.h. 57% der Männer und nur 37% der Frauen waren erfolgreich.
Auf den ersten Blick sieht dies nach Geschlechterdiskriminierung aus.

Nun schichten wir die Erhebung in zwei Gruppen:
-schwierige Departemente (Aufnahmeprüfung streng)
-einfachere Departemente (Aufnahmeprüfung leichter)

schwierige Departemente:
Total 10 Männer und 200 Frauen traten an. 3 Männer und 70 Frauen bestanden, d.h. 30% der Männer und 35% der Frauen. Die Quote bei den Frauen ist sogar leicht höher als diejenige der Männer.

einfachere Departemente:
Total 100 Männer und 10 Frauen traten an. 60 Männer und 7 Frauen bestanden, d.h. 60% der Männer und 70% der Frauen. Erneut ist die Quote bei den Frauen leicht besser.

In jeder der beiden Schichten waren also die Frauen sogar leicht erfolgreicher als die Männer. Trotzdem ergeben sich beim Ansehen der ungeschichteten Zahlen die Erfolgsquoten von 57% für die Männer und 37% für die Frauen.
In diesen ungeschichteten Zahlen bleibt unberücksichtigt, dass die Mehrheit der Frauen schwierige Studiengänge gewählt hat und die Mehrheit der Männer einfachere. Die geschichteten Zahlen entkräften den Vorwurf der Diskriminierung weiblicher
Personen.

 

Das Problem bei Untersuchungen besteht oftmals darin, die "richtige Schichtung" zu finden.

Nancy Cartwright schreibt im erwähnten Buch, dass es im Beispiel von Berkeley keinen Sinn mache, die Schichtung gemäss dem Unterschied in den Fähigkeiten, Rollerblades zu fahren vorzunehmen: Dies hat nichts mit der Aufnahmequote zu tun.

Um einen adäquate Schichtung zu finden, muss man bereits kausales Vorwissen haben und einbringen: Die Wahl des Studienganges (schwierig oder einfach; siehe Beispiel links) hat kausale Wirkung auf die Aufnahmequote, nicht aber die Fähigkeit, Roller-Blades zu fahren.

Für Cartwright spielt Kausalität in unserer Welt eine wichtige Rolle. David Hume und etwas differenzierter auch Bertrand Russell behaupteten hingegen, "Kausalität" sei von uns konstruiert, in "Wirklichkeit" gebe es nur "zeitlich gemeinsames Auftreten" von Phänomenen; bei Russell sieht die Sache allerdings differenzierter aus als bei Hume, indem im Alltagsbereich durchaus von Kausalität gesprochen werden kann, in den Grundlagen der Physik jedoch nicht mehr; dort verschwinde der Kausalitätsbegriff - was man durchaus als plausibel ansehen kann *) .
Ohne Kausalität könnten wir, wie Nancy Cartwright schreibt, jedoch gar keine sinnvollen Strategien entwerfen und auch keine korrekten Schichtungen bei statistischen Untersuchungen finden, da die Wahl einer adäquaten Schichtung kausales Vorwissen voraussetzt.

*) Vgl. Michel Esfeld ("Kausalität, pdf, p.13):"Aus der Physik gewinnen wir kein schlagendes Argument entweder für eine Humesche Theorie der Kausalität oder eine Theorie der Kausalität in Begriffen von Kräften."
Der Essay von Esfeld (s. Link) gibt einen schönen Überblick über die verschiedenen Auffassungen bezüglich Kausalität und zeigt auch die Verwobenheit dieser Frage mit andern zentralen philosophischen Themen (willentlich etwas bewirken wollen, Leben mit Absichten und Strategien).