mathpoint.ch | |||||
Wahrscheinlichkeit 4.Teil: Varia |
|||||
Erzeugen von Zufallszahlen für Simulationen: http://www.random.org/integers/ |
22. Statistische Sündenfälle und Erhebungsfehler Empfehlenswerte Quellen Das Erzwingen von Signifikanz Man möchte zeigen, dass ein gesunder Lebensstil (der natürlich für die Studie genau zu definieren ist) das Risiko für Herz-Kreislauferkrankungen senkt. Nehmen wir für unser Beispiel an, dass man bereits weiss, dass 30% der über 50-jährigen von einer solchen Erkrankung betroffen sind. Nun möchte man zeigen, dass in der Gruppe der über 50-jährigen Personen mit dem klar definierten "gesunden Lebensstil" der Anteil Erkrankter < 30% ist. Man testet also einseitig. Unser Forscherteam hat grosse Forschungsressourcen zur Verfügung und nimmt deshalb eine Stichprobe von 10'000 Personen mit gesundem Lebensstil. Wir zeigen, dass man mit diesem bombastischen Aufwand (n = 10'000) fast sicher ein signifikantes Ergebnis erhält, selbst dann, wenn der Effekt eines "gesunden Lebensstils" kaum vorhanden ist: Man hat Signifikanz "erzwungen". Einseitiger Binomialtest unter 10'000 Personen mit gesundem Lebensstil: Testgrösse X: Anzahl erkrankte Personen der Stichprobe Wir finden als kritische Grösse k zum 5%-Niveau k = 2924. |
Nehmen wir nun einmal an, der Effekt eines gesunden Lebensstils sei nur unbedeutend, d.h. der Anteil Erkrankter unter den Personen mit gesundem Lebensstil sei nur wenig geringer als 30%, nämlich z.B. 28%. Die Nullhypothese (p = 0.3) besteht dann natürlich zu Unrecht (aber dieses "zu Unrecht" ist von sehr geringem Ausmass). Wir zeigen, dass mit n = 10'000 Personen die Wahrscheinlichkeit, die Nullhypothese ("keine Wirkung") beizubehalten ausserordentlich klein ist. Das bedeutet dann, dass wir H0 auf dem 5%-Signifikanzniveau fast sicher verwerfen werden. Unsere Studie wird also fast sicher signifikant zeigen, dass ein gesunder Lebensstil das Risiko für Herz-Kreislauferkrankungen senkt, dies obwohl ein Anteil von 28% gegenüber einem Anteil von 30% keinen grossen Unterschied ausmacht. In der Tat ist die Wahrscheinlichkeit, bei einer Stichprobengrösse von 10'000 und p("krank") = 0.28 die Zahl von 2925 oder mehr Erkrankten zu finden gleich 0.003 = 0.3%. Nun gehen wir bescheidener vor und begnügen uns mit einer Stichprobe von n = 50: Kritische Zahl k bei p("krank") = 0.3:
|
||||
Der Publikations-Bias Damit eine Studie in einer Fachzeitschrift veröffentlicht wird, muss sie Signifikanz besitzen. Das führt dazu, dass nur signifikante Resultate zur Veröffentlichung eingereicht werden. Das kann zu einer Verzerrung führen (Publikations-Bias). Nehmen wir an, dass viele Forschungsteams dieselbe Hypothese erforschen. Diese Hypothese sei nicht signifikant zu stützen. Trotzdem wird bei der grossen Anzahl Forschungsteams bestimmt eines darunter sein, das als Ausreisser ein signifikantes Resultat erhält. Dieses wird dann publiziert, die übrigen, nicht-signifikanten Arbeiten verschwinden in der Schublade. So kann es sein, dass publizierte Resultate mit angeblicher Signifikanz reine Ausreisser sind, also "zufällig-signifikante Irrtümer". Fachzeitschriften laufen so Gefahr, durch ihre Fixierung auf Signifikanz derartige zufällige Irrtümer als wissenschaftlich signifikante Erkenntnisse zu publizieren. Dasselbe passiert, wenn ein Forscher seine statistischen Erhebungen so lange wiederholt, bis endlich ein signifikanter Ausreisser erscheint. Das ist natürlich ein grosser statistischer Sündenfall. |
Wir können dieses Phänomen simulieren. Ein Excel-Blatt genügt. Nehmen wir an, eine Untersuchung zeige, dass 10% der Männer einen IQ über 119 haben. Die Nullhypothese laute: Bei den Frauen ist der Anteil ebenfalls 10%. Test: Wir testen den IQ einer Stichprobe von 100 Frauen aus der Gesamtbevölkerung: Da wir nur das Phänomen des Publikationsbias zeigen wollen (und da obiges Vorurteil ja reiner Unsinn ist), modellieren wir künstlich eine weibliche Population, welche die Nullhypothese erfüllt: p = 0.1. Das tun wir so, dass wir in Excel 100 Felder mit einer Zufallszahl zwischen 1 und 10 programmieren. Zusätzlich programmieren wir einen Zähler, der ermittelt, wie oft in den 100 Fällen eine 1 aufgetreten ist (eine 1 soll IQ > 119 bedeuten). Der Zähler ermittelt also die Testgrösse X. Wir haben somit eine weibliche Population konstruiert, die ebenfalls mit p = 0.1 hochbegabt ist. Die Nullhypothese müsste also beibehalten werden. Nun lassen wir 100 Forscherteams diese Frage erforschen. Wir werten also das Excelblatt 100-mal neu aus (Tastenkombination "Befehl =") und notieren jedes Mal die Testgrösse X. Die kritische Grösse k auf dem 5%-Signifikanzniveau (einseitig, d.h. links max. 5% der Histogrammfläche abschneiden) liegt bei k = 4. Der Verwerfungsbereich der Nullhypothese ist also {0, 1, 2, 3, 4}. Führen wir den Versuch 100-mal aus, werden wir mit grosser Wahrscheinlichkeit mindestens einmal ein Extremresultat aus dem Verwerfungsbereich finden (Wahrscheinlichkeit 1 - 0.976100 ≈ 91%). Dieses Extremresultat wird die entsprechende Forschergruppe dazu bringen, die Nullhypothese "signifikant" zu verwerfen, also "signifikant" "zeigen", dass ein IQ-Geschlechterunterschied bestehe. (Wir wissen aber per Konstruktion, dass dies nicht stimmt.) Die übrigen Forscherteams, die keinen signifikanten Unterschied gefunden haben, werden ihre Forschungsresultate schubladisieren oder wegwerfen. Übrig für die breite Publikation bleibt der Ausreisser, der in den Medien als "wissenschaftliche Erkenntnis" verbreitet wird. |
||||
Der Selbstauswahl-Bias Wer Umfragen startet, bei denen sich die Personen selber melden können, wenn sie sich beteiligen möchten, wird kaum eine repräsentative Auswahl finden. Viele Umfragen in Medien oder im Internet kranken an diesem Verzerrungsfehler. |
Der Undercoverage-Bias Damit ist gemeint, dass einige wichtige Gruppen, die zu einer repräsentativen Erhebung dazugehören würden, nicht einbezogen werden. So erreicht man etwa bei Telefonumfragen die festnetzlosen jungen Personen nicht. |
||||
Der Überlebens-Bias (Survivorship Bias) Ein Beispiel: Im 2. Weltkrieg wurden die Flugabwehr-Schäden (Einschüsse) an zurückgekehrten Kampfflugzeugen statistisch untersucht, damit man besonders sensible Stellen künftig verstärken konnte. Wäre es eine gute Idee, die häufigsten Einschuss-Stellen zu erfassen und diese Stellen zu verstärken? - Antwort rechts. Wer etwa eine Zehnjahres-Untersuchung zur Entwicklung von Firmen machen will, ist der Gefahr des Überlebens-Bias ausgesetzt: Einige Firmen, die vor 10 Jahren noch existierten, sind verschwunden oder wurden in andere Firmen integriert. Diese verschwundenen oder integrierten Firmen werden dann oft nicht erfasst, weil sie nicht überlebt haben. Hier müsste also gute historische Forschung betrieben werden. |
Antwort zur Flugzeug-Frage: Wer so denkt, verfällt dem Überlebens-Bias. Man muss im Gegenteil diejenigen Stellen verstärken, die keine Einschüsse zeigen, denn man untersuchte ja Flugzeuge, die zurückgekehrt und nicht abgestürzt waren. Somit waren die Schäden an den Einschussstellen so, dass das Flugzeug nicht abstürzte. Um die richtigen Stellen zu finden, müsste man also die abgestürzten Maschinen untersuchen. Der damalige Statistiker, Abraham Wald, wusste dies und empfahl die Verstärkung der Stellen, die bei den zurückgekehrten Flugzeugen nicht getroffen worden waren. Er vermied somit den Überlebens-Bias. |
||||
23. Vertrauensintervalle für eine Wahrscheinlichkeit | |||||
Wir würfeln mit einem elektronischen Glücksrad, das mit der unbekannten Wahrscheinlichkeit p einen Treffer und mit der (natürlich ebenfalls unbekannten) Wahrscheinlichkeit 1 - p eine Niete anzeigt. Hier die zufällligen Ergebnisse der Anzahl Treffer von 30 Fünfzigerserien, erzeugt mit Pseudozufallszahlen (Zufallsgrösse X ist also die Anzahl Treffer in 50 "Würfen"):
Selbstverständlich können auch grosse Abweichungen vom Mittelwert 5 auftreten. Die Wahrscheinlichkeit für 10 Treffer beträgt z.B. Theoretisch kann die Zufallsgrösse X jeden Wert zwischen 0 und 50 annehmen. Die meisten Werte werden jedoch um den Mittelwert 5 herum streuen. Die spielenden Personen, die den wahren Wert von p nicht kennen, erhalten als Ergebnis von 50 Würfen die Zufallsgrösse X = Anzahl Treffer. Daraus erschliessen sie dann die unbekannte Wahrscheinlichkeit p. Nehmen wir an, die spielenden Personen fänden in 50 Würfen eine Trefferzahl von 6. Die Wahrscheinlichkeit, dass X ≤ 6 ist, beträgt |
Für das "wahre" p=0.1, das nur wir kennen, beträgt diese Wahrscheinlichkeit 0.770 = 77.0 %. Ein Rechner liefert uns p = 0.243 = 24.3%. Ist p grösser als dieser Wert, so ist das Ereignis "X≤6" unwahrscheinlich (Wahrscheinlichkeit <2.5%). p = 0.243 ist unsere obere Vertrauensgrenze für p und wir schreiben deshalb p0 = 0.243. Analog berechnen wir die untere Vertrauensgrenze pu : Wir lösen folgende Gleichung nach p auf: Es ergibt sich pu = 0.045 = 4.5%. Ist p kleiner als dieser Wert, ist es unwahrscheinlich (Wahrscheinlichkeit <2.5%), dass X≥6. Die Spielenden, welche das wahre p nicht kennen, finden also folgendes Vertrauensintervall für p: [0.045, 0.243] = [4.5%, 24.3%]. Mit einer Wahrscheinlichkeit von 95% überdeckt dieses Intervall das wahre p. Nun wird für jedes mögliche X zwischen 0 und 50 das zugehörige 95%Vertrauensintervall berechnet. Das Vertrauensintervall [4.5%, 24.3%] zu X=6 ist recht breit. Ist uns diese Intervallschätzung zu ungenau, müssen wir die Anzahl n der Würfe erhöhen. |
||||
Konfidenzintervalle für das unbekannte p (X ∈ {0, ... , 50}): |
Abb. links: Konfidenzgrenzen für die Wahrscheinlichkeit p bei 50-maligem Würfeln (X = Anzahl Treffer in 50 Versuchen). Die horizontalen Strecken geben das 95% -Vertrauensintervall für p an, wenn in 50 Versuchen x Treffer erschienen sind. Eingezeichnet sind nur die Intervalle bis X = 25.
In unserem Beispiel mit p = 0.1 fangen die Intervalle für X ∈ {1, ... ,9} Treffer die wahre Wahrscheinlichkeit p = 0.1 ein
. Wer also in einer 50er-Würfelserie 10 Treffer erzielte, hatte "Pech", denn in diesem Fall wird die unbekannte Wahrscheinlichkeit p zu hoch geschätzt werden. Die Wahrscheinlichkeit für eine solche Fehlschätzung (Nicht-Einfangen des wahren Wertes von p durch das Vertrauensintervall) liegt bei 5%.
Ein weiterer Zugang zu Vertrauensintervallen findet sich hier. |
|
|||
24. Das Simpson-Paradoxon | |||||
Ein Beispiel (zitiert nach Nancy Cartwright: How the Laws of Physics Lie, Clarendon Press, Oxford, 1983, p.37) Ein (fiktives) Zahlenbeispiel: Nun schichten wir die Erhebung in zwei Gruppen: schwierige Departemente: einfachere Departemente: In jeder der beiden Schichten waren also die Frauen sogar leicht erfolgreicher als die Männer. Trotzdem ergeben sich beim Ansehen der ungeschichteten Zahlen die Erfolgsquoten von 57% für die Männer und 37% für die Frauen. |
Das Problem bei Untersuchungen besteht oftmals darin, die "richtige Schichtung" zu finden. Für Cartwright spielt Kausalität in unserer Welt eine wichtige Rolle. David Hume und etwas differenzierter auch Bertrand Russell behaupteten hingegen, "Kausalität" sei von uns konstruiert, in "Wirklichkeit" gebe es nur "zeitlich gemeinsames Auftreten" von Phänomenen; bei Russell sieht die Sache allerdings differenzierter aus als bei Hume, indem im Alltagsbereich durchaus von Kausalität gesprochen werden kann, in den Grundlagen der Physik jedoch nicht mehr; dort verschwinde der Kausalitätsbegriff - was man durchaus als plausibel ansehen kann *) . *) Vgl. Michel Esfeld ("Kausalität, pdf, p.13):"Aus der Physik gewinnen wir kein schlagendes Argument entweder für eine Humesche Theorie der Kausalität oder eine Theorie der Kausalität in Begriffen von Kräften." |
||||