10. Grundlagen der beschreibenden Statistik | Link zu Statistik-Erklärungen Uni Zürich | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Die beschreibende Statistik befasst sich mit der übersichtlichen Darstellung von Daten. Sie liefert Kennzahlen für Lage und Streuung der Daten. Die beurteilende Statistik (Inferenzstatistik) fragt nach der Zuverlässigkeit von Hypothesen und hilft, Schlüsse von Stichproben auf die Grundgesamtheit zu ziehen. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
10.1. Arten von Skalen | 10.2. Grundbegriffe | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Kategoriale Skalen
Metrische Skalen
n = 150 |
Beispiel: Merkmal X = Anzahl Kinder pro Familie in einer Siedlung von n = 150 Familien
Begriffe:
Literaturhinweise: Bucher, Benno, Meier-Solfrian, Walter, Meyer, Urban, Schlick, Sandra: Statistik, Grundlagen, Beispiele und Anwendungen gelöst mit Excel, Compendio Bildungsmedien AG, Zürich, 1. Auflage, 2003 Gehring, Uwe W., Weins, Cornelia: Grundkurs Statistik für Politologen und Soziologen, VS Verlag für Sozialwissenschaften, Wiesbaden, 5. Auflage, 2009 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Beispiel zur Messung des Merkmals "Verteilungs-Ungleichheit": der Gini-Koeffizient. | Bemerkung zu statistischen Merkmalen: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
10.3. Klassenbildung bei stetigen Daten |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Stetige Daten entstehen bei Messungen. Hier fasst man die Messwerte, die nahe beisammen liegen, zu Klassen zusammen.
Hier als Beispiel eine geordnete Liste von Geburtslängen in cm: Um einen besseren Überblick zu gewinnen, bildet man nun "Klassen":
Der Wert 48 cm gehört bereits zur Klasse 2; wir wählen also die Klassenintervalle hier rechts offen. (Es wäre auch möglich, die Intervalle links offen zu wählen.)
Die Verteilung mit 5 Klassen (Klassenbreite = 2 cm) sieht nun wie folgt aus:
|
|
Wir betrachten zunächst ein Balkendiagramm mit aneinanderstossenden Balken. Die Klassenbreite ist 2 cm. Die Höhen der Säulen geben die relativen Häufigkeiten an: Die Häufigkeitsverteilung klassierter stetiger Daten kann aber vorzugsweise in einem Histogramm dargestellt werden [histion (griech.), Segel, Gewebe]. In einem Histogramm berühren sich die Balken ebenfalls. Die Säulenhöhe wird jedoch durch die Klassenbreite dividiert, sodass neu nicht mehr die Höhe der Balken, sondern die Balkenfläche die relative Häufigkeit angibt. Die y-Achse zeigt nun nicht mehr die relative Häufigkeit wie im Bild oben, sondern die relative Häufigkeit dividiert durch die Klassenbreite, also die Häufigkeitsdichte. Im Vergleich zum Bild oben (Säulendiagramm) sind nun die Säulen im Histogramm unten nur noch halb so hoch (wegen der Klassenbreite 2):
Bild oben: Histogramm. x-Achse: Messwerte. Klassenbreite 2 cm (y-Achse: Häufigkeitsdichte = relative Häufigkeit dividiert durch Klassenbreite. Die Gesamtfläche des Histogramms ist 1 (oder 100%). Mittelwert: Den Mittelwert ("Durchschnitt") der gemessenen Daten erhält man durch Aufsummieren aller Werte und Division durch n. Sind die Daten klassiert, kann der Mittelwert näherungsweise über die Klassenmittel bestimmt werden: Mittelwert ≈ (3⋅47 + 9⋅49 + 10⋅51 + 4⋅53 + 2⋅55)/28 cm oder Allgemein: Mittelwert = ∑ ni⋅hi
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
10.4. Lagemasse | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Mittelwert Median Vorgehen zur Bestimmung des Medians
Modus
|
Beurteilung der Lagemasse Der Mittelwert ist empfindlich gegenüber Ausreissern. Das bedeutet, dass extreme Werte am Rand der Verteilung den Mittelwert stark beeinflussen können. Oft lässt man deshalb Ausreisser bei der Berechnung des Mittelwerts weg (zur Definition von "Ausreissern" s. Abschnitt "Boxplot"). Der Median ist im Gegensatz zum Mittelwert robust gegenüber Ausreissern. Er hat dafür in der schliessenden Statistik andere Nachteile. Welches Lagemass man am besten verwendet, muss im Einzelfall entschieden werden. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
10.5. Streumasse | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Zwei Maschinen produzieren Holzkugeln. Der Soll-Durchmesser sei 19.5 mm. Maschine 1: 25 16 19 22 21 19 17 15 20 21 Welche Maschine arbeitet konstanter? Formeln für die Streumasse Das einfachste Streumass einer Datenverteilung ist die sogenannte Spannweite R ("Range"). R ist die Differenz zwischen dem grössten und dem kleinsten Wert. Varianz und Standardabweichung werden im Beispiel rechts erklärt. Die Streumasse drücken aus, in welcher "Stärke" die Daten um den Mittelwert herum streuen. Die Formeln für diese drei Streumasse lauten:
|
Idee 1: Man ermittelt den Durchschnitt (Mittelwert). Resultat: Bei beiden Maschinen beträgt der Mittelwert 19.5 mm. Die Idee ermöglicht keinen Vergleich. Idee 2: Man listet die Abweichungen vom Durchschnitt 19.5 mm auf und addiert sie: Maschine 1: +5.5 -3.5 -0.5 +2.5 +1.5 -0.5 -2.5 -4.5 +0.5 +1.5. Summe = 0 Fazit: Es ist gerade das Merkmal des Durchschnitts, dass die Summe der Abweichungen null ergibt. Auch diese Idee führt nicht zum Ziel. Idee 3: Die Summe 0 in Idee 2 entstand wegen der Vorzeichen. Wir könnten die Absolutbeträge der Abweichungen nehmen und diese addieren: Maschine 1: 5.5 3.5 0.5 2.5 1.5 0.5 2.5 4.5 0.5 1.5. Summe = 23. Maschine 1: durchschnittliche absolute Abweichung vom Mittelwert: 2.3. Maschine 2 schneidet besser ab. Im Durchschnitt weicht sie pro Kugel um 1.8 mm (nach oben oder nach unten) vom Mittelwert ab. Idee 4: Das Rechnen mit Absolutbeträgen ist kompliziert. Man bringt die Vorzeichen der Abweichungen auch weg, indem man die Abweichungen quadriert: Maschine 1: 30.25 12.25 0.25 6.25 2.25 0.25 6.25 20.25 0.25 2.25. Maschine 2 hat die kleinere Abweichungszahl. Bei Idee 4 werden Abweichungen quadratisch "bestraft". Grössere Abweichungen werden also stärker gewichtet als kleinere. Die durchschnittliche quadratisch bestrafte Abweichung vom Mittelwert wird Varianz s2 genannt. Maschine 1 hat eine Varianz von 8.05, Maschine 2 eine solche von 4.05; sie arbeitet also mit weniger Schwankungen.*) Bemerkung 1: Schliesst man von der Stichprobenvarianz auf die Varianz der Grundgesamtheit, wird in der Varianzformel links anstelle des Nenners n der Nenner n - 1 verwendet (Bessel-Korrektur), da die Formel mit Nenner n, die Varianz der Grundgesamtheit systematisch etwas zu tief schätzt. Genauere Begründung und Illustration dafür: hier. Bemerkung 2: Da die Varianz eine quadrierte Grösse ist, stimmt die Einheit (hier mm2 ) nicht mit der ursprünglichen Einheit (mm) überein. Deshalb betrachtet man häufig die Wurzel aus der Varianz, also s. Diese Grösse wird Standardabweichung s genannt. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
10.6. Boxplot (Box and Whiskers-Plot) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Eine gute Übersicht findet sich hier: http://de.wikipedia.org/wiki/Boxplot Der Boxplot gibt für quantitative Daten eine schnelle Übersicht über Lage und Verteilung. Die Daten werden zuerst nach Grösse sortiert. Das untere Quartil ist derjenige Wert, der an der Grenze zum untersten Viertel liegt. Der Median ist der mittlere Wert. Das obere Quartil liegt an der Grenze zum obersten Viertel.
Beispiel: Prüfungspunkte in einer Klasse (n = 17): Zuerst werden die Daten der Grösse nach geordnet:
Nun werden gemäss Tabelle rechts die Werte für den Boxplot bestimmt: Man definiert also die Ausreisser wie folgt: Nun kann der Boxplot gezeichnet werden:
Hier der Boxplot wie er von einem Statistikprogramm erzeugt wird:
|
Formeln für die Erstellung eines Boxplots:
Bemerkungen zum Boxplot: Die Ausreisser werden als Einzelwerte eingezeichnet. Weitere Werte (nicht zum Boxplot gehörend): Stängel-Blatt-Diagramm |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Rot: Median, grün: Mittelwert. Die Werte sind hier fast gleich gross. |
Interpretation der Standardabweichung s Bei einer Normalverteilung (symmetrische Glockenverteilung) befinden sich
Bei einer beliebigen (nicht unbedingt symmetrischen) Verteilung kann man nicht so viel sagen. Die Formel von Tschebyschev besagt: Es befinden sich
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
11. Mittelwert und Varianz einer Wahrscheinlichkeitsverteilung | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wir betrachten nochmals die empirische Häufigkeitsverteilung von Beispiel 10.2.: Dann berechnet sich der Mittelwert (Durchschnitt) wie folgt:
Die Varianz ist die durchschnittliche quadratische Abweichung vom Mittelwert (wir nehmen an, n sei gross, so dass wir statt durch (n - 1) ohne grosse Abweichung auch durch n dividieren können):
|
Nun betrachten wir eine Zufallsvariable X aus einem Glücksspiel (Beispiel: X = Anzahl Einsen beim Würfeln mit n Würfeln). Der Wert xi komme mit Wahrscheinlichkeit pi vor. In Analogie zur Situation in der linken Spalte können wir auch hier eine mittlere Erwartung und eine Varianz berechnen. Die Wahrscheinlichkeit pi ist die relative Häufigkeit auf lange Sicht (bei sehr vielen Würfen). An die Stelle von hi tritt also hier einfach pi . An die Stelle des Mittelwerts tritt der sogenannte Erwartungswert E(X) oder μX . Er sagt, mit welchem Durchschnittswert von X wir bei sehr vielen Würfen (n sehr gross) rechnen müssen. Die Analogie sieht also so aus:
Die Formeln für Erwartungswert und Varianz einer Wahrscheinlichkeitsverteilung lauten demnach:
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Erwartungswert und Varianz der Binomialverteilung μ = n ⋅ p σ2 = n⋅p⋅(1 - p) Beispiel rechts: Würfeln mit 10 Würfeln. Zufallsvariable X: "Anzahl gewürfelte Einsen". |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
12. Wir testen eine Werksgarantie
Vorbemerkung:
Die Säulendiagramme zeigen die Wahrscheinlichkeiten p(x), beim Würfeln mit n Würfeln x-mal eine Eins zu würfeln. Mit wachsendem n verschiebt sich der Erwartungswert μ nach rechts und die Verteilung wird zunehmend breiter und flacher. Dies liegt daran, dass bei gleich bleibender Streifenbreite die Diagrammfläche konstant bleibt. Wählt man die Streifenbreite = 1, so ist die gesamte Fläche aller Streifen zusammen gleich 1 (Summe aller Teilwahrscheinlichkeiten = 1). Geogebramodell Binomialverteilung Die Binomialverteilung nähert sich mit wachsendem n einer symmetrischen, glockenförmigen Verteilung, einer sogenannten gaussschen Normalverteilung an. Für eine gausssche Normalverteilung gilt:
Für σ2 = n⋅p⋅(1 - p) > 9 kann eine Binomialverteilung durch eine Normalverteilung angenähert werden, für welche obige Regeln gelten.
Dies wenden wir nun an, um eine Werksgarantie zu testen:
|
Lösung: Es ist n = 1'000 und p("Birne in Ordnung") = 0.98. Die Bedingung für die Näherung durch die Normalverteilung ist gegeben, d.h. das Histogramm unten entspricht ziemlich gut einer gaussschen Glockenverteilung (man erkennt nur noch leichte Asymmetrien beim genaueren Hinsehen; die Verteilung ist noch ein ganz klein wenig linksschief; Säulen von vernachlässigbarer Höhe würden ja noch bis 0 gehen).
Im Bereich [980 - 2⋅4.4; 980 + 2⋅4.4] = [971,2; 988.8] befinden sich ca. 95.4% aller Stichprobenresultate, d.h. in 95.4% der gemachten Stichproben erwarten wir zwischen 972 und 988 funktionierende Birnen. In weniger als 2.5% der Stichproben erwarten wir Anzahlen ≤ 971, ebenso erwarten wir in weniger als 2.5% der Stichproben Anzahlen ≥ 989; diese Fälle sind also - sofern die Werksbedingungen zutreffen - sehr unwahrscheinlich. Wir fanden in unserer Stichprobe nur 968 funktionierende Birnen. Eine solche Stichprobe zu ziehen ist unter Voraussetzung der abgegebenen Werksgarantie eher unwahrscheinlich. Somit zweifeln wir diese an. Wir benutzen das Intervall [μ - 2σ, μ + 2σ] als Annahmebereich (in der Grafik grün markiert): Liegt unser Stichprobenwert innerhalb dieses Intervalls, vertrauen wir der Werksgarantie. Liegt das Resultat unterhalb dieses Intervalls, zweifeln wir die Garantie an. (Theoretisch wäre es allerdings möglich, dass auf sehr unwahrscheinliche Art und Weise trotz eingehaltener Werksgarantie eine solch tiefe Anzahl korrekter Birnen in einer Stichprobe auftreten könnte; die Wahrscheinlichkeit dafür ist jedoch < 2.5%, d.h. wir prangern die Firma vermutlich zu Recht an.) |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bemerkungen zu obigem Test Für σ2 = n⋅p⋅(1 - p) > 9 können wir bei einer Binomialverteilung die Regeln für Normalverteilung anwenden. Das Intervall [μ - 2σ, μ + 2σ] ist der 95.4%-Annahmebereich. Warum sagt eine Abweichung vom Mittelwert allein noch nicht viel aus? |
Nehmen wir als Beispiel die Körpergrösse von Menschen: Ist eine Abweichung von 7 cm vom Mittelwert viel oder wenig, auffällig oder nicht auffällig? Die Antwort hängt von der Streuung der Körpergrösse in der Gesamtbevölkerung ab. Für die Normalverteilung besagt eine Abweichung von einer Standardabweichung vom Mittelwert nach unten, dass die Person sich ungefähr an der Grenze zum kleinsten Sechstel der Bevölkerung befindet. Eine Abweichung von 1 σ vom Mittelwert nach oben bedeutet, dass sich die Person etwa an der Grenze zum obersten Sechstel der Bevölkerung befindet. Dazwischen liegen die 2/3 der "unauffälligen Durchschnittspersonen". Abweichungen von 2σ sind bereits sehr auffällig: Nur noch etwa 1/40 der Bevölkerung zeigt extremere Werte. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Link: Eine sehr übersichtliche Zusammenfassung der deskriptiven Statistik: |
Körpergrössen in der Schweiz (Quelle: s. Link Prof. Dr. Burkhardt Seifert, UZH, linke Spalte):
a) Ermitteln Sie das 68%-Intervall. Lösungen: a) männlich: 180.20 ± 12.466 → [167.734, 192.666] |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Die Ungleichung von Tschebyscheff Eine heuristische Herleitung hier. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Von der Binomial- zur Normalverteilung: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Folgende Bildserie: Eine Firma behauptet, dass 98% der ausgelieferten Ware in Ordnung sei. Dies prüft man mittels Stichproben der Grösse n nach. Dem entspricht eine Bernoulli-Kette mit p("Treffer") = 0.98 und demzufolge p("Niete") = 0.02. Man sieht die Entwicklung der Histogramme für wachsende Stichprobengrösse n. | Man sieht, dass das anfänglich schiefe Histogramm mit wachsendem n sich symmetrisiert. Gleichzeitig wandert der Mittelwert nach rechts und die Wahrscheinlichkeitswerte der Säulen werden kleiner (das Histogramm wird bei konstanter Skalierung der y-Achse flacher). Ab n⋅p⋅(1-p) > 9 [in unserem Beispiel also ab ca. n = 460] darf man die Binomialverteilung durch eine Normalverteilung annähern. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Die Werksgarantie für ausgelieferte Teile laute: Im Beispiel mit p = 0.98 ist die Bedingung n⋅p⋅(1-p) > 9 für n > 459 erfüllt. Der 95.4%-Annahmebereich für eine Stichprobe der Grösse n = 500 ist |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Schätzung einer unbekannten Wahrscheinlichkeit | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Die Firma im Beispiel oben gibt diesmal keine Werksgarantie ab. Aufgrund entnommener Stichproben wollen wir jedoch trotzdem die uns unbekannte Produktionszuverlässigkeit, also den Prozentsatz korrekter Teile, zu ermitteln. Wir versuchen also, p("korrekt") abzuschätzen. Wählen wir einmal versuchsweise eine Werksgarantie von p = 0.98. Wir erhalten mit diesem p einen Mittelwert von 1000⋅0.98 = 989 und eine Standardabweichung von (1000⋅0.98⋅0.02)1/2 = 4.43. Wir wählen den 95%-Annahmebereich, d.h. bilden das Annahmeintervall Die Frage lautet nun: Welche p können wir annehmen, um den Stichprobenwert 970 im Annahmebereich [μ -1.96σ , μ + 1.96σ] vorzufinden? Wir suchen diejenigen Werte von p, bei denen 970 gerade noch auf dem linken und auf dem rechten Rand des Intervalls liegt: 970 = μ - 1.96σ oder Diese beiden Gleichungen, aufgelöst nach p, ergeben: p = 0.979 bzw. p = 0.957. Die gesuchte Werksgarantie, d.h. das gesuchte p("korrekt"), liegt also mit 95%-iger Wahrscheinlichkeit zwischen den Werten 0.957 und 0.979. |
Das Intervall [0.957 , 0.979] ist das durch unsere Stichprobe (k = 970 Treffer) gefundene 95%-Vertrauensintervall für die gesuchte Wahrscheinlichkeit p("korrekt"). Jede entnommene Stichprobe ergibt ein leicht anderes Vertrauensintervall. Bei 95% der so berechneten Vertrauensintervalle erwarten wir eine Überdeckung des wirklichen Wahrscheinlichkeitswertes, d.h. der wirklichen, aber uns unbekannten Werksgarantie. Im folgenden Geogebra-Applet werden Vertrauensintervalle berechnet: Man entnimmt eine Stichprobe der Grösse n = 1000 und ermittelt die Anzahl k der korrekten Teile (der "Treffer"). Mittels des Schiebereglers wird k eingestellt. Das Applet zeigt dann das Vertrauensintervall, welches mit 95%-iger Wahrscheinlichkeit den wirklichen Wert von p überdeckt. Geogebra-Applet zur Berechnung des Vertrauensintervalls für p. Entnahme von 20 Stichproben der Grösse n = 1000 bei einer wirklichen Werkszuverlässigkeit von p("korrekt") = 0.950. Normalerweise kennt man das wirkliche p nicht und schätzt ein Vertrauensintervall aufgrund der Stichprobe. Bei den 95%-Vertrauensintervallen erwarten wir, dass etwa 19 von 20 Stichproben Intervalle liefern, die den wirklichen Wert von p überdecken. Rot markiert ein "Ausreisser-Intervall". Hätten wir nur diese eine Ausreisser-Stichprobe gezogen, würden wir das wahre p falsch schätzen. Eine solche Ausreisser-Stichprobe ist jedoch selten. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Rechts: Konfidenzellipse Die Ellipse begrenzt das 95%-Vertrauensintervall für p("korrekt"). Die Darstellung wird oft auch mit vertauschten Achsen abgebildet. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Faustformel zur Abschätzung der unbekannten Wahrscheinlichkeit | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sei wieder p("korrekt") unbekannt. Wir finden in der Stichprobe der Grösse n den relativen Anteil h = x / n an korrekten Teilen. Es ist p = μ / n.
|
Beispiel 1: Wir nehmen noch einmal dasselbe Beispiel wie oben ("Schätzung einer unbekannten Wahrscheinlichkeit") und schätzen diesmal mit der "Faustformel": Man sieht, dass diese "Faustschätzung" gröber ist als die genauere Schätzung oben, welche ein engeres 95%-Vertrauensintervall von [95.7%, 97.9%] ergab. Beispiel 2: Ein Politiker möchte durch eine Umfrage die Wahrscheinlichkeit p für seine Wiederwahl abschätzen. Er befragt 1000 Personen. 540 Personen geben an, ihn wählen zu wollen. Welches Vertrauensintervall (Niveau mind. 95%) ergibt die Faustformel? Lösung: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Glättung von Zeitreihen-Daten; Zusammenhang mit der Faltung zweier Funktionen: s. hier | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||