Wahrscheinlichkeitsrechnung und Statistik fu¨r Studierende der Biologie Einfu ¨ hrung: Deskriptive Statistik Dirk Metzler 15. April 2015 Inhaltsverzeichnis 1 Einf¨ uhrung 1.1 Konzept und Quellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 2 Ziele der deskriptiven (d.h. beschreibenden) Statistik 3 3 Graphische Darstellungen 3.1 Histogramme und Dichtepolygone . 3.2 Stripcharts . . . . . . . . . . . . . 3.3 Boxplots . . . . . . . . . . . . . . . 3.4 Beispiel: Ringeltaube . . . . . . . . 3.5 Beispiel: Darwin-Finken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 5 10 10 12 14 4 Statistische Kenngr¨ oßen 17 4.1 Median und andere Quartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2 Mittelwert und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 5 Vom Sinn und Unsinn von Mittelwerten 27 5.1 Beispiel: W¨ ahlerische Bachstelzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5.2 Beispiel: Spiderman & Spiderwoman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 5.3 Beispiel: Kupfertoleranz beim Roten Straußgras . . . . . . . . . . . . . . . . . . . . . . . . . . 29 1 Einfu ¨ hrung 1.1 Konzept und Quellen It is easy to lie with statistics. It is hard to tell the truth without it. Andrejs Dunkels Die Natur ist voller Variabilit¨ at. Wie geht man mit variablen Daten um? Es gibt eine mathematische Theorie des Zufalls: die Stochastik. IDEE DER STATISTIK: Variabilit¨at (Erscheinung der Natur) durch Zufall (mathematische Abstraktion) modellieren. 1 Also: Statistik ist Datenanalyse mit Hilfe stochastischer Modelle. Quellen Wir danken Matthias Birkner (Uni Mainz), Martin Hutzenthaler (Uni Essen) und No´emie Becker f¨ ur die intensive Zusammenarbeit beim Erstellen fr¨ uherer Version dieser Vorlesung sowie Brooks Ferebee, Gaby Schneider und Anton Wakolbinger (Uni Frankfurt) f¨ ur die Bereitstellung vieler Beispiele und Lehrmaterialien. 1.2 Plan Plan der Vorlesung Klassische Statistik 1. Beschreibende Statistik 2. Der Standardfehler 3. Der t-Test f¨ ur gepaarte Stichproben 4. Der t-Test f¨ ur unabh¨ angige Stichproben 5. H¨ aufigkeiten 6. Der Chi-Quadrat Test 7. Lineare Regression 8. Korrelation 9. Varianzanalyse (ANOVA) Plan der Vorlesung Weitere Themen • Nichtparametrische Tests • Diskriminanzanalyse • Grundbegriffe der Wahrscheinlichkeitstheorie • Parameterscha¨tzung • Moderne Anwendung: Analyse von Genexpressionsdaten (vielleicht) •R 2 Statistik-Software R http://www.r-project.org ¨ Folien, R-Befehle, Quellen und Ubungen http://evol.bio.lmu.de/_statgen/StatBiol/15SS 2 Ziele der deskriptiven (d.h. beschreibenden) Statistik Beschreibende Statistik Beschreibende Statistik: Ein erster Blick auf die Daten 3 Graphische Darstellungen Beispiel Daten aus einer Diplomarbeit aus 2001 am Forschungsinstitut Senckenberg, Frankfurt am Main Crustaceensektion Leitung: Dr. Michael Tu ¨rkay ¨ Charybdis acutidens TURKAY 1985 3 Der Springkrebs Galathea intermedia Helgola¨nder Tiefe Rinne, Fang vom 6.9.1988 Carapaxl¨ange (mm): Nichteiertragende Weibchen (n = 215) 2,9 3,0 2,8 2,7 2,6 2,6 3,0 2,9 2,5 2,5 3,0 2,7 2,9 3,4 2,7 3,0 2,9 2,5 2,5 2,8 3,0 2,8 2,8 . 2,7 2,9 2,9 2,8 2,9 . 2,9 2,8 3,2 2,8 2,9 . 2,9 2,8 3,1 2,7 2,3 . 3,0 2,4 3,0 3,0 2,7 . Nichteiertragende Weibchen am 6. Sept. '88, n=215 ● ● ● 3.0 ● ● ● ● 2.5 ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●●●● ● ● ● ●● ● ●● ●● ● ●●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ●●● ●● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●● 2.0 Carapaxlänge [mm] ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ●●● ● ●● ● ● ● ● 0 50 100 Index 4 150 ● ● ● 200 Histogramme und Dichtepolygone Eine M¨oglichkeit der graphischen Darstellung: das Histogramm 60 Nichteiertragende Weibchen am 6. Sept. ’88, n=215 30 40 50 Wieviele haben Carapaxlänge zwischen 2,0 und 2,2? 0 10 20 22 1.5 2.0 2.5 3.0 3.5 Carapaxlänge [mm] Analoge Daten zwei Monate sp¨ater (3.11.88): 0 5 10 15 20 25 Nichteiertragende Weibchen am 3. Nov. '88, n=57 Anzahl Anzahl 3.1 1.5 2.0 2.5 3.0 Carapaxlänge [mm] 5 3.5 40 30 0 10 20 Anzahl 50 60 Nichteiertragende Weibchen 1.5 2.0 2.5 3.0 3.5 Carapaxlänge [mm] Vergleich der beiden Verteilungen 6.Sept: n = 215 3.Nov : n = 57 Idee: stauche vertikale Achse so, dass Gesamtfl¨ache = 1. Problem: ungleiche Stichprobenumf¨ ange: 0.0 0.5 Dichte 1.0 1.5 Nichteiertragende Weibchen am 6. Sept. ’88, n=215 1.5 2.0 2.5 3.0 Carapaxlänge [mm] 3.5 Die neue vertikale Koordinate ist jetzt eine Dichte (engl. density). 1.5 Nichteiertragende Weibchen am 6. Sept. ’88, n=215 Dichte ? 1.0 = Anteil des Ganzen pro mm ¨ Gesamtflache=1 0.5 Dichte Welcher Anteil ¨ hatte eine Lange zwischen 2.8 und 3.0 mm? (3.0 − 2.8) · 0.5 = 0.1 0.0 10% 1.5 2.0 3.0 2.5 Carapaxlänge [mm] 3.5 Die beiden Histogramme sind jetzt vergleichbar, denn sie haben dieselbe Gesamtfl¨ache: 6 Versuche, die Histogramme zusammen zu zeigen: Nichteiertragende Weibchen Dichte 1.5 1.5 1.0 1.0 0.0 0.0 0.5 0.5 Dichte 2.0 2.0 2.5 2.5 Nichteiertragende Weibchen 1.5 2.0 2.5 3.0 3.5 1.5 2.0 Carapaxlänge [mm] 2.5 3.0 0.0 0.5 1.0 1.5 2.0 Carapaxlänge [mm] 1.5 1.7 1.9 2.1 2.3 2.5 2.7 2.9 3.1 3.3 3.5 3.7 Unser Rat an Sie: Wenn Sie Schauwerbegestalter(in) sind: Beeindrucken Sie Jung und Alt mit total abgefahrenen 3D-Plots! Wenn Sie Wissenschaftler(in) werden wollen: Bevorzugen Sie einfache und klare 2D-Darstellungen. Problem: Histogramme kann man nicht ohne weiteres in demselben Graphen darstellen, weil sie einander u urden. ¨berdecken w¨ Einfache und klare L¨ osung: Dichtepolygone 7 3.5 Nichteiertragende Weibchen am 3. Nov. '88, n=57 1.0 Dichte 0.0 0.0 0.5 0.5 Dichte 1.0 1.5 2.0 1.5 Nichteiertragende Weibchen am 6. Sept. '88, n=215 1.5 2.0 2.5 3.0 3.5 1.5 Carapaxlänge [mm] 3. Nov. '88 1.0 1.5 6. Sept. '88 0.0 0.5 Anzahl 2.0 2.5 Nichteiertragende Weibchen 1.5 2.0 2.5 2.5 3.0 Carapaxlänge [mm] Zwei und mehr Dichtepolygone in einem Plot 1.0 2.0 3.0 3.5 4.0 Carapaxlänge [mm] Biologische Interpretation der Verschiebung? Anzahl vs. Dichte 8 3.5 8 6 4 Anzahl 2 0 1 2 3 4 5 6 7 4 8 Also: Bei Histogrammen mit ungleichm¨aßiger Unterteilung immer Dichten verwenden! 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0.2 0.4 0 0.0 Dichte 0 Anzahl 0 9 Stripcharts 6.9.88 6.9.88 3.2 3.11.88 3.11.88 ● 1.5 2.0 2.5 3.0 3.5 ● ● ● ●● ● ●●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●●● ●● ● ●●● ●● ● ● ● ● ● ● ●● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ●● ● ●● ●● ● ● ●● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●●● ●● ● ●● ●● ● ●● ● ● ● ●●●● ●●● ● ● ● ● ●● ● ● ●●● ●● ●● ● ● 1.5 2.0 ● 2.5 Carapax 3.0 Carapax Boxplots, vertikal Boxplots, horizontal 6.9.88 3.5 ● ● 3.11.88 2.5 3.0 ● ● ● 1.5 2.0 2.5 3.0 3.5 1.5 2.0 ● ● ● 3.11.88 6.9.88 Histogramme und Dichtepolygone geben ein ausf¨ uhrliches Bild eines Datensatzes. Manchmal zu ausf¨ uhrlich. 3.3 Boxplots ¨ Zu viel Information erschwert den Uberblick Baum Baum Baum Baum Baum Baum Baum Baum Baum Baum Baum Baum Baum Wald? Beispiel: Vergleich von mehreren Gruppen 10 3.5 10 12 14 8 10 12 14 8 10 12 14 8 10 12 14 3 8 0.0 Dichte 1 Dichte 0.0 2 Dichte 0.00 4 Dichte 0.00 8 10 12 14 Der Boxplot Boxplot, einfache Ausführung Boxplot, einfache Ausführung 25% 2.5 3.0 3.5 2.0 2.5 3.0 2.5 Max 3.0 3.5 Carapaxlänge [mm] Carapaxlänge [mm] Boxplot, Standardausführung 2.0 25% 1. Quartil 3. Quartil Median Min 2.0 25% 25% Boxplot, Standardausführung 3.5 Carapaxlänge [mm] 2.0 2.5 Carapaxlänge [mm] 11 3.0 3.5 Boxplot, Profiausstattung Boxplot, Profiausstattung 95 % Konfidenzintervall für den Median 2.0 2.5 3.0 3.5 2.0 Carapaxlänge [mm] 3.4 2.5 3.0 Carapaxlänge [mm] Beispiel: Ringeltaube Beispiel: Die Ringeltaube Palumbus palumbus Wie h¨angt die Stoffwechselrate bei der Ringeltaube von der Umgebungstemperatur ab? Daten aus dem AK Stoffwechselphysiologie Prof. Prinzinger Universit¨at Frankfurt 12 3.5 Klar: Stoffwechselrate h¨oher bei tiefen Temperaturen Vermutung: Bei hohen Temperaturen nimmt die Stoffwechselrate wieder zu (Hitzestress). 13 3.5 Beispiel: Darwin-Finken Charles Robert Darwin (1809-1882) 14 Darwin-Finken http://darwin-online.org.uk/graphics/Zoology_Illustrations.html Darwins Finken-Sammlung Literatur [1] Sulloway, F.J. (1982) The Beagle collections of Darwin’s Finches (Geospizinae). Bulletin of the British Museum (Natural History), Zoology series 43: 49-94. [2] http://datadryad.org/repo/handle/10255/dryad.154 Fl¨ ugell¨ angen der Darwin-Finken 15 Flor_Chrl Flor_Chrl SCris_Chat SCris_Chat Snti_Jams Snti_Jams Flügellängen je nach Insel 60 70 80 90 60 70 80 90 WingL Barplot für Flügellängen (Anzahlen) 6 Flügellängen je nach Insel ● ●● ● ● SCris_Chat Flor_Chrl Snti_Jams ● ● ●● ● ● ●● ● ● ●● ●● 2 Flor_Chrl 3 ●● ● ● ● 5 ● ● ●●●●●●●●● ● 4 ●● ● ● ● ● ●● SCris_Chat Snti_Jams ● 0 1 ●● ● 60 70 80 90 47.5 52.5 57.5 62.5 67.5 77.5 82.5 87.5 0.20 Dichteplot 0.20 Histogramm (Dichten!) mit Transparenz 72.5 ● ● ● SCris_Chat Flor_Chrl Snti_Jams 0.10 Dichte 0.15 ● 0.00 0.05 0.10 0.05 0.00 Density 0.15 SCris_Chat Flor_Chrl Snti_Jams 50 60 70 80 90 Flügellängen 50 60 70 80 Flügellängen 16 90 92.5 97.5 Schnabelgröße je nach Art ● 20 ●● ●● ●●● ● ● ● 15 ● ● ●● ● ● ● ● ● 10 ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● 5 ● ● ●● Cam.par Cer.oli Geo.dif Geo.for Geo.ful Geo.sca Pla.cra Fazit 1. Histogramme erlauben einen detailierten Blick auf die Daten 2. Dichtepolygone erlauben Vergleiche zwischen vielen Verteilungen 3. Boxplot k¨ onnen große Datenmengen vereinfacht zusammenfassen 4. Bei kleinen Datenmengen eher Stripcharts verwenden 5. Vorsicht mit Tricks wie 3D oder halbtransparenten Farben 6. Jeder Datensatz ist anders; keine Patentrezepte 4 Statistische Kenngr¨ oßen Es ist oft m¨oglich, das Wesentliche an einer Stichprobe mit ein paar Zahlen zusammenzufassen. Wesentlich: 1. Wie groß? Lageparameter 17 2. Wie variabel? Streuungsparameter Eine Mo¨glichkeit kennen wir schon aus dem Boxplot: Lageparameter Der Median Streuungsparameter Der Quartilabstand (Q3 − Q1 ) 4.1 Median und andere Quartile Der Median: die H¨alfte der Beobachtungen sind kleiner, die H¨alfte sind gr¨oßer. Der Median ist das 50%-Quantil der Daten. Die Quartile Das erste Quartil, Q1 : ein Viertel der Beobachtungen sind kleiner, drei Viertel sind gr¨oßer. Q1 ist das 25%-Quantil der Daten. Die Quartile Das dritte Quartil, Q3 : drei Viertel der Beobachtungen sind kleiner, ein Viertel sind gr¨oßer. Q3 ist das 75%-Quantil der Daten. 18 4.2 Mittelwert und Standardabweichung Am h¨aufigsten werden benutzt: Lageparameter Der Mittelwert x Streuungsparameter Die Standardabweichung s Der Mittelwert (engl. mean) NOTATION: Wenn die Beobachtungen x1 , x2 , x3 , . . . , xn heißen, schreibt man oft x fu ¨r den Mittelwert. DEFINITION: Mittelwert[1ex] =[1ex] Summe der Messwerte Anzahl der Messwerte Summe Anzahl Der Mittelwert von x1 , x2 , . . . , xn als Formel: x = (x1 + x2 + · · · + xn )/n n 1X = xi n i=1 19 Beispiel: x1 = 3, x2 = 0, x3 = 2, x4 = 3, x5 = 1 x = Summe/Anzahl x = (3 + 0 + 2 + 3 + 1)/5 x = 9/5 x = 1,8 Geometrische Bedeutung des Mittelwerts: Der Schwerpunkt Wir stellen uns die Beobachtungen als gleich schwere Gewichte auf einer Waage vor: Wo muß der Drehpunkt sein, damit die Waage im Gleichgewicht ist? ♦ ♦ ♦ ♦ ♦ 0 1 2 3 x m = 1,5 ? m=2? m = 1,8 ? 20 zu klein zu groß richtig Beispiel: Galathea intermedia Rundlichkeit“ := Abdominalbreite / Carapaxl¨ange ” Vermutung: Rundlichkeit nimmt bei Geschlechtsreife zu 21 Beispiel: 3.11.88 Die Standardabweichung Wie weit weicht eine typische Beobachtung vom Mittelwert ab ? Mittelwert=2,8 typische 23 1 −0,8 =? Abweichung == 4−−2,8 2,8==−1,8 1,2 0,2 1 2 3 22 4 Die Standardabweichung σ (“sigma”) [auch SD von engl. standard deviation] ist ein etwas komisches gewichtetes Mittel der Abweichungsbetr¨age und zwar q σ = Summe(Abweichungen2 )/n Die Standardabweichung von x1 , x2 , . . . , xn als Formel: v u n u1 X σ=t (xi − x)2 n i=1 P σ 2 = n1 ni=1 (xi − x)2 heißt Varianz. 0.6 0.4 0.0 0.2 probability density 0.8 1.0 Faustregel f¨ ur die Standardabweichung Bei ungef¨ ahr glockenf¨ ormigen (also eingipfligen und symmetrischen) Verteilungen liegen ca. 2/3 der Ver- x−σ x x+σ teilung zwischen x − σ und x + σ. Standardabweichung der Carapaxl¨ angen nichteiertragender Weibchen vom 6.9.88 1.5 Nichteiertragende Weibchen σ = 0.28 x = 2.53 σ = 0.077 1.0 0.5 0.0 Dichte 2 2.0 2.5 3.0 Carapaxlänge [mm] 23 Hier liegt der Anteil zwischen x − σ und x + σ bei 72%. Varianz der Carapaxl¨ angen nichteiertragender Weibchen vom 6.9.88 Alle Carapaxl¨ angen im Meer: X = (X1 , X2 , . . . , XN ).Carapaxl¨angen in unserer Stichprobe: S = (S1 , S2 , . . . , Sn=215 ) Stichprobenvarianz: 215 1X σS2 = (Si − S)2 ≈ 0,0768 n i=1 2 K¨ onnen wir 0,0768 als Sch¨ atzwert f¨ ur die Varianz σX in der ganzen Population verwenden?Ja, k¨onnen wir 2 2 machen. Allerdings ist σS im Durchschnitt um den Faktor n−1 n (= 214/215 ≈ 0, 995) kleiner als σX Varianzbegriffe PN 2 Varianz in der Population: σX = N1 i=1 (Xi − X)2 Pn Stichprobenvarianz: σS2 = n1 i=1 (Si − S)2 korrigierte Stichprobenvarinanz: s2 = = = n σ2 n−1 S n n 1 X · · (Si − S)2 n − 1 n i=1 n X 1 · (Si − S)2 n − 1 i=1 Mit “Standardabweichung von S” ist meistens das korrigierte s gemeint. =2 Beispiel Die Daten x =? x = 10/5 Summe x x−x (x − x)2 1 3 0 5 1 10 −1 1 −2 3 −1 1 1 4 9 0 1 16 s2 = Summe (x − x)2 /(n − 1) = 16/(5 − 1) = 4 s = 2 24 0.20 Mittelwert: 25.14 Standardabweichung: 1.38 0.00 20 22 24 26 28 30 Laenge [cm] 0.20 Dichte Eine simulierte Fischpopulation (N=10000 adulte) Mittelwert: 25.14 Standardabweichung: 1.38 0.00 Dichte Eine simulierte Fischpopulation (N=10000 adulte) 20 22 24 26 28 30 28 30 Laenge [cm] Eine Stichprobe aus der Population (n=10) M: 24.33 SD mit (n−1): 1.58 SD mit n: 1.42 20 ●● 22 ●● ●● ● 24 ● 26 Laenge [cm] 25 ● 0.20 0.00 Dichte Eine simulierte Fischpopulation (N=10000 adulte) Mittelwert: 25.14 Standardabweichung: 1.38 20 22 24 26 28 30 28 30 28 30 Laenge [cm] Eine Stichprobe aus der Population (n=10) M: 24.33 SD mit (n−1): 1.58 SD mit n: 1.42 20 ●● ●● ●● 22 ● ● 24 ● 26 Laenge [cm] Noch eine Stichprobe aus der Population (n=10) M: 24.93 SD mit (n−1): 1.01 SD mit n: 0.91 20 ● 22 ●●● ●● ● ●● 24 ● 26 Laenge [cm] Die folgenden Histogramme zeigen die Standardabweichungen, die aus 1000 verschiedenen Stichproben aus der selben Verteilung gesch¨ atzt wurden. Die durchgezogenen Linien stellen die tats¨achliche Standardabweichung der Verteilung dar, die gestrichelten Linien die Mittelwerte der gesch¨atzten Standardabweichugen. 0.0 0.6 1.2 Density 1000 Stichproben, jeweils vom Umfang n=10 0.5 1.0 1.5 2.0 0.8 0.0 Density SD mit n−1 berechnet 0.5 1.0 1.5 2.0 SD mit n berechnet σ mit n oder n − 1 berechnen? Die Standardabweichung σ eines Zufallsexperiments mit n gleichwahrscheinlichen Ausg¨angen x1 , . . . , xn (z.B. W¨ urfelwurf) ist klar definiert durch v u n u1 X 2 t (x − xi ) . n i=1 Wenn es sich bei x1 , . . . , xn um eine Stichprobe handelt (wie meistens in der Statistik), sollten Sie die 26 Formel v u u t n 1 X 2 (x − xi ) n − 1 i=1 verwenden. 5 Vom Sinn und Unsinn von Mittelwerten Mittelwert und Standardabweichung. . . • charakterisieren die Daten gut, falls deren Verteilung glockenf¨ormig ist • und m¨ ussen andernfalls mit Vorsicht interpretiert werden. ¨ Wir betrachten dazu einige Lehrbuch-Beispiele aus der Okologie, siehe z.B. Literatur [BTH08] M. Begon, C. R. Townsend, and J. L. Harper. Ecology: From Individuals to Ecosystems. Blackell Publishing, 4 edition, 2008. Im Folgenden verwenden wir zum Teil simulierte Daten, wenn die Originaldaten nicht verf¨ ugbar waren. Glauben Sie uns also nicht alle Datenpunkte. 5.1 Beispiel: W¨ ahlerische Bachstelzen Bachstelzen fressen Dungfliegen Vermutung • Die Fliegen sind unterschiedlich groß • Effizienz f¨ ur die Bachstelze = Energiegewinn / Zeit zum Fangen und fressen • Laborexperimente lassen vermuten, dass die Effizienz bei 7mm großen Fliegen maximal ist. Literatur [Dav77] N.B. Davies. Prey selection and social behaviour in wagtails (Aves: Motacillidae). J. Anim. Ecol., 46:37–57, 1977. 27 available dung flies captured dung flies 50 40 sd= 0.69 30 number 100 sd= 0.96 20 150 mean= 7.99 0 0 10 50 number 60 mean= 6.79 4 5 6 7 8 9 10 11 length [mm] 4 5 6 7 8 length [mm] 0.5 dung flies: available, captured 0.2 0.3 available 0.0 0.1 fraction per mm 0.4 captured 4 5 6 7 8 9 10 11 length [mm] Vergleich der Gr¨ oßenverteilungen captured Mittelwert 6.29 < Standardabweichung 0.69 < available 7.99 0.96 Interpretation Die Bachstelzen bevorzugen Dungfliegen, die etwa 7mm groß sind. Hier waren die Verteilungen glockenf¨ormig und es gen¨ ugten 4 Werte (die beiden Mittelwerte und die beiden Standardabweichungen), um die Daten ad¨aquat zu beschreiben. 5.2 Beispiel: Spiderman & Spiderwoman Simulated Data: Eine Stichprobe von 70 Spinnen Mittlere Gr¨ oße: 21,06 mm 28 9 10 Standardabweichung der Gr¨ oße: 12,94 mm 3 0 1 2 Frequency 4 5 6 ????? 0 10 20 30 40 50 size [mm] 12 12 14 Nephila madagascariensis (n=70) 14 Nephila madagascariensis (n=70) females 8 10 males 0 2 4 6 Frequency 8 6 0 2 4 Frequency 10 mean= 21.06 0 10 20 30 40 50 size [mm] 0 10 20 30 size [mm] Fazit des Spinnenbeispiels Wenn die Daten aus verschiedenen Gruppen zusammengesetzt sind, die sich bez¨ uglich des Merkmals deutlich unterscheiden, kann es sinnvoll sein, Kenngr¨oßen wie den Mittelwert f¨ ur jede Gruppe einzeln zu berechnen. 5.3 Beispiel: Kupfertoleranz beim Roten Straußgras Literatur [Bra60] A.D. Bradshaw. Population Differentiation in agrostis tenius Sibth. III. populations in varied environments. New Phytologist, 59(1):92 – 103, 1960. [MB68] T. McNeilly and A.D Bradshaw. Evolutionary Processes in Populations of Copper Tolerant Agrostis tenuis Sibth. Evolution, 22:108–118, 1968. 29 40 5 Wir verwenden hier wieder simulierte Daten, da die Originaldaten nicht zur Verf¨ ugung stehen. Anpassung an Kupfer? • Pflanzen, denen das Kupfer schadet, haben k¨ urzere Wurzeln. • Die Wurzell¨ angen von Pflanzen aus der Umgebung von Kupferminen wird gemessen. • Samen von unbelasteten Wiesen werden bei Kupferminen einges¨aht. • Die Wurzell¨ angen dieser “Wiesenpflanzen” werden gemessen. meadow plants 0.02 0.03 0.04 density per cm 0.05 0.06 0.07 Browntop Bent (n=50) 0.00 0.01 copper mine plants 0 50 100 150 200 root length (cm) Browntop Bent (n=50) 100 40 Browntop Bent (n=50) m−s density per cm 60 0 0 20 10 20 m+s m 40 density per cm 80 m−s m+s m meadow plants 30 copper mine plants 0 50 100 150 200 0 50 root length (cm) 100 150 200 root length (cm) 2/3 der Wurzell¨ angen innerhalb [m-sd,m+sd]???? Nein! Fazit des Straußgras-Beispiels Manche Verteilungen k¨onnen nur mit mehr als zwei Variablen angemessen beschrieben werden. z.B. mit den f¨ unf Werten der Boxplots: min, Q1 , median, Q3 , max 30 Browntop Bent n=50+50 copper mine plants ● ● meadow plants ● ● ● 0 ● ● ●● 50 ● ●● ● ●● ● 100 ● 150 ● 200 root length (cm) Schlussfolgerung In der Biologie sind viele Datenverteilungen ann¨ahernd glockenf¨ormig und k¨onnen durch den Mittelwert und die Standardabweichung hinreichend beschrieben werden. Es gibt aber auch Ausnahmen. Also: Immer die Daten erst mal graphisch untersuchen! Verlassen sie sich niemals allein auf numerische Kenngr¨oßen! 31
© Copyright 2024