Handout

Wahrscheinlichkeitsrechnung und
Statistik fu¨r Studierende der Biologie
Einfu
¨ hrung: Deskriptive Statistik
Dirk Metzler
15. April 2015
Inhaltsverzeichnis
1 Einf¨
uhrung
1.1 Konzept und Quellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Plan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
2
2 Ziele der deskriptiven (d.h. beschreibenden) Statistik
3
3 Graphische Darstellungen
3.1 Histogramme und Dichtepolygone .
3.2 Stripcharts . . . . . . . . . . . . .
3.3 Boxplots . . . . . . . . . . . . . . .
3.4 Beispiel: Ringeltaube . . . . . . . .
3.5 Beispiel: Darwin-Finken . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
5
10
10
12
14
4 Statistische Kenngr¨
oßen
17
4.1 Median und andere Quartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Mittelwert und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5 Vom Sinn und Unsinn von Mittelwerten
27
5.1 Beispiel: W¨
ahlerische Bachstelzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2 Beispiel: Spiderman & Spiderwoman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.3 Beispiel: Kupfertoleranz beim Roten Straußgras . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1
Einfu
¨ hrung
1.1
Konzept und Quellen
It is easy to lie with statistics. It is hard to tell the truth without it.
Andrejs Dunkels
Die Natur ist voller Variabilit¨
at.
Wie geht man mit variablen Daten um?
Es gibt eine mathematische Theorie des Zufalls: die Stochastik.
IDEE DER STATISTIK:
Variabilit¨at (Erscheinung der Natur) durch Zufall (mathematische Abstraktion) modellieren.
1
Also: Statistik ist Datenanalyse mit Hilfe stochastischer Modelle.
Quellen
Wir danken Matthias Birkner (Uni Mainz), Martin Hutzenthaler (Uni Essen) und No´emie Becker f¨
ur
die intensive Zusammenarbeit beim Erstellen fr¨
uherer Version dieser Vorlesung sowie Brooks Ferebee, Gaby
Schneider und Anton Wakolbinger (Uni Frankfurt) f¨
ur die Bereitstellung vieler Beispiele und Lehrmaterialien.
1.2
Plan
Plan der Vorlesung
Klassische Statistik
1. Beschreibende Statistik
2. Der Standardfehler
3. Der t-Test f¨
ur gepaarte Stichproben
4. Der t-Test f¨
ur unabh¨
angige Stichproben
5. H¨
aufigkeiten
6. Der Chi-Quadrat Test
7. Lineare Regression
8. Korrelation
9. Varianzanalyse (ANOVA)
Plan der Vorlesung
Weitere Themen
• Nichtparametrische Tests
• Diskriminanzanalyse
• Grundbegriffe der Wahrscheinlichkeitstheorie
• Parameterscha¨tzung
• Moderne Anwendung: Analyse von Genexpressionsdaten (vielleicht)
•R
2
Statistik-Software R
http://www.r-project.org
¨
Folien, R-Befehle, Quellen und Ubungen
http://evol.bio.lmu.de/_statgen/StatBiol/15SS
2
Ziele der deskriptiven (d.h. beschreibenden) Statistik
Beschreibende Statistik
Beschreibende Statistik: Ein erster Blick auf die Daten
3
Graphische Darstellungen
Beispiel
Daten aus einer Diplomarbeit aus 2001 am Forschungsinstitut Senckenberg,
Frankfurt am Main
Crustaceensektion
Leitung: Dr. Michael Tu
¨rkay
¨
Charybdis acutidens TURKAY
1985
3
Der Springkrebs
Galathea intermedia
Helgola¨nder Tiefe Rinne, Fang vom 6.9.1988
Carapaxl¨ange (mm): Nichteiertragende Weibchen (n = 215)
2,9
3,0
2,8
2,7
2,6
2,6
3,0
2,9
2,5
2,5
3,0
2,7
2,9
3,4
2,7
3,0
2,9
2,5
2,5
2,8
3,0
2,8
2,8
.
2,7
2,9
2,9
2,8
2,9
.
2,9
2,8
3,2
2,8
2,9
.
2,9
2,8
3,1
2,7
2,3
.
3,0
2,4
3,0
3,0
2,7
.
Nichteiertragende Weibchen am 6. Sept. '88, n=215
●
●
●
3.0
● ●
● ●
2.5
●
●
●
●
●
●●
●
●
●
● ● ●●
●
●●● ●
● ●
●
● ●
● ●●
●
●
●
●
●
●
●
● ● ●● ●
●
●
●
●
● ●
● ●●
●●
●● ● ● ●
●
● ●● ●
●
●
●
●●
●
●
●
●
●
●
● ●
●●●●● ●
● ●
●●
●
●● ●● ● ●●● ● ● ●● ●
●
●
● ●
● ●
●●
●
● ● ● ●● ●
●●
● ● ●●●
●● ●●
●
● ● ●
●
● ●● ●
●
●
●●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●
●
● ●
●
●●
●
● ● ● ●
●
●
●
●●●
●
●●
●
●
● ●
●●
2.0
Carapaxlänge [mm]
●
● ●●
●
●
●
●
●● ●
●
●● ●
●
●
●●● ●
●●
●
●
●
●
0
50
100
Index
4
150
●
● ●
200
Histogramme und Dichtepolygone
Eine M¨oglichkeit der graphischen Darstellung:
das Histogramm
60
Nichteiertragende Weibchen am 6. Sept. ’88, n=215
30
40
50
Wieviele haben
Carapaxlänge
zwischen
2,0 und 2,2?
0
10
20
22
1.5
2.0
2.5
3.0
3.5
Carapaxlänge [mm]
Analoge Daten zwei Monate sp¨ater (3.11.88):
0
5
10
15
20
25
Nichteiertragende Weibchen am 3. Nov. '88, n=57
Anzahl
Anzahl
3.1
1.5
2.0
2.5
3.0
Carapaxlänge [mm]
5
3.5
40
30
0
10
20
Anzahl
50
60
Nichteiertragende Weibchen
1.5
2.0
2.5
3.0
3.5
Carapaxlänge [mm]
Vergleich der beiden Verteilungen
6.Sept: n = 215
3.Nov : n = 57
Idee: stauche vertikale Achse so, dass Gesamtfl¨ache = 1.
Problem: ungleiche Stichprobenumf¨
ange:
0.0
0.5
Dichte
1.0
1.5
Nichteiertragende Weibchen am 6. Sept. ’88, n=215
1.5
2.0
2.5
3.0
Carapaxlänge [mm]
3.5
Die neue vertikale Koordinate ist jetzt eine Dichte (engl. density).
1.5
Nichteiertragende Weibchen am 6. Sept. ’88, n=215
Dichte
?
1.0
=
Anteil des Ganzen
pro mm
¨
Gesamtflache=1
0.5
Dichte
Welcher Anteil
¨
hatte eine Lange
zwischen 2.8 und 3.0 mm?
(3.0 − 2.8) · 0.5 = 0.1
0.0
10%
1.5
2.0
3.0
2.5
Carapaxlänge [mm]
3.5
Die beiden Histogramme sind jetzt vergleichbar, denn sie haben dieselbe Gesamtfl¨ache:
6
Versuche, die Histogramme zusammen zu zeigen:
Nichteiertragende Weibchen
Dichte
1.5
1.5
1.0
1.0
0.0
0.0
0.5
0.5
Dichte
2.0
2.0
2.5
2.5
Nichteiertragende Weibchen
1.5
2.0
2.5
3.0
3.5
1.5
2.0
Carapaxlänge [mm]
2.5
3.0
0.0
0.5
1.0
1.5
2.0
Carapaxlänge [mm]
1.5
1.7
1.9
2.1
2.3
2.5
2.7
2.9
3.1
3.3
3.5
3.7
Unser Rat an Sie:
Wenn Sie Schauwerbegestalter(in) sind:
Beeindrucken Sie Jung und Alt mit total abgefahrenen 3D-Plots!
Wenn Sie Wissenschaftler(in) werden wollen:
Bevorzugen Sie einfache und klare 2D-Darstellungen.
Problem: Histogramme kann man nicht ohne weiteres in demselben Graphen darstellen, weil sie einander
u
urden.
¨berdecken w¨
Einfache und klare L¨
osung: Dichtepolygone
7
3.5
Nichteiertragende Weibchen am 3. Nov. '88, n=57
1.0
Dichte
0.0
0.0
0.5
0.5
Dichte
1.0
1.5
2.0
1.5
Nichteiertragende Weibchen am 6. Sept. '88, n=215
1.5
2.0
2.5
3.0
3.5
1.5
Carapaxlänge [mm]
3. Nov. '88
1.0
1.5
6. Sept. '88
0.0
0.5
Anzahl
2.0
2.5
Nichteiertragende Weibchen
1.5
2.0
2.5
2.5
3.0
Carapaxlänge [mm]
Zwei und mehr Dichtepolygone in einem Plot
1.0
2.0
3.0
3.5
4.0
Carapaxlänge [mm]
Biologische Interpretation der Verschiebung?
Anzahl vs. Dichte
8
3.5
8
6
4
Anzahl
2
0
1
2
3
4
5
6
7
4
8
Also: Bei Histogrammen mit ungleichm¨aßiger Unterteilung immer Dichten verwenden!
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
0.2
0.4
0
0.0
Dichte
0
Anzahl
0
9
Stripcharts
6.9.88
6.9.88
3.2
3.11.88
3.11.88
●
1.5
2.0
2.5
3.0
3.5
●
●
●
●●
●
●●●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●●
●●
●
●●●
●●
●
●
●
●
●
●
●●
●
● ●●
●●
●●
●●
●
●
●
●
●
●
●●
●●
●
●●●
●
●
●●
●
●●
●●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●●●
●●
●
●●
●● ●
●●
●
●
●
●●●●
●●●
●
●
● ● ●●
●
●
●●●
●●
●●
●
●
1.5
2.0
●
2.5
Carapax
3.0
Carapax
Boxplots, vertikal
Boxplots, horizontal
6.9.88
3.5
●
●
3.11.88
2.5
3.0
●
●
●
1.5
2.0
2.5
3.0
3.5
1.5
2.0
●
●
●
3.11.88
6.9.88
Histogramme und Dichtepolygone geben ein ausf¨
uhrliches Bild eines Datensatzes. Manchmal zu ausf¨
uhrlich.
3.3
Boxplots
¨
Zu viel Information erschwert den Uberblick
Baum Baum Baum Baum Baum Baum Baum Baum Baum Baum Baum Baum Baum
Wald?
Beispiel:
Vergleich von mehreren Gruppen
10
3.5
10
12
14
8
10
12
14
8
10
12
14
8
10
12
14
3
8
0.0
Dichte
1
Dichte
0.0
2
Dichte
0.00
4
Dichte
0.00
8
10
12
14
Der Boxplot
Boxplot, einfache Ausführung
Boxplot, einfache Ausführung
25%
2.5
3.0
3.5
2.0
2.5
3.0
2.5
Max
3.0
3.5
Carapaxlänge [mm]
Carapaxlänge [mm]
Boxplot, Standardausführung
2.0
25%
1. Quartil
3. Quartil
Median
Min
2.0
25% 25%
Boxplot, Standardausführung
3.5
Carapaxlänge [mm]
2.0
2.5
Carapaxlänge [mm]
11
3.0
3.5
Boxplot, Profiausstattung
Boxplot, Profiausstattung
95 % Konfidenzintervall für den Median
2.0
2.5
3.0
3.5
2.0
Carapaxlänge [mm]
3.4
2.5
3.0
Carapaxlänge [mm]
Beispiel: Ringeltaube
Beispiel:
Die Ringeltaube
Palumbus palumbus
Wie h¨angt die Stoffwechselrate bei der Ringeltaube von der
Umgebungstemperatur ab?
Daten aus dem AK Stoffwechselphysiologie
Prof. Prinzinger Universit¨at Frankfurt
12
3.5
Klar: Stoffwechselrate h¨oher bei tiefen Temperaturen
Vermutung: Bei hohen Temperaturen nimmt die Stoffwechselrate wieder zu
(Hitzestress).
13
3.5
Beispiel: Darwin-Finken
Charles Robert Darwin (1809-1882)
14
Darwin-Finken
http://darwin-online.org.uk/graphics/Zoology_Illustrations.html
Darwins Finken-Sammlung
Literatur
[1] Sulloway, F.J. (1982) The Beagle collections of Darwin’s Finches (Geospizinae). Bulletin of the British
Museum (Natural History), Zoology series 43: 49-94.
[2] http://datadryad.org/repo/handle/10255/dryad.154
Fl¨
ugell¨
angen der Darwin-Finken
15
Flor_Chrl
Flor_Chrl
SCris_Chat
SCris_Chat
Snti_Jams
Snti_Jams
Flügellängen je nach Insel
60
70
80
90
60
70
80
90
WingL
Barplot für Flügellängen (Anzahlen)
6
Flügellängen je nach Insel
●
●●
●
●
SCris_Chat
Flor_Chrl
Snti_Jams
●
●
●●
●
●
●●
●
● ●●
●●
2
Flor_Chrl
3
●● ●
●
●
5
●
● ●●●●●●●●● ●
4
●●
●
● ● ● ●●
SCris_Chat
Snti_Jams
●
0
1
●● ●
60
70
80
90
47.5
52.5
57.5
62.5
67.5
77.5
82.5
87.5
0.20
Dichteplot
0.20
Histogramm (Dichten!) mit Transparenz
72.5
●
●
●
SCris_Chat
Flor_Chrl
Snti_Jams
0.10
Dichte
0.15
●
0.00
0.05
0.10
0.05
0.00
Density
0.15
SCris_Chat
Flor_Chrl
Snti_Jams
50
60
70
80
90
Flügellängen
50
60
70
80
Flügellängen
16
90
92.5
97.5
Schnabelgröße je nach Art
●
20
●●
●●
●●●
●
●
●
15
●
●
●●
●
●
●
●
●
10
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
5
●
●
●●
Cam.par
Cer.oli
Geo.dif
Geo.for
Geo.ful
Geo.sca
Pla.cra
Fazit
1. Histogramme erlauben einen detailierten Blick auf die Daten
2. Dichtepolygone erlauben Vergleiche zwischen vielen Verteilungen
3. Boxplot k¨
onnen große Datenmengen vereinfacht zusammenfassen
4. Bei kleinen Datenmengen eher Stripcharts verwenden
5. Vorsicht mit Tricks wie 3D oder halbtransparenten Farben
6. Jeder Datensatz ist anders; keine Patentrezepte
4
Statistische Kenngr¨
oßen
Es ist oft m¨oglich, das Wesentliche an einer Stichprobe
mit ein paar Zahlen zusammenzufassen.
Wesentlich:
1. Wie groß?
Lageparameter
17
2. Wie variabel?
Streuungsparameter
Eine Mo¨glichkeit kennen wir schon aus dem Boxplot:
Lageparameter
Der Median
Streuungsparameter
Der Quartilabstand (Q3 − Q1 )
4.1
Median und andere Quartile
Der Median:
die H¨alfte der Beobachtungen sind kleiner,
die H¨alfte sind gr¨oßer.
Der Median ist
das 50%-Quantil
der Daten.
Die Quartile
Das erste Quartil, Q1 : ein Viertel der Beobachtungen sind kleiner, drei
Viertel sind gr¨oßer.
Q1 ist das 25%-Quantil der Daten.
Die Quartile
Das dritte Quartil, Q3 : drei Viertel der Beobachtungen sind kleiner, ein
Viertel sind gr¨oßer.
Q3 ist das 75%-Quantil der Daten.
18
4.2
Mittelwert und Standardabweichung
Am h¨aufigsten werden benutzt:
Lageparameter
Der Mittelwert x
Streuungsparameter
Die Standardabweichung s
Der Mittelwert
(engl. mean)
NOTATION:
Wenn die Beobachtungen x1 , x2 , x3 , . . . , xn heißen,
schreibt man oft x fu
¨r den Mittelwert.
DEFINITION:
Mittelwert[1ex] =[1ex]
Summe der Messwerte
Anzahl der Messwerte
Summe
Anzahl
Der Mittelwert von x1 , x2 , . . . , xn als Formel:
x = (x1 + x2 + · · · + xn )/n
n
1X
=
xi
n i=1
19
Beispiel:
x1 = 3, x2 = 0, x3 = 2, x4 = 3, x5 = 1
x = Summe/Anzahl
x = (3 + 0 + 2 + 3 + 1)/5
x = 9/5
x = 1,8
Geometrische Bedeutung des Mittelwerts:
Der Schwerpunkt
Wir stellen uns die Beobachtungen als gleich schwere Gewichte auf einer
Waage vor:
Wo muß der Drehpunkt sein, damit die Waage im Gleichgewicht ist?
♦
♦
♦
♦
♦
0
1
2
3
x
m = 1,5 ?
m=2?
m = 1,8 ?
20
zu klein
zu groß
richtig
Beispiel: Galathea intermedia
Rundlichkeit“ := Abdominalbreite / Carapaxl¨ange
”
Vermutung: Rundlichkeit nimmt bei Geschlechtsreife zu
21
Beispiel:
3.11.88
Die Standardabweichung
Wie weit weicht eine typische Beobachtung vom Mittelwert ab ?
Mittelwert=2,8
typische
23
1
−0,8
=?
Abweichung ==
4−−2,8
2,8==−1,8
1,2
0,2
1
2
3
22
4
Die Standardabweichung σ (“sigma”) [auch SD von engl. standard
deviation] ist ein etwas komisches gewichtetes Mittel der Abweichungsbetr¨age
und zwar
q
σ = Summe(Abweichungen2 )/n
Die Standardabweichung von x1 , x2 , . . . , xn als Formel:
v
u n
u1 X
σ=t
(xi − x)2
n i=1
P
σ 2 = n1 ni=1 (xi − x)2 heißt Varianz.
0.6
0.4
0.0
0.2
probability density
0.8
1.0
Faustregel f¨
ur die Standardabweichung
Bei ungef¨
ahr glockenf¨
ormigen (also eingipfligen und symmetrischen) Verteilungen liegen ca. 2/3 der Ver-
x−σ
x
x+σ
teilung zwischen x − σ und x + σ.
Standardabweichung der Carapaxl¨
angen nichteiertragender Weibchen vom 6.9.88
1.5
Nichteiertragende Weibchen
σ = 0.28
x = 2.53
σ = 0.077
1.0
0.5
0.0
Dichte
2
2.0
2.5
3.0
Carapaxlänge [mm]
23
Hier liegt der Anteil zwischen x − σ und x + σ bei 72%.
Varianz der Carapaxl¨
angen nichteiertragender Weibchen vom 6.9.88
Alle Carapaxl¨
angen im Meer: X = (X1 , X2 , . . . , XN ).Carapaxl¨angen in unserer Stichprobe: S = (S1 , S2 , . . . , Sn=215 )
Stichprobenvarianz:
215
1X
σS2 =
(Si − S)2 ≈ 0,0768
n i=1
2
K¨
onnen wir 0,0768 als Sch¨
atzwert f¨
ur die Varianz σX
in der ganzen Population verwenden?Ja, k¨onnen wir
2
2
machen. Allerdings ist σS im Durchschnitt um den Faktor n−1
n (= 214/215 ≈ 0, 995) kleiner als σX
Varianzbegriffe
PN
2
Varianz in der Population: σX
= N1 i=1 (Xi − X)2
Pn
Stichprobenvarianz: σS2 = n1 i=1 (Si − S)2
korrigierte Stichprobenvarinanz:
s2
=
=
=
n
σ2
n−1 S
n
n
1 X
· ·
(Si − S)2
n − 1 n i=1
n
X
1
·
(Si − S)2
n − 1 i=1
Mit “Standardabweichung von S” ist meistens das korrigierte s gemeint.
=2
Beispiel Die Daten x =? x = 10/5
Summe
x
x−x
(x − x)2
1
3
0
5
1
10
−1 1 −2 3 −1
1
1
4
9
0
1
16
s2 = Summe (x − x)2 /(n − 1)
= 16/(5 − 1) = 4
s = 2
24
0.20
Mittelwert: 25.14
Standardabweichung: 1.38
0.00
20
22
24
26
28
30
Laenge [cm]
0.20
Dichte
Eine simulierte Fischpopulation (N=10000 adulte)
Mittelwert: 25.14
Standardabweichung: 1.38
0.00
Dichte
Eine simulierte Fischpopulation (N=10000 adulte)
20
22
24
26
28
30
28
30
Laenge [cm]
Eine Stichprobe aus der Population (n=10)
M: 24.33
SD mit (n−1): 1.58
SD mit n: 1.42
20
●●
22
●● ●●
●
24
●
26
Laenge [cm]
25
●
0.20
0.00
Dichte
Eine simulierte Fischpopulation (N=10000 adulte)
Mittelwert: 25.14
Standardabweichung: 1.38
20
22
24
26
28
30
28
30
28
30
Laenge [cm]
Eine Stichprobe aus der Population (n=10)
M: 24.33
SD mit (n−1): 1.58
SD mit n: 1.42
20
●●
●● ●●
22
●
●
24
●
26
Laenge [cm]
Noch eine Stichprobe aus der Population (n=10)
M: 24.93
SD mit (n−1): 1.01
SD mit n: 0.91
20
●
22
●●●
●●
●
●●
24
●
26
Laenge [cm]
Die folgenden Histogramme zeigen die Standardabweichungen, die aus 1000 verschiedenen Stichproben aus
der selben Verteilung gesch¨
atzt wurden. Die durchgezogenen Linien stellen die tats¨achliche Standardabweichung der Verteilung dar, die gestrichelten Linien die Mittelwerte der gesch¨atzten Standardabweichugen.
0.0 0.6 1.2
Density
1000 Stichproben, jeweils vom Umfang n=10
0.5
1.0
1.5
2.0
0.8
0.0
Density
SD mit n−1 berechnet
0.5
1.0
1.5
2.0
SD mit n berechnet
σ mit n oder n − 1 berechnen?
Die Standardabweichung σ eines Zufallsexperiments mit n gleichwahrscheinlichen Ausg¨angen x1 , . . . , xn
(z.B. W¨
urfelwurf) ist klar definiert durch
v
u n
u1 X
2
t
(x − xi ) .
n i=1
Wenn es sich bei x1 , . . . , xn um eine Stichprobe handelt (wie meistens in der Statistik), sollten Sie die
26
Formel
v
u
u
t
n
1 X
2
(x − xi )
n − 1 i=1
verwenden.
5
Vom Sinn und Unsinn von Mittelwerten
Mittelwert und Standardabweichung. . .
• charakterisieren die Daten gut, falls deren Verteilung glockenf¨ormig ist
• und m¨
ussen andernfalls mit Vorsicht interpretiert werden.
¨
Wir betrachten dazu einige Lehrbuch-Beispiele aus der Okologie,
siehe z.B.
Literatur
[BTH08] M. Begon, C. R. Townsend, and J. L. Harper. Ecology: From Individuals to Ecosystems. Blackell
Publishing, 4 edition, 2008.
Im Folgenden verwenden wir zum Teil simulierte Daten, wenn die Originaldaten nicht verf¨
ugbar waren.
Glauben Sie uns also nicht alle Datenpunkte.
5.1
Beispiel: W¨
ahlerische Bachstelzen
Bachstelzen fressen Dungfliegen
Vermutung
• Die Fliegen sind unterschiedlich groß
• Effizienz f¨
ur die Bachstelze = Energiegewinn / Zeit zum Fangen und fressen
• Laborexperimente lassen vermuten, dass die Effizienz bei 7mm großen Fliegen maximal ist.
Literatur
[Dav77] N.B. Davies. Prey selection and social behaviour in wagtails (Aves: Motacillidae). J. Anim. Ecol.,
46:37–57, 1977.
27
available dung flies
captured dung flies
50
40
sd= 0.69
30
number
100
sd= 0.96
20
150
mean= 7.99
0
0
10
50
number
60
mean= 6.79
4
5
6
7
8
9
10
11
length [mm]
4
5
6
7
8
length [mm]
0.5
dung flies: available, captured
0.2
0.3
available
0.0
0.1
fraction per mm
0.4
captured
4
5
6
7
8
9
10
11
length [mm]
Vergleich der Gr¨
oßenverteilungen
captured
Mittelwert
6.29
<
Standardabweichung
0.69
<
available
7.99
0.96
Interpretation
Die Bachstelzen bevorzugen Dungfliegen, die etwa 7mm groß sind.
Hier waren die Verteilungen glockenf¨ormig und es gen¨
ugten 4 Werte (die beiden Mittelwerte und die
beiden Standardabweichungen), um die Daten ad¨aquat zu beschreiben.
5.2
Beispiel: Spiderman & Spiderwoman
Simulated Data:
Eine Stichprobe von 70 Spinnen
Mittlere Gr¨
oße: 21,06 mm
28
9
10
Standardabweichung der Gr¨
oße: 12,94 mm
3
0
1
2
Frequency
4
5
6
?????
0
10
20
30
40
50
size [mm]
12
12
14
Nephila madagascariensis (n=70)
14
Nephila madagascariensis (n=70)
females
8
10
males
0
2
4
6
Frequency
8
6
0
2
4
Frequency
10
mean= 21.06
0
10
20
30
40
50
size [mm]
0
10
20
30
size [mm]
Fazit des Spinnenbeispiels
Wenn die Daten aus verschiedenen Gruppen zusammengesetzt sind, die sich bez¨
uglich des Merkmals
deutlich unterscheiden, kann es sinnvoll sein, Kenngr¨oßen wie den Mittelwert f¨
ur jede Gruppe einzeln zu
berechnen.
5.3
Beispiel: Kupfertoleranz beim Roten Straußgras
Literatur
[Bra60] A.D. Bradshaw. Population Differentiation in agrostis tenius Sibth. III. populations in varied environments. New Phytologist, 59(1):92 – 103, 1960.
[MB68] T. McNeilly and A.D Bradshaw. Evolutionary Processes in Populations of Copper Tolerant Agrostis
tenuis Sibth. Evolution, 22:108–118, 1968.
29
40
5
Wir verwenden hier wieder simulierte Daten, da die Originaldaten nicht zur Verf¨
ugung stehen.
Anpassung an Kupfer?
• Pflanzen, denen das Kupfer schadet, haben k¨
urzere Wurzeln.
• Die Wurzell¨
angen von Pflanzen aus der Umgebung von Kupferminen wird gemessen.
• Samen von unbelasteten Wiesen werden bei Kupferminen einges¨aht.
• Die Wurzell¨
angen dieser “Wiesenpflanzen” werden gemessen.
meadow plants
0.02
0.03
0.04
density per cm
0.05
0.06
0.07
Browntop Bent (n=50)
0.00
0.01
copper mine plants
0
50
100
150
200
root length (cm)
Browntop Bent (n=50)
100
40
Browntop Bent (n=50)
m−s
density per cm
60
0
0
20
10
20
m+s
m
40
density per cm
80
m−s
m+s
m
meadow plants
30
copper mine plants
0
50
100
150
200
0
50
root length (cm)
100
150
200
root length (cm)
2/3 der Wurzell¨
angen innerhalb [m-sd,m+sd]???? Nein!
Fazit des Straußgras-Beispiels
Manche Verteilungen k¨onnen nur mit mehr als zwei Variablen angemessen beschrieben
werden.
z.B. mit den f¨
unf Werten der Boxplots:
min, Q1 , median, Q3 , max
30
Browntop Bent n=50+50
copper mine plants
●
●
meadow plants
●
●
●
0
●
● ●●
50
●
●●
●
●●
●
100
●
150
●
200
root length (cm)
Schlussfolgerung
In der Biologie sind viele Datenverteilungen ann¨ahernd glockenf¨ormig und k¨onnen durch
den Mittelwert und die Standardabweichung hinreichend beschrieben werden.
Es gibt aber auch Ausnahmen. Also:
Immer die Daten erst mal graphisch untersuchen!
Verlassen sie sich niemals allein auf numerische Kenngr¨oßen!
31