Statistik, anova

Repetition och ANOVA
nbib44
Repetition: Labb 2
• Du har observerat: f(aa)=0.36, f(aA+AA)=0.64
– Kan man testa om fenotypfrekvensen är i Hardy
Weinberg jämvikt? Nej!
– Kan man testa om f(aa) är skiljt från “någonting”
förväntat eller från f(aa) från annan population?
• Ja, med chi2, till och med
utan att känna till
allelfrekvenser
OBS
EXP el. OBS2
f(aa)
10
8
f(aA+AA)
23
15
– Kan anta HW och uppskatta q = f(a) = √f(aa), samt
p=1-q och uppskatta f(aA) och f(AA)
• Vad kan man använda det till?
Repetition: Chi2
• Chi2
Goodness-of-fit alt homogeneity test
Anpassningstest vs oberoendetest
– Ex.1: Fenotypfrekvens på plats A
obs: Met/Met 4st
Met/Val 23 st, Val/Val 3 st
H0: plats 1 är i HWjämvikt
OBS
EXP
M/M
4
8
M/V
23
15
V/V
3
7
– Ex.2: fenotypfrekvens på plats B
plats A plats B
M/M
4
obs 2: Met/Met 9 st
M/V
23
Met/Val 23 st, Val/Val 12 st
V/V
3
H0: plats 1 och 2 har samma fenotypfrekvens
9
23
12
Repetition: T-test
• Testar om skillnader föreligger mellan två
grupper
H0: ingen skillnad i medel... mellan grupp a och b
• Förutsätter:
–Oberoende mätpunkter i stickprov
• Försöksdesign, randomisering
–Samma varians mellan grupperna
• t.ex. Levene’s test, H0: variansen är samma
–Normalfördelning
• Histogram eller test, transformera data
• Centrala gränsvärdessatsen
DN 2/4-13
“>1800
plastfibrer
hamnar i havet
när man tvättar
en fleecetröja”
Hur kan man
mäta det? Hur
jämföra med
utsläpp från
andra plagg?
(A) Global extent of microplastic in sediments from 18 sandy shores and identified as plastic by Fourier transform infrared
spectrometry. The size of filled-circles represents number of microplastic particles found. (B) Relationship between populationdensity and number of microplastic particles in sediment from sandy beaches. (C) Number of particles of microplastic in
sediments from sewage disposal-sites and reference-sites at two locations in U.K. (D) Number of polystester fibers discharged
into wastewater from using washing-machines with blankets, fleeces, and shirts (all polyester).
Published in: Mark Anthony Browne; Phillip Crump; Stewart J. Niven; Emma Teuten; Andrew Tonkin; Tamara Galloway; Richard Thom pson;
Environ. Sci. Technol. 2011, 45, 9175-9179. DOI: 10.1021/es201811s Copyright © 2011 American Chemical Society
Varför ANOVA istället för t-test?
• Ger nästan alltid samma resultat
• T-test kan bara testa två grupper i taget
H0: 1 = 2
• Anova testar skillnad mellan 2 eller fler medel
H0: 1 = 2 = 3 = ...
• Anova har utvecklats att klara mycket mer
–t.ex. fler faktorer, både grupper och kontinuerliga
förklarande variabler
• Har visat sig oerhört robust!
Principen bakom variansanalys
• Anova jämför skillnad i medel genom att analysera
variansen i data
H0: medlen är inte olika
5
4
YIELD
6
7
H0: variansen inom gruppen är lika som mellan grupper
Odlingsexperiment: Effekten av 3 gödningsmedel på
skördstorlek i ton. Data från 3x10 fält, N=30
3
Data och idé från
Grafen & Hails 2002,
1.0
Modern Statistics for the Life Sciences
1.5
2.0
Type of fertilizer
2.5
3.0
7
6
4
3
0
5
10
15
20
25
30
Field number
5
10
15
7
5
4
1/(n-1)*sum([yi – ÿ]2)
0
5
10
15
Field number
20
20
25
30
• Heldragen linje är stormedel för alla
värden
• Kvadratsumman är de streckade
linjerna, ett mått på total variation i
data; SSY
• Jämför med formeln för varians
SSY
6
0
Field number
3
YIELD
5
YIELD
5
3
4
YIELD
6
7
Variansanalys (ANOVA)
25
30
7
6
4
3
0
5
10
15
20
25
30
Field number
7
6
5
4
5
10
15
Field number
5
10
15
20
25
30
• Beräkna medel för grupperna
• Nya kvadratsummor för variationen
kring gruppmedel, kallas “error (sums of
squares)”, SSE
• SSE är den variation som inte kan
förklaras med faktorerna, därför “error”
SSE
0
0
Field number
3
YIELD
5
YIELD
5
3
4
YIELD
6
7
Variansanalys (ANOVA)
20
25
30
7
6
SSF
3
4
5
YIELD
7
6
5
4
3
YIELD
Variansanalys (ANOVA)
0
5
10
15
20
25
30
Field number
0
5
10
15
20
Field number
• Beräkna kvadratsummor för
gruppmedlens avvikelse från stormedlet,
SSY
SSF
Därmed har vi delat upp variationen:
SSY = SSE + SSF
• Anova jämför om en signifikant andel av
variationen beskrivs av faktorerna
25
Error variation
SSE
Explained
variation
SSF
30
Variansanalys (ANOVA)
Demo Excel
• one-way anova
Antaganden för Anova
– Oberoende mätpunkter i stickprov
• Försöksdesign, randomisering
– Samma varians (homogena) mellan grupperna
• t.ex. Levene’s test, H0: variansen är samma
– Normalfördelade residualer
• Histogram eller test, transformera data
• Centrala gränsvärdessatsen
Hur presenteras resultatet
Fråga: Ger gödningsmedlen olika skörd?
H0: ingen skillnad i avkastning mellan de tre
olika gödningsmedlen
Resultat: tolka anovatabell
• Vad är “between-” och “within groups”?
SPSS Resultat: testa om varianser
är homogena
H0: ingen skillnad i varians mellan grupperna
SPSS Resultat: Deskriptiva data
• Deskriptiv kan vara bra i text (t.ex. svarta
ramar) eller för att göra figurer (t.ex. röda
ramar)
Hur presenteras resultatet i text
Resultat: “Vi fann en signifikant skillnad i avkastning
mellan åkrar som behandlats med olika gödningsmedel
(envägsanova, F(2,27)=5.70, P=0.009).”
•Vid icke signifikant resultat så är stormedlet den bästa
skattningen av avkastning
•Vid signifikanta resultat så finns en skillnad, men inget
om mellan vilka grupper
– Vissa gör post-hoc test (gör inte det utan anledning)
– Andra nöjer sig med att rapportera medlen (+/-CI) i text
eller tabell eller figur
Hur presenteras resultatet i text
Resultat: “Vi fann en signifikant skillnad i avkastning
mellan åkrar som behandlats med olika gödningsmedel
(envägsanova, F(2,27)=5.70, P=0.009). Vi fann att
medel 1 gav högre avkastning än de andra medlen
(medelavkastning i ton/ha (+/-SE) för medel 1 var 5.4
(0.31), medel 2 4.0 (0.31) och medel 3 4.5 (0.31))”
alt.
“Medelavkastning för gödninsmedel 1 (5.4 (+/-0.31 SE))
var högre än för de andra två (gödningsmedel 2: 4.0
(0.31); och 3: 4.9 (0.31)) och det var en signifikant
effekt av gödningsmedel (envägsanova, F(2,27)=5.70,
P=0.009).”
Hur presenteras resultatet i text
Resultat: “Vi fann en signifikant skillnad i avkastning
mellan åkrar som behandlats med olika gödningsmedel
(envägsanova, F(2,27)=5.70, P=0.009). Vi fann att
medel 1 gav högre avkastning än de andra medlen (tab
1)”
Tabell 1. Medelavkastning från åkrar behandlade med
tre olika typer av gödningsmedel
N
Medel Standard error
medel 1
10
5.4
0.31
medel 2
10
4.0
0.31
medel 3
10
4.5
0.31
Total
30
4.6
0.20
Hur presenteras resultatet i text
5
3
4
YIELD
6
7
Resultat: “Vi fann en signifikant skillnad i avkastning
mellan åkrar som behandlats med olika gödningsmedel
(envägsanova, F(2,27)=5.70, P=0.009). Vi fann att
medel 1 gav högre avkastning än de andra medlen (fig
1)”
1
2
3
Figur 1 Medel och 95% konfidensintervall för avkastning från
åkrar behandlade med olika gödningsmedel (1,2 och 3).
Hur presenteras resultatet i text
Resultat: “Vi fann en signifikant skillnad i avkastning
mellan åkrar som behandlats med olika gödningsmedel
(tab 1). Vi fann att medel 1 gav högre avkastning än de
andra medlen (fig 1)”
Tabell 1. Anova av avkastning/ha från åkrar behandlade
med tre olika typer av gödningsmedel
df
SS
MS
F
P
Gödningsm. 2
10.8 5.4
5.7
0.009
Error
27
25.6 0.9
Total
30
36.4