Basal Statistik - Begreber. Parrede sammenligninger.

university of copenhagen
Faculty of Health Sciences
Basal Statistik
Begreber. Parrede sammenligninger.
Lene Theil Skovgaard
1. september 2015
1 / 84
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Indhold
I
Planlægning af undersøgelse, protokol
I
Grafik
I
Basale begreber
I
Parrede sammenligninger
I
Limits of agreement
I
Præsentation af resultater
Home pages: http://biostat.ku.dk/~lts/basal15_2
E-mail: [email protected]
2 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Ide, Problemstilling
Har “folk” et tilstrækkeligt højt niveau af vitamin D?
I
Hvad menes med “folk”?
Her mener vi måske danskere, eller danske kvinder....
I
Hvor højt bør niveauet være?
Sammenlignet med anbefalet standard?
Eller med andre lande?
I
Er der lavet studier tidligere?
Her? I andre lande?
I
Kan vi identificere/beskrive kvinder med for lavt niveau?
Studie af kvinder fra 4 lande
Danmark, Polen, Finland og Irland
3 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Planlægning af undersøgelse
I
Formulering af de(t) centrale spøgsmål
I
I
I
Udvælgelse af personer?
I
I
I
Hvem? Inklusionskriterier kontra repræsentativitet.
Hvor mange? Dimensionering.
Hvilke oplysninger skal registreres?
Kovariater = Forklarende variable
I
I
I
I
I
4 / 84
Er der forskel på landene?
I givet fald, hvorfor?
spisevaner
sol eksponering
fedme
rygning
alkohol
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Skriv en protokol
Dette er en vigtig del af processen!!
I
Man får tænkt sig om på forhånd
I
Der bliver udarbejdet information til brug for kolleger mv.
I
Det tjener som “ekstra hukommelse” - man glemmer en del
hvis dataindsamling eller andet trækker ud
I
Det er en nødvendig del af dokumentation i forbindelse med
f.eks. etisk komite, ansøgning om midler, anmeldelse af trial
etc.
I
I forbindelse med den statistiske analyse dokumenterer det,
hvad der var den oprindelige strategi og hvad der bør betegnes
som tilfældige fund
5 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempel på data
Obs
country
category
vitd
age
bmi
1
2
3
4
5
6
Ireland
Ireland
Ireland
Ireland
Ireland
Ireland
Woman
Woman
Woman
Woman
Woman
Woman
37.6
53.0
66.7
62.7
89.1
24.3
71.153
70.233
70.301
70.203
69.932
70.652
26.391
20.540
23.500
20.800
21.800
36.000
Sometimes in sun
Sometimes in sun
Sometimes in sun
Avoid sun
Avoid sun
Prefer sun
sunexp
vitdintake
5.430
9.257
30.040
3.005
4.068
3.443
38
39
40
41
Ireland
Ireland
Ireland
Ireland
Woman
Woman
Woman
Woman
26.2
43.7
35.2
17.0
71.518
70.326
70.638
72.049
26.950
25.723
21.107
30.978
Sometimes in sun
Prefer sun
Sometimes in sun
Prefer sun
2.158
3.205
7.753
2.906
Det oprindelige datasæt i tekstformat, samt SAS-programmet til
indlæsning fremgår af appendix bagest i disse slides (s. 73-75).
6 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Datastruktur, terminologi
I
Rækkerne kaldes observationer (typisk 1 pr. person)
I
Søjlerne kaldes variable (en bestemt type oplysning).
De kan være
I
Kvantitative variable (Numeriske variable) ,
dvs. tal, som man kan regne på
I
I
I
I
Kategoriske variable (Class-variable),
som kun kan antage nogle få bestemte værdier, her
repræsenteret ved tekst=string
I
I
7 / 84
Vitamin D koncentration (vitd)
Alder (age)
Body mass index (bmi)
Personens hjemland (country)
Personens solvaner (sunexp)
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Anbefalet rækkefølge af aktiviteter
1. Tegn
I
I
I
Histogram
Boxplot (typisk for at sammenligne grupper)
Scatter plot
2. Regn
I
I
Tabeller
Summary statistics
3. Analyser
I
I
I
8 / 84
Model
Estimation
Test
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Histogram for Irske kvinder
overlejret med fittet normalfordeling (kode s. 76)
9 / 84
university of copenhagen
Normalfordelingstætheder
Middelværdi = mean,
ofte benævnt µ, α el.lign.
Spredning, ofte benævnt σ
N(µ,σ 2 )
10 / 84
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Box-plot for alle kvinder
I
Box: 25% - 75% fraktil
I
Streg: Median
I
: Gennemsnit
I
Whiskers:
definitionsafhængig
kode s. 76
...noget med variansanalyse
11 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Scatter-plot af Vitamin D niveau mod BMI
Er der en afhængighed af BMI? Måske lineær?
... noget med regressionsanalyse (kode s. 77)
12 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Regn: Summary statistics
Numeriske størrelser til beskrivelse af kvantitative variable,
med observationer y1 , . . . , yn
I Location, centrum
I
I
I
Gennemsnit:
ȳ = n1 (y1 + · · · + yn )
Median: midterste observation, efter størrelsesorden
Variation
I
Varians: s 2 =
1
n−1 Σ(yi
− ȳ)2
Spredning
= Standardafvigelse= Standard Deviation =
√
varians
I
13 / 84
Fraktiler
Medianen er 50% fraktilen
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Gennemsnit
Eksempel:
Indlæggelsestider:
5,5,5,7,10,16,106 dage
Gennemsnit: 154/7=22 dage.
Repræsentativt for hvad??
På den anden side, hvis omkostninger er
I
I
kan opfattes som
ligevægtspunkt
påvirkes kraftigt af
yderlige observationer
14 / 84
proportionale med indlæggelsestiden, så
er det måske gennemsnittet, der er
interessant for hospitalsledelsen.
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
“Should we scare
the opposition by
announcing
our mean height,
or lull them by
announcing our
median height?”
15 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Summary statistics i SAS
proc means N mean median min max
stddev data=vitamind;
class country;
var vitd;
run;
Analysis Variable : vitd
country
N
Mean
Median
Minimum
Maximum
Std Dev
---------------------------------------------------------------------------Denmark 53
47.1660377
47.8000000
11.4000000
93.6000000
22.7829216
Finland 54
47.9907407
46.6000000
5.2000000
96.6000000
18.7247114
Ireland 41
48.0073171
44.8000000
17.0000000 110.4000000
20.2221214
Poland
65
32.5615385
32.5000000
5.4000000
60.3000000
12.4644832
----------------------------------------------------------------------------
16 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Fortolkning af spredningen, s=Std.Dev.
Hovedparten af observationerne ligger inden for
ȳ ± ca.2 × s
dvs. sandsynligheden for at en tilfældig udtrukket person fra
populationen har en værdi i dette interval er stor...
For Vitamin D for irske kvinder finder vi
48.0 ± 2 × 20.2 = (7.6, 88.4)
Hvis data er normalfordelt, vil dette interval indeholde ca. 95% af
fremtidige observationer. Hvis ikke, tja....
17 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Fraktiler for vitamin D
Sorter data med den mindste først, tæl:
5% fraktil: 5% er mindre end dette, 95% er større
25% fraktil: 25% er mindre, 75% er større
kaldes også nedre kvartil
50% fraktil: 50% er mindre, 50% er større
Midterste observation, kaldes også median
75% fraktil: 75% er mindre, 25% er større
kaldes også øvre kvartil
2 21 % og 97 21 % er vigtige,
fordi 95% af observationerne ligger imellem disse
18 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Normalområde / Referenceområde
Område, der omslutter de centrale 95% af observationerne:
I
nedre grænse: 2 12 % fraktil (her 18 nmol/l)
I
øvre grænse: 97 21 % fraktil (her 89.1 nmol/l)
Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ), kan
de sande fraktiler udtrykkes som
2 12 % fraktil: µ − 1.96σ ≈ ȳ − 1.96s
97 21 % fraktil: µ + 1.96σ ≈ ȳ + 1.96s
og normalområdet udregnes derfor som
ȳ ± ca.2 × s ≈ (ȳ − 2 × s,
19 / 84
ȳ + 2 × s)
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Praktisk konstruktion af referenceområde
I
Store datasæt:
Brug fraktiler
I
Mellemstore datasæt:
Brug en rimelig fordelingsantagelse,
typisk normalfordelingen,
evt. efter transformation
I
Små datasæt:
Lad være med det!!
20 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Hvad er en rimelig fordelingsantagelse?
Her: passer normalfordelingen nogenlunde?
I
Tegn histogram, er det symmetrisk?
I
Fraktildiagram, er det lineært? (kræver tilvænning)
I
Er gennemsnit og median tæt på hinanden?
I
Er fraktilerne (f.eks. 25% og 75%) symmetriske omkring
medianen?
Bemærk:
Et stort antal observationer sikrer ikke, at der er tale om en
normalfordeling.
– og et lille materiale kan sagtens være et sample fra en
Normalfordeling.
21 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Fraktildiagram, “qqplot”
Sammenlign empiriske (udregnede) fraktiler (Y-aksen) med de
tilsvarende teoretiske, baseret på en fittet normalfordeling
(X-aksen)
Dette bør se lineært ud, hvis der er tale om en normalfordeling
22 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Hvorfor normalfordelingen?
I
Det er ofte en rimelig approksimation
I
I
Central grænseværdisætning:
I
I
Evt. efter transformation
med logaritme, kvadratrod, invers,...
Sum (eller gennemsnit) af et stort antal variable får en
fordeling, der efterhånden kommer til at ligne en
normalfordeling
(sum af normalfordelinger er igen en normalfordeling).
Rimelig let at arbejde med, fordi standard programmel er
udviklet for normalfordelingen.
23 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Eksempler på pæne normalfordelinger
24 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Typisk afvigelse fra normalfordelingen
som regel når der er tale om ret lave værdier, f.eks.
hormonmålinger:
I
Histogrammet er skævt, med en hale mod de høje værdier
I
Gennemsnittet er en del større end medianen
Løsning: Transformer med en logaritme
I ligegyldig hvilken: naturlig, 10-tals, 2-tals
I bare man transformerer tilbage med den samme
anti-logaritme...
I ofte vil 2-tals logaritmen være at foretrække af
fortolkningsmæssige årsager
25 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Histogram for logaritmerede værdier af vitamin D
her 2-tals logaritmen
igen med fittet overlejret normalfordeling
Her har vi lidt bedre symmetri
26 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Referenceområde, baseret på logaritmer
Analysis Variable : log2vitd
N
Mean
Median
Std Dev
-------------------------------------------------41
5.4564121
5.4854268
0.6327180
--------------------------------------------------
For logaritmen til Vitamin D for irske kvinder finder vi
5.456 ± 2 × 0.633 = (4.19, 6.72)
Dette interval skal tilbagetransformeres med anti-logaritmen:
(24.19 , 26.72 ) = (18.3, 105.6)
Sammenlign med (7.6, 88.4) fra før....
27 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Skæve fordelinger: Immunoglobulin (n=298)
Tydeligt ikke-normalfordelt
28 / 84
Tydeligt ikke-lineært
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Immunoglobulin, log2-transformeret
Næsten lineært
Væsentlig bedre
normalfordelingstilpasning
29 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Referenceområde for immunoglobulin
Data
utransformeret
log2-transformeret
tilbagetransformeret
empiriske fraktiler
gennemsnit
(median)
0.803
-0.524
(0.695)
(0.700)
spredning
Referenceområde
0.469
0.789
-
(-0.135, 1.741)
(-2.102, 1.054)
(0.233, 2.076)
(0.2, 2.0)
Sådan foregår tilbagetransfomationen:
Referenceområde for logaritmer: (-2.102, 1.054)
Tilbagetransformeret: (2−2.102 , 21.054 ) = (0.23, 2.08)
Lad være med at tilbagetransformere spredningerne
30 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Hvis fordelingen er tydeligt skæv
eller på anden måde afviger tydeligt fra normalfordelingen, bør man
ikke engang angive gennemsnit og spredning, men snarere:
I
fraktiler:
I
I
median
inter-quartile range, IQR:
intervallet mellem 25% og 75% fraktil
For helt små materialer angives evt.
I
median og range
..og så laver man ikke statistik, men kasuistik
31 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Vigtigheden af normalfordelingen
afhænger af formålet med undersøgelsen
I
vigtig
I
I
I
ikke så vigtig
I
I
I
ved beskrivelser
ved konstruktion af referenceområder
ved sammenligninger
hvor det kun er residualerne, der antages normalfordelte
ved vurdering af effekter
hvor antallet af observationer kan redde situationen
ikke på nogen måde påkrævet for kovariater!
— som I ikke ved så meget om endnu...
32 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Parrede sammenligninger
Vi skal se på en situation, hvor vi ønsker at sammenligne to
fordelinger, men hvor observationer fra den ene fordeling “er parret
med” observationer fra den anden fordeling.
Eksempler:
I
To målemetoder, der benyttes på samme
person/dyr/blodprøve
I
Målinger på samme person før og efter en behandling
I
Sammenligning af to grupper, hvor individerne er individuelt
matchet på f.eks. køn, alder, bopæl etc.
Vi ønsker typisk at undersøge, om de to fordelinger er ens, eller i
hvert fald om de har samme middelværdi.
33 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Sammenligning af målemetoder
Ubrugelig tabel:
To metoder til bestemmelse af
flow (stroke volume):
I
MF: bestemt ved Doppler
ekkokardiografi
I
SV: bestemt ved
cross-sectional
ekkokardiografi
Måler de to målemetoder “det samme”?
34 / 84
person
1
2
3
4
5
.
.
.
.
17
18
19
20
21
gennemsnit
SD
SEM
MF
47
66
68
69
70
.
.
.
.
104
105
112
120
132
86.05
20.32
4.43
SV
43
70
72
81
60
.
.
.
.
94
98
108
131
131
85.81
21.19
4.62
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Scatter plot af MF vs. SV
Er der en pæn lineær sammenhæng mellem de to målemetoder?
Er de måske endda rimeligt ens?
35 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Man skal kunne se parringen!
Forkert tegning
Kode s. 82
36 / 84
Rigtig tegning
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Analyse af parrede data
I
Personen er sin egen kontrol
Det giver stor styrke til at opdage evt. forskelle.
I
Se på individuelle differenser
– men på hvilken skala?
I
I
I
Er differensernes størrelse nogenlunde uafhængig af niveauet?
Eller er der snarere tale om relative (procentuelle) forskelle:
I så fald skal der tages differenser på en logaritmisk skala.
Undersøg om differenserne har middelværdi 0
parret T-test
37 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Et andet eksempel
Forkert tegning
Her bør man se på logaritmer
38 / 84
Rigtig tegning
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Bland-Altman plot
Scatter plot af differenser dif=mf-sv mod gennemsnit
average=(mf+sv)/2 for den enkelte person:
Ligger differenserne omkring 0?
Er der ca. den samme fordeling for alle x-værdier?
39 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Statistisk model for parrede data
Xi : flowmålingen MF for den i’te person
Yi : flowmålingen SV for den i’te person
Differenser Di = Xi − Yi (i = 1, · · · , 21)
uafhængige, normalfordelte
med middelværdi δ og spredning σd
Bemærk:
I
Intet krav om fordeling af selve flowmålingerne!
I
Kun antagelser om differenser
– fordi det er et parret design
40 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Inferens, Statistisk analyse
Med udgangspunkt i indsamlede data, hvad kan vi så sige om den
sandsynlighedsmekanisme (model, f.eks. de ukendte parametre),
der har frembragt disse data?
I
Estimation:
Når vi ser disse 21 differenser, hvad kan vi så sige om de to
ukendte parametre, δ og σd ?
I
Test:
Ser der ud til at være systematisk forskel på de to metoder?
I
Prædiktion:
Hvor store forskelle kan vi forvente i praksis?
41 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Gangen i en statistisk analyse
I
Modelkontrol: Er forudsætningerne opfyldt?
Burde komme først, men kommer af praktiske grunde efter
estimationen.
I
Estimation:
Hvilke parameterværdier passer bedst med observationerne?
Og hvor sikkert er de bestemt?
I
Modelreduktion (test af hypoteser):
Er simplere beskrivelser tilladelige?
Passer en simplere model næsten lige så godt?
42 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Antagelser for det parrede t-test:
Differenserne Di = Xi − Yi :
I
er uafhængige:
personerne har ikke noget med hinanden at gøre
I
har samme spredning (varians):
vurderes ved det såkaldte Bland-Altman plot af differenser
mod gennemsnit
I
er normalfordelte:
vurderes grafisk eller numerisk
I
I
I
43 / 84
histogram og fraktildiagram, hmm....kun 21 observationer
formelt test?? nix...
somme tider vigtig, andre gange ikke
university of copenhagen
Fordeling af differenser
Passer normalfordelingen nogenlunde?
44 / 84
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Estimation:
Hvilke modelparametre passer med data?
Maximum likelihood princippet,
for simpelheds skyld for en enkelt parameter, som vi vil kalde µ:
I
Likelihood: Hver parameterværdi µ giver en
(normalfordelings)tæthed
Tæthedens værdi for de observerede data
kaldes likelihood værdien for µ, L(µ)
Den angiver sandsynligheden for at observere netop disse data
med denne parameterværdi.
I
Parameteren µ er ukendt:
Likelihood funktionen L(µ) maksimeres, og den dertil hørende
parameter kaldes Maximum likelihood estimatet
45 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Estimation af “forskellen”
dvs. af middelværdien δ af differenserne Di
Vi har et “en-stikprøve problem” (one sample problem):
21 uafhængige målinger af samme (normalfordelte) variabel, D:
Di ∼ N (δ, σd2 )
Maximum likelihood princippet giver her, at
parametrene δ og σ estimeres ved henholdsvis gennemsnittet D̄
og den tidligere omtalte spredning s (s. 13).
46 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Estimat for δ
δ̂ = D̄, gennemsnittet af differenserne.
proc means N mean std stderr t probt data=mf_sv;
var dif;
run;
Variable
N
Mean
Std Dev
Std Error t Value Pr > |t|
------------------------------------------------------------------------dif
21
0.2380952
6.9635103
1.5195625
0.16
0.8771
-------------------------------------------------------------------------
Altså: δ̂ = 0.238
Estimater skal angives med tilhørende usikkerheder!
– gerne i form af et konfidensinterval
47 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Usikkerhed på et estimat
Hvad betyder det?
F.eks. (som her) usikkerhed på et gennemsnit, som estimat for
(skøn over) en ukendt middelværdi.
Vi kan tænke på gentagelser af undersøgelsen:
I
Hver gang får vi et nyt estimat (for middelværdien)
I
Vi kan studere fordelingen af sådanne estimater
I
Spredningen i denne fordeling angiver usikkerheden.
Den kaldes som regel standard error of the estimate
Hvis det er en middelværdi, kaldes den
standard error of the mean
48 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Altså:
Spredning på gennemsnittet kaldes
Standard error (of the mean), SEM
Hermed angives usikkerheden på gennemsnittet, og der gælder
SD
SEM = √
n
SEM bliver således mindre, når n bliver større
Den bruges til at konstruere konfidensintervaller,
som kommer nu...
49 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Konfidensinterval = Sikkerhedsinterval
Interval, der “fanger” den ukendte parameter
(her middelværdien δ)
med stor (typisk 95%) sandsynlighed.
Hvor kan vi tro på at den faktiske middelværdi δ ligger?
(Approksimativt) 95% konfidensinterval for middelværdi
x̄ ± 2 × SEM
Eksakt for normalfordelingen (bortset fra “ca. 2”)
50 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Konfidensinterval for δ
med 95% dækningsgrad, dvs. et 95% konfidensinterval:
D̄ ± ’ca. 2’ × SEM
eller med et “mere præcist 2-tal”: t97.5% (20) = 2.086
proc means N mean stderr clm;
var dif;
run;
Analysis Variable : dif
Lower 95%
Upper 95%
N
Mean
Std Error
CL for Mean
CL for Mean
-----------------------------------------------------------------21
0.2380952
1.5195625
-2.9316567
3.4078471
-----------------------------------------------------------------51 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Fortolkning af konfidensinterval (sikkerhedsinterval)
Konfidensinterval for middelværdien af forskellen δ mellem MF og
SV blev estimeret til
(−2.93, 3.41)
Det betyder:
I
Der kan ikke påvises nogen systematisk forskel (bias) mellem
de to typer målinger
I
Vi kan dog heller ikke afvise, at der kan være forskel
I
En evt. bias vil med stor sikkerhed (her 95%) være mindre
end. ca. 3 − 3.5 (til hver side)
52 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Test af hypotese (ofte kaldet nulhypotese
Kan vi nøjes med en simplere model?
Kunne en eller flere parametre i en model være en kendt værdi
(ofte 0, deraf navnet)?
Modelreduktion: Model −→ (nul)hypotese (H0 ).
Kan den forenklede model tænkes at være den rigtige?
Eksempelvis:
I
Er der systematisk forskel på de to målemetoder? (δ = 0)
I
Har mænd og kvinder samme middelværdi af blodtrykket?
(µ1 = µ2 eller µ1 − µ2 = 0)
I
Er blodtrykket uafhængig af alderen? (hældning β = 0)
I
Er der samme sandsynlighed for farveblindhed hos piger og
drenge? (p1 = p2 eller p1 − p2 = 0)
53 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Test af hypotese, II
Ofte ønsker vi at forkaste hypotesen, fordi vi så har fundet en
effekt, f.eks. en forskel på to grupper.
Andre gange ønsker man at vise, at der ingen forskel er, og så skal
man bruge konfidensintervaller i stedet for!
Teststørrelse: En størrelse, der måler
diskrepans mellem observation og hypotese
I
Stor diskrepans: Forkast hypotesen, fordi den passer dårligt
sammen med data. Men hvor stor??
I
Undersøg om teststørrelsen (diskrepansen) er
værre / mere ekstrem
end hvad der kan forventes ved tilfældighedernes spil.
54 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Teststørrelsens fordeling
Teststørrelsen måler diskrepansen mellem observationerne og
hypotesen.
Selv når hypotesen H0 er fuldstændig sand, vil vi aldrig opnå
fuldstændig overensstemmelse mellem model og observationer
(f.eks. ikke nøjagtigt samme gennemsnit for MF og SV).
I
Hvor store vil afvigelserne typisk være, når H0 er sand?
I
Hvilke værdier af teststørrelsen vil vi typisk få, og med hvilken
hyppighed (sandsynlighed)?
I
Det kaldes fordelingen af teststørrelsen, og den kan beregnes,
så vi ved, hvad der er normalt og hvad der er
unormalt/ekstremt
55 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Test af “ingen bias” mellem MF og SV
dvs. H0 : δ = 0
Her finder vi teststørrelsen:
δ̂ − 0
0.24 − 0
=
= 0.158 ∼ t(20)
SEM
1.52
Passer værdien 0.158 godt med en
t-fordeling med 20 frihedsgrader?
t=
Ja, den ligger ret centralt i fordelingen, og vi kan derfor ikke se
noget galt med vores hypotese.
I
Lille (numerisk) t: God tilpasning
I
Stor (numerisk) t: Dårlig tilpasning
56 / 84
university of copenhagen
Teknisk note
t-fordelingen (Student fordelingen)
har en parameter df , der kaldes
antallet af frihedsgrader
(her: 5, 10, 100).
I
Mange frihedsgrader:
Fordelingen ligner
normalfordeling
I
Få frihedsgrader:
Tungere haler.
57 / 84
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Teknisk note, II
Hvor kom t-fordelingen fra?
I
Gennemsnittet er normalfordelt
(hvis forudsætningerne holder)
I
Hvis spredningen var en kendt størrelse, ville teststørrelsen
også være normalfordelt
I
I stedet estimerer vi spredningen, og denne ekstra usikkerhed
må vi bøde for ved at bruge (den noget bredere) t-fordeling
58 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Parret t-test i SAS:
proc ttest data=mf_sv;
paired mf*sv;
run;
giver outputtet
The TTEST Procedure
Difference: mf - sv
N
21
Mean
0.2381
Mean
0.2381
DF
20
59 / 84
Std Dev
6.9635
95% CL Mean
-2.9317
3.4078
t Value
0.16
Pr > |t|
0.8771
Std Err
1.5196
Std Dev
6.9635
Minimum
-13.0000
Maximum
10.0000
95% CL Std Dev
5.3275 10.0558
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Alternative veje til et parret t-test
I
Test af middelværdi 0 for differenser:
proc ttest data=mf_sv;
var dif;
run;
giver samme output som på forrige side
I
Direkte, vha. proc means;
proc means N mean std stderr t probt;
var dif;
run;
Variable
N
Mean
Std Dev
Std Error t Value Pr > |t|
-----------------------------------------------------------------dif
21
0.2380952 6.9635103
1.5195625
0.16
0.8771
------------------------------------------------------------------
60 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
P-værdi = halesandsynlighed
P-værdien defineres som sandsynlighed for “dette eller værre”,
altså endnu større diskrepans end den observerede,
under nulhypotesen (dvs. hvis nulhypotesen er sand).
Hvis der kun er en ganske lille sandsynlighed for at få noget, der er
værre end det vi har, så må det være ret slemt, og vi må forkaste.
Her finder vi P = 0.88, Og hvad så??
61 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Signifikans
Hvis P-værdien er under 0.05, siger man at
testet er signifikant på 5% niveau. Man forkaster hypotesen.
Signifikansniveauet α vælges sædvanligvis til 5% (α = 0.05), men
der er tale om et arbitrært valg.
Man bør derfor angive selve P-værdien, og allervigtigst:
Angiv estimat med konfidensinterval!
Her blev det udregnet til (-2.93, 3.41), – så vi kunne med det
samme have set, at 0 var en rimelig værdi for middelværdien
Men var det alt, hvad vi gerne ville vide?
62 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Test vs. konfidensintervaller
Der er ækvivalens, i den forstand, at:
I
Hvis sikkerhedsintervallet indeholder 0,
er testet ikke signifikant
I
Hvis sikkerhedsintervallet ikke indeholder 0,
er testet signifikant
63 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Limits-of-agreement
Hvor store afvigelser vil man typisk se mellem de to metoder
for individuelle personer
Limits of agreement er en speciel betegnelse for
normalområdet for differenser, dvs.
D̄ ± ’ca. 2’ × SD = 0.24 ± 2 × 6.96 = (−13.68, 14.16)
Disse grænser er vigtige for at afgøre om to målemetoder kan
erstatte hinanden.
Det er nemlig ikke nok,
at der ikke er nogen systematisk forskel!!
Og her er normalfordelingen vigtig!
64 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Repetition: De to slags spredninger
Standard error of the mean
SD(x)
SEM = SD(x̄) = √
n
(eller mere generelt blot standard error)
SD bruges til beskrivelser
SEM bruges til sammenligninger
65 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
SD til beskrivelser
Variable
Alder
Immunoglobulin
Antal
Gennemsnit
X̄
Spredning
SD
100
100
45
0.80
10
0.47
Her tænker man:
I
Patienterne er nok ca. 25-65 år
I
og har immunoglobulinværdier på ca. ....
UPS: De kan være negative!!
så der burde være transformeret!
Her er normalfordelingen vigtig!
fordi vi udtaler os om enkeltobservationer
66 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
SEM til sammenligninger
Variable
Alder
Immunoglobulin
Gruppe 1 (n=35)
Gennemsnit
X̄1
SEM1
43
0.63
1.7
0.08
Gruppe 2 (n=65)
Gennemsnit
X̄2
SEM2
46
0.89
1.2
0.06
Her tænker man:
I
De to grupper ser ens ud rent aldersmæssigt
I
men har måske nok forskellige niveauer af immunoglobulin
Her er normalfordelingen ikke så vigtig,
fordi det er gennemsnit, vi udtaler os om
67 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Central grænseværdisætning
Fordelingen af et gennemsnit er pænere end fordelingen af de
individuelle observationer (mere normalfordelt)
Jo flere observationer, der indgår i gennemsnittet
I
des mere normalfordelt ser det ud
I
des mindre spredning har dets fordeling, dvs.
jo mere præcist fanger vi den sande middelværdi
Vi kan “simulere” denne situation ved at
I
“udtage med tilbagelægning” f.eks. 16 observationer
I
udregne gennemsnittet
et stort antal gange, og tegne histogram:
68 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Gennemsnit af flere og flere - immunoglobulin
69 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Nonparametriske test
Test, der ikke bygger på en normalfordelingsantagelse
– Ikke forudsætningsfri
Ulemper
I
tab af efficiens (sædvanligvis lille)
I
uklar problemformulering
- manglende model, og dermed ingen fortolkelige parametre
I
ofte ingen estimater! – og ingen sikkerhedsintervaller
I
kan kun anvendes i simple problemstillinger
– med mindre man har godt med computerkraft
70 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Nonparametrisk one-sample test
af middelværdi 0 (parret two-sample test)
I Sign test, fortegnstest
I
I
I
I
udnytter kun observationernes fortegn, ikke deres størrelse
ikke særligt stærkt
invariant ved transformation
Wilcoxon signed rank test
I
I
I
I
udnytter observationernes fortegn,
kombineret med rangordenen af de numeriske værdier
stærkere end sign-testet
kræver at man kan tale om ’store’ og ’små’ forskelle
kan påvirkes af transformation
Og det giver hverken estimat, konfidensinterval eller limits of
agreement...
71 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Nonparametriske parrede tests i SAS
Disse kan kun foretages på de udregnede differenser!
proc univariate data=mf_sv;
var dif;
run;
Tests for Location: Mu0=0
Test
-Statistic-
-----p Value------
Student’s t
Sign
Signed Rank
t
M
S
Pr > |t|
Pr >= |M|
Pr >= |S|
0.156687
2.5
8
0.8771
0.3593
0.7603
Forskellige programmer benytter lidt forskellige teststørrelser!
(approksimation for n > 25)
72 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
APPENDIX
med programbidder svarende til diverse slides
I
Indlæsning af vitamin D datasæt, s. 74-76
I
Tegninger vedrørende vitamin D, s. 77-78
I
Udregning af 2 21 % og 97 12 % fraktil, s. 79-80
I
Indlæsning af MF-SV data, s. 81
I
Tegninger vedrørende MF-SV, s. 82-84
73 / 84
university of copenhagen
SAS-kode til indlæsning
Slide 6
FILENAME vitamind "VitaminD.csv";
PROC FORMAT;
VALUE categoryf
1 = "Girl"
2 = "Woman";
VALUE sunf
1 = "Avoid sun"
2 = "Sometimes in sun"
3 = "Prefer sun";
VALUE countryf
1 = "Denmark"
2 = "Finland"
4 = "Ireland"
6 = "Poland";
RUN;
74 / 84
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
SAS-kode til indlæsning, II
DATA vitamind;
INFILE vitamind DLM=’;’ FIRSTOBS=2;
INPUT country category vitd age bmi sunexp vitdintake;
FORMAT category categoryf. ;
FORMAT country countryf. ;
FORMAT sunexp sunf. ;
RUN;
DATA irlwomen;
SET vitamind; WHERE country=4 and category=2;
proc print data=irlwomen;
run;
75 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Det oprindelige datasæt
De første 5 linier (4 observationer):
country;category;vitd;age;bmi;sunexp;vitdintake
1;1;22.400;11.888;19.254;2;7.188
1;1;37.000;12.441;17.567;3;1.186
1;1;12.900;13.025;17.700;3;1.480
1;1;13.600;13.501;16.953;3;1.612
I
Sværere indlæsning end normalt pga format-sætninger.
I
Datasættet vitamind.txt ligger på hjemmesiden
76 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
SAS-kodning af histogram og Box-plot
Slides 9 og 11
proc sgplot data=irlwomen;
histogram vitd;
density vitd;
run;
proc sgplot data=women;
vbox vitd / category=country;
run;
eller med “almindelig kodning”:
proc univariate normal data=irlwomen;
var vitd;
histogram / cfill=yellow height=3 normal;
run;
proc boxplot data=women;
plot vitd*country /
boxstyle=schematic cboxfill=yellow height=4;
run;
77 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
SAS-kodning af Scatter plot med linier
Slide 12
proc sgplot data=women;
reg X=bmi Y=vitd / group=country;
run;
eller med “normal” kodning:
proc gplot normal data=women;
plot vitd*bmi=country
/ haxis=axis1 vaxis=axis2 frame;
axis1 value=(H=2) minor=NONE label=(H=3);
axis2 value=(H=2) minor=NONE label=(A=90 R=0 H=3);
symbol1 v=circle i=sm99s c=BLACK h=2 l=1 w=2;
symbol2 v=star i=sm99s c=blue h=2 l=1 w=2;
symbol3 v=triangle i=sm99s c=red h=2 l=1 w=2;
symbol4 v=dot i=sm99s c=green h=2 l=1 w=2;
run;
78 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Udregning af specielle fraktiler
Slide 19
proc univariate data=irlwomen;
var vitd;
output out=regn pctlpre=P_ pctlpts=2.5,97.5;
run;
proc print data=regn;
run;
79 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Output fra Proc Univariate
Quantiles (Definition 5)
Quantile
100% Max
99%
95%
90%
75% Q3
50% Median
25% Q1
10%
5%
1%
0% Min
80 / 84
Estimate
110.4
110.4
75.7
72.0
62.7
44.8
34.4
24.5
18.5
17.0
17.0
Den ekstra
Output-sætning giver:
Obs
P_2_5
P_97_5
1
18
89.1
Disse er specielt interessante i
forbindelse med konstruktion af
Reference områder
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Datafilen vedr. MF og SV
Slide 35
Data-filen ’mf_sv.txt’,
(f.eks. beliggende i mappen C:\Basalstatistik\,)
er en tekstfil med 2 kolonner a 21 linier, en for hver person, med
variabelnavne i første linie.
Vi indlæser og definerer derefter to nye variable:
data mf_sv;
infile ’C:\Basalstatistik\mf_sv.txt’ firstobs=2;
input mf sv;
/* definition af nye variable */
dif=mf-sv;
average=(mf+sv)/2;
run;
81 / 84
university of copenhagen
Scatter plot og Bland-Altman plot
Slides 35 og 39
/* Scatter plot */
proc sgplot data=mf_sv;
scatter X=sv Y=mf;
run;
/* Bland-Altman plot */
proc sgplot data=mf_sv;
scatter X=average Y=dif;
run;
82 / 84
d e pa rt m e n t o f b i o s tat i s t i c s
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Box-plot og Spaghetti-plot
Slide 36
data lang;
set mf_sv;
flow=mf;
flow=sv;
run;
metode=’mf’;
metode=’sv’;
output;
output;
/* Forkert Boxplot */
proc sgplot data=lang;
vbox flow / category=metode;
run;
/* Korrekt Spaghetti-plot */
proc sgplot data=lang;
series X=metode Y=flow / group=person;
run;
83 / 84
university of copenhagen
d e pa rt m e n t o f b i o s tat i s t i c s
Fraktildiagram
Slide 44
proc univariate normal data=mf_sv;
var dif;
probplot / height=3 normal(mu=EST sigma=EST l=33);
run;
84 / 84