SPSS baserad biostatistik

SPSS baserad biostatistik
Bo Hedblad
Senior professor
Kardiovaskulär epidemiologi
IKVM, CRC
SUS Malmö
Bo Hedblad
Biostatistik T10
Statistik (av stat, ställning)
• Ursprungligen beskrivning av befolkning och politiska
förhållanden
• 1600-talet: studier av födslo- och dödstal
• 1741 JP Süssmilch. “Die Göttliche Ordnung in den
Veränderung des menschlichen Geschlechtes”
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Finns det något fel i denna studie?
73% av olyckorna bland ’hang gliders’
inträffar mellan kl. 11 och 15.
Slutsats: Flygningar mellan dessa
tidpunkter bör därför förbjudas.
Bo Hedblad
Biostatistik T10
Ett annat exempel. Något fel?
I en studie rapporterades att 68% av
olycksfallen på sjukhus inträffade
bland patienter över 60 år.
Slutsats: Patienter över 60 år har
större olycksrisk och bör i större
utsträckning få särskild tillsyn.
Bo Hedblad
Biostatistik T10
Methods of Reporting Statistical Results from Medical
Research Studies
Stephen D. Walter
Department of Clinical Epidemiology and Biostatistics, McMaster University, Hamilton,
Ontario, Canada.
- One survey concluded ”that statistical knowledge of most
doctors is so limited that they cannot be expected to draw the
right conclusions from those statistical analyses which are found
in papers in most medical journals” (14, p. 3).
- By its nature, much of epidemiology, is inherently quantitative,
and statistical issues are prominent.
Walters SD. Am J Epidemiol 1995; 141: 896-906
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Några epidemiologiska
grundbegrepp
Population
En definierad grupp av individer
Individer
Oftast detsamma som personer,
kan även vara familjer,
kommuner, etc
Totalundersökning
Alla individer i populationen ingår
Urvalsundersökning
Endast en del (”stickprov”) av
totalpopulationen ingår
Bo Hedblad
Biostatistik T10
Population och urval
TOTAL
URVAL
- Patienter
POPULATION
”stickprov”
- Individer
Deltagare
Skillnader?
Representativitet?
- Selektionbias?
Icke-deltagare
Bo Hedblad
Biostatistik T10
Population - Urval
Representativitet
• Hur ser bakgrundspopulationen ut?
• Hur ser urvalet (”stickprovet”) ut?
• Hur representativa är resultaten?
Bo Hedblad
Biostatistik T10
Malmö Diet and Cancer study Cardiovascular cohort
examined Nov 1991- Feb 1994
n=5530 with
n=6103 subjects
n=3531 (57.9%) women
lab measures
n=2572 (42.1%) men
Re-examined between May 2007- Jan 2012
Participation rate 75.8 %
n = 6103
Participants
attending
re-examin
n=3734 (61%)
n=2212 women
(59.2%)
n=1522 men
(40.8%)
Nonparticipants
due to
*sickness
*unwilling
*emigration
*lacking in
register
n=1333 (22%)
Deceased
before
scheduled
visit
n=1036 (17%)
n=485 women
(46.8%)
n=551 men
(53.2%)
n=834 women
(62.6%)
n=499 men
(37.4%)
Rosvall M, et al. Atherosclerosis 2015; 91: 012809. Epub 2015 Jan 12
Bo Hedblad
Biostatistik T10
http://www.strobe-statement.org/fileadmin/Strobe/uploads/checklists/STROBE_checklist_v4_cohort.pdf
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Bo Hedblad
SPSS-baserad biostatistik
SPSS
Statistical Package for Social Science
Bo Hedblad
Biostatistik T10
Variabler
En variabel = en kolumn i ett datablad
(Normalt en rad per deltagare)
Variabler
Deltagare = ”id”
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Olika skaltyper
Nivå
I
n
f
o
r
m
a
t
i
o
n
s
m
ä
n
g
d
e
n
ö
k
a
r
Nominalskala
=Klassificering.Jfr. nomenklatur, namn
(ex. nummer på fotbollspelare, kön)
Ordinalskala
Kan rangordnas. Jfr. Ordning, eng.
order (ex. betyg: 1-5)
Intervallskala
Skillnaderna mellan mätvärdena är
lika (ex. temperatur i Celsius)
Kvotskala
Intervallskala med absolut nollpunkt.
(ex. ålder, vikt, blodglukos)
Obs! Intervall och kvotskala i SPSS: Scale
Bo Hedblad
Biostatistik T10
Vilken information (vilka variabler) har/vill Du
samla(-t) eller analysera för varje individ?
Kvalitativa variabler
(Kategoriska)
Kontinuerliga variabler
Diskreta variabler
Icke numeriska, innebär
klassificering (t.ex. kön,
civilstånd)
K
v
a
n
t
i
t
a
t
i
v
a
Numeriska mätvärden,
(t.ex. blodtryck, vikt)
Kvantitativa variabler som
bara kan visa vissa
värden, (t.ex. antal barn,
antal läkarbesök)
Bo Hedblad
Biostatistik T10
Sammanfattning: Olika skaltyper
VARIABEL
KVALITATIVA DATA
KVANTITATIVA DATA
(kategoriska)
(numeriska)
NOMINALDATA
ORDINALDATA
DISKRETA DATA
KONTINUERLIGA DATA
Utan inbördes
ordning
Med inbördes
ordning
Kan endast anta
vissa värden
Kan anta i princip vilka
värden som helst
Bo Hedblad
Biostatistik T10
MÄTKVALITET
Bo Hedblad
Biostatistik T10
Variationskällor. Mätning av diastoliskt blodtryck
DISTRIBUTION
FÖRUTSÄTTNING
VARIATIONSKÄLLA
En patient. En observer.
Upprepade observationer vid
samma tillfälle på dygnet
Mätning
En patient. Många observer,
vid samma tillfälle på dygnet
En patient. En observer.
Upprepade observationer,
under dygnet
Biologi
+
Mätning
Många patienter
DBP
mmHg
60
70
80
90
100
110
120
Boe J, et al. Acta Med Scand 1957; 321
130
Bo Hedblad
Biostatistik T10
Några grundbegrepp
Precision
Mått på reproducerbarhet Motsatsen
till ’random errors’ (slumpvisa fel)
Validitet
Att man verkligen har undersökt det
man ville undersöka och ingenting
annat. Motsatsen till ’bias’
(systematiska fel)
Bo Hedblad
Biostatistik T10
Validitet och precision
VALIDITET
Hög
A
Frekvens
(tillförlitlighet)
PRECISION
Hög
(giltighet)
C
Låg
B
D
Låg
Mått
Den blå linjen representerar de sanna värderna
Bo Hedblad
Biostatistik T10
PRECISION - reproducerbarhet
Samma resultat vid upprepade tester?
Påverkas av slumpmässiga fel (’random errors’)
• Intra-observer variation
- gör samma undersökare samma bedömning vid
olika tillfällen?
• Inter-observer variation
- gör olika undersökare samma bedömning?
Överenstämmelsen uttrycks som:
- Coefficient of variation (CV (%): SD dividerat med X)
- Agreement / Kappa-värden (stat test på agreement)
Bo Hedblad
Biostatistik T10
Biostatistik
Beskrivande Statistik
Grafisk
presentation
Exempel:
Histogram
Analytisk Statistik
Spridningsmått
Gruppjämförelse
Sambandsanalyser
Exempel:
Exempel:
Exempel:
Medelvärde
t-test, F-test
Korrelationsanalys
Standardavvikelse
CHI-2
Regressionsanalys
Bo Hedblad
Biostatistik T10
Beskrivande statistik
Många syften:
• Sammanfatta resultat
• Underlag för att bedöma
– jämförbarhet hos de grupper som studeras
– generaliserbarhet
– ev. konsekvenser av bortfall
• Överblick över datamaterialets sammansättning
– upptäcka skevheter eller direkta felaktigheter
Bo Hedblad
Biostatistik T10
Hur beskriva data?
• Tabeller
160
240
220
SBP 1969 mmHg
• Diagram
576
344
345
74
140
354
80
200
1
512
153
283
525
549
328
343
688
380
279
329
120
4
180
100
160
80
140
60
120
40
100
20
80
0
N=
108
never smoked
159
256
142
smoker 1-14 grs/day
ex-smoker
38
smoker >25 grs /day
Std. Dev = 22,25
Mean = 138,7
N = 703,00
100,0
120,0
140,0
160,0
180,0
200,0
220,0
110,0
130,0
150,0
170,0
190,0
210,0
230,0
smoker 15-24 grs/day
SBP 1969 mmHg
SMOKING HABITS
• Text
Bo Hedblad
Biostatistik T10
Hur beskriva kvalitativa eller
diskreta variabler?
• Antal (procent), n (%)
• Antal (kumulativ procent)
• Stolpdiagram
• Trappstegskurva
• Typvärde
Bo Hedblad
Biostatistik T10
TABELLER OCH DIAGRAM FÖR ATT BESKRIVA KVALITATIVA VARIABLER
rökgrupper 1969
Percent
15, 4
22, 6
36, 4
20, 2
5, 4
100,0
Valid Percent
15, 4
22, 6
36, 4
20, 2
5, 4
100,0
Cumulat iv e
Percent
15, 4
38, 0
74, 4
94, 6
100,0
• Antal (procent), n (%)
• Antal (kumulativ procent)
300
256
200
• Stolpdiagram
159
142
100
Count
Valid
Frequency
nev er smoked
108
ex-smoker
159
smoker 1-14 grs/ day
256
smoker 15-24 grs /day
142
smoker >25 grs / day
38
Tot al
703
108
38
0
never smoked
smoker 1-14 grs/day
ex-smoker
smoker >25 grs /day
smoker 15-24 grs/day
SMOKING HABITS
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Hur beskriva kvantitativa
variabler?
• Histogram
• Box plot
• Medelvärde
• Median
Bo Hedblad
Biostatistik T10
TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER
Statisti cs
SBP 1969 mm Hg
N
Histogram
Valid
Missing
160
703
0
138,7198
135,0000
22, 2520
,777
,092
,592
,184
95, 00
225,00
Mean
Median
Std. Dev iation
Skewness
Std. Error of Skewness
Kurt osis
Std. Error of Kurtos is
Minim um
Max im um
140
120
100
80
60
SBP 1969 mmHg
95, 00
100,00
105,00
110,00
115,00
120,00
125,00
130,00
135,00
140,00
145,00
150,00
155,00
160,00
165,00
170,00
175,00
180,00
185,00
190,00
195,00
200,00
205,00
215,00
220,00
225,00
Tot al
Percent
,3
1, 4
2, 3
5, 3
6, 7
9, 4
10, 1
9, 5
8, 7
8, 1
7, 8
6, 5
5, 3
4, 1
3, 6
2, 3
2, 7
1, 6
1, 4
1, 1
,3
,6
,4
,1
,3
,1
100,0
Valid Percent
,3
1, 4
2, 3
5, 3
6, 7
9, 4
10, 1
9, 5
8, 7
8, 1
7, 8
6, 5
5, 3
4, 1
3, 6
2, 3
2, 7
1, 6
1, 4
1, 1
,3
,6
,4
,1
,3
,1
100,0
Cumulat iv e
Percent
,3
1, 7
4, 0
9, 2
15, 9
25, 3
35, 4
45, 0
53, 6
61, 7
69, 6
76, 1
81, 4
85, 5
89, 0
91, 3
94, 0
95, 6
97, 0
98, 2
98, 4
99, 0
99, 4
99, 6
99, 9
100,0
40
Std. Dev = 22,25
20
Mean = 138,7
N = 703,00
0
100,0
120,0
140,0
160,0
180,0
200,0
220,0
110,0
130,0
150,0
170,0
190,0
210,0
230,0
SBP 1969 mmHg
Outliers,
extremvärden
Boxplot
240
220
576
344
345
74
354
80
200
SBP 1969 mmHg
Valid
Frequency
2
10
16
37
47
66
71
67
61
57
55
46
37
29
25
16
19
11
10
8
2
4
3
1
2
1
703
1
512
283
153
525
549
328
343
688
380
279
329
4
180
160
140
120
100
80
N=
108
never smoked
159
256
142
smoker 1-14 grs/day
ex-smoker
38
smoker >25 grs /day
smoker 15-24 grs/day
SMOKING HABITS
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER
Boxplot
Outliers = O
* Extreme outliers (>3 ggr boxens höjd)
1.5 ggr boxens höjd
240
220
576
354
80
200
SBP 1969 mmHg
Högsta värde
344
345
74
1
512
283
153
525
549
328
343
688
380
279
329
4
IQR (kvartilavstånd) =
Q1 – Q3
180
160
Q3 = 75:e percentilen
140
Median
Q1 = 25:e percentilen
120
100
80
N=
108
never smoked
159
256
142
smoker 1-14 grs/day
ex-smoker
38
smoker >25 grs /day
Lägsta värde (eller
1.5 ggr boxens höjd)
smoker 15-24 grs/day
SMOKING HABITS
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Centralmått
Medelvärde (aritmiskt)
Mätvärdena adderas och divideras med antalet mätvärden.
Endast vid kvantitativa variabler.
Median
’Mittenvärdet’. Det värde som gör att lika många värden är
lägre och högre.
Bra metod om det finns avvikare (s.k. ’out-liers’) med
mycket höga eller låga värden.
Typvärde
Det mest vanligaste värdet i data. Kan användas i alla data
(ordinaldata, diskreta och kontinuerliga data).
Bo Hedblad
Biostatistik T10
TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER
Statisti cs
SBP 1969 mm Hg
N
Histogram
Valid
Missing
160
703
0
138,7198
135,0000
22, 2520
,777
,092
,592
,184
95, 00
225,00
Mean
Median
Std. Dev iation
Skewness
Std. Error of Skewness
Kurt osis
Std. Error of Kurtos is
Minim um
Max im um
140
120
100
80
60
SBP 1969 mmHg
95, 00
100,00
105,00
110,00
115,00
120,00
125,00
130,00
135,00
140,00
145,00
150,00
155,00
160,00
165,00
170,00
175,00
180,00
185,00
190,00
195,00
200,00
205,00
215,00
220,00
225,00
Tot al
Percent
,3
1, 4
2, 3
5, 3
6, 7
9, 4
10, 1
9, 5
8, 7
8, 1
7, 8
6, 5
5, 3
4, 1
3, 6
2, 3
2, 7
1, 6
1, 4
1, 1
,3
,6
,4
,1
,3
,1
100,0
Valid Percent
,3
1, 4
2, 3
5, 3
6, 7
9, 4
10, 1
9, 5
8, 7
8, 1
7, 8
6, 5
5, 3
4, 1
3, 6
2, 3
2, 7
1, 6
1, 4
1, 1
,3
,6
,4
,1
,3
,1
100,0
Cumulat iv e
Percent
,3
1, 7
4, 0
9, 2
15, 9
25, 3
35, 4
45, 0
53, 6
61, 7
69, 6
76, 1
81, 4
85, 5
89, 0
91, 3
94, 0
95, 6
97, 0
98, 2
98, 4
99, 0
99, 4
99, 6
99, 9
100,0
40
Std. Dev = 22,25
20
Mean = 138,7
N = 703,00
0
100,0
120,0
140,0
160,0
180,0
200,0
220,0
110,0
130,0
150,0
170,0
190,0
210,0
230,0
SBP 1969 mmHg
Typvärde
Boxplot
240
220
576
344
345
74
354
80
200
SBP 1969 mmHg
Valid
Frequency
2
10
16
37
47
66
71
67
61
57
55
46
37
29
25
16
19
11
10
8
2
4
3
1
2
1
703
1
512
283
153
525
549
328
343
688
380
279
329
4
180
160
140
120
100
80
N=
108
never smoked
159
256
142
smoker 1-14 grs/day
ex-smoker
38
smoker >25 grs /day
smoker 15-24 grs/day
SMOKING HABITS
Bo Hedblad
Biostatistik T10
Spridningsmått
Kvartil-(percentil) värden
Delar ett material i 4 (100) lika delar.
Interkvartilavstånd
Skillnaden mellan 1a (25%) och 3e (75%)
kvartilgränsen
Range (variationsvidd)
Avståndet mellan högsta (max) och lägsta (min)
värde.
Standardavvikelse (SD). SD=√variansen
Bo Hedblad
Biostatistik T10
TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER
Statistics
SBP 1969 mmHg
95,00
100,00
105,00
110,00
115,00
120,00
125,00
130,00
135,00
140,00
145,00
150,00
155,00
160,00
165,00
170,00
175,00
180,00
185,00
190,00
195,00
200,00
205,00
215,00
220,00
225,00
Total
Percent Valid Percent
,3
,3
1,4
1,4
2,3
2,3
5,3
5,3
6,7
6,7
9,4
9,4
10,1
10,1
9,5
9,5
8,7
8,7
8,1
8,1
7,8
7,8
6,5
6,5
5,3
5,3
4,1
4,1
3,6
3,6
2,3
2,3
2,7
2,7
1,6
1,6
1,4
1,4
1,1
1,1
,3
,3
,6
,6
,4
,4
,1
,1
,3
,3
,1
,1
100,0
100,0
95% CI SBP 1969 mmHg
Valid
Frequency
2
10
16
37
47
66
71
67
61
57
55
46
37
29
25
16
19
11
10
8
2
4
3
1
2
1
703
Cumulative
Percent
,3
1,7
4,0
9,2
15,9
25,3
35,4
45,0
53,6
61,7
69,6
76,1
81,4
85,5
89,0
91,3
94,0
95,6
97,0
98,2
98,4
99,0
99,4
99,6
99,9
100,0
SBP 1969 mmHg
N
Valid
Miss ing
703
0
138,72
,84
135,00
22, 25
495,15
130
95
225
120,00
135,00
150,00
Mean
Std. Error of Mean
Median
Std. Dev iat ion
Variance
Range
Minimum
Max imum
Perc entiles
25
50
75
SE = SD/√n
Error bar
160
95% konfidensintervallet (CI)
150
140
130
120
N =
108
never smoked
159
256
142
smoker 1-14 grs/day
ex-smoker
38
smoker >25 grs /day
smoker 15-24 grs/day
rökgrupper 1969
Bo Hedblad
Biostatistik T10
Normalfördelning (Gauss distribution) eller ej
Bo Hedblad
Biostatistik T10
Normalfördelning eller ej
-2SD
Medel
-1SD
+2SD
+1SD
Vid normalfördelning:
66% av observationerna inom x±1SD
95% av observationerna inom x±2SD
99% av observationerna inom x±3SD
95% av individerna
Bo Hedblad
Biostatistik T10
120
Symmetrisk fördelning
100
Statisti cs
BMI 1969 kg/m2
N
80
60
Normalfördelningskurva
40
20
Std. Dev = 3,10
Valid
Missing
Mean
Median
Std. Dev iation
Skewness
Std. Error of Skewness
Kurt osis
Std. Error of Kurtos is
696
7
24, 5240
24, 5980
3, 0971
,324
,093
1, 012
,185
Mean = 24,5
N = 696,00
0
,0
40
,0
38
,0
36
,0
34
,0
32
,0
30
,0
28
,0
26
,0
24
,0
22
,0
20
,0
18
,0
16
BMI 1969 kg/m2
Positiv sned fördelning
400
Statisti cs
trigly c 1969 mmol/ l
N
300
200
Normalfördelningskurva
100
Std. Dev = ,83
Mean = 1,2
N = 691,00
0
Mean
Median
Std. Dev iation
Skewness
Std. Error of Skewness
Kurt osis
Std. Error of Kurtos is
Valid
Missing
691
12
1, 2233
1, 0169
,8251
5, 512
,093
52, 211
,186
,0
11
,0
10
0
9,
0
8,
0
7,
0
6,
0
5,
0
4,
0
3,
0
2,
0
1,
0
0,
triglyc 1969 mmol/l
Bo Hedblad
Biostatistik T10
Val av genomsnitts- och
spridningsmått hör ihop
• Är data symmetriskt fördelade: välj
medelvärde och standardavvikelse
• Är data snedfördelade: välj median och
interkvartiler (IQ) alternativt percentiler
• Om små grupper: överväg spridningsmått
som min och max.
Bo Hedblad
Biostatistik T10
Standard deviation (SD)
SD = √variansen
SD = mått på genomsnittlig avvikelse från medelvärdet
Mått på osäkerheten: anges som konfidensintervall
Standard error (SE, medelfel)
SE = SD/√n
SE = mått på osäkerheten i uppskattat medelvärdet för gruppen
dvs beskriver medelfelet vid urvalet (stickprovet)
Bo Hedblad
Biostatistik T10
Konfidensintervall (CI el KI)
• Anger osäkerheten i en punktskattning, ett
nmedelvärde, skillnaden mellan två medelvärden, en
andel, eller skillnaden mellan två andelar
• Beräknas utifrån formeln:
punktskattningen (x) ± konstant (C) · medelfelet (SE)
• Konstanten vid olika konfidensgrader:
Konfidensgrad 90% ⇒ c=1,64
Konfidensgrad 95% ⇒ c=1,96
Konfidensgrad 99% ⇒ c=2,58
• CI av ett medelvärde (x):
• CI av en andel (q):
Bo Hedblad
Biostatistik T10
Skilj på standardavvikelse (SD) och Standard Error (SE)!
SD och SE uttrycker olika saker
Rökare
Icke rökare
Individer
Report
Grupper
BMI 1969 kg/m2
CURRENT
SMOKER 1969
NO
YES
Total
Mean
25,1272
24,1553
24,5240
N
264
432
696
Std. Dev iation
2,88004
3,16966
3,09709
Std. Error
of Mean
,17725
,15250
,11739
Median
25,1226
24,1997
24,5980
Minimum
15,92
15,70
15,70
Max imum
35,01
39,97
39,97
Variance
8,295
10,047
9,592
Bo Hedblad
Biostatistik T10
Bakgrund: Den akuta effekten av rökning innebär bl.a.
ökad puls och ökat blodtryck.
HYPOTES
Har rökare högre
blodtryck än icke
rökare?
Bo Hedblad
Biostatistik T10
60
50
40
ICKE RÖKARE
30
20
10
Std. Dev = 22,91
Mean = 144,8
N = 267,00
0
Histogram
100,0
120,0
140,0
160,0
180,0
200,0
220,0
110,0
130,0
150,0
170,0
190,0
210,0
230,0
Visar distributionen,
medelvärdet och SD
SBP 1969 mmHg
120
100
80
RÖKARE
60
40
20
Std. Dev = 21,01
Mean = 135,0
N = 436,00
0
100,0
120,0
140,0
160,0
180,0
200,0
220,0
110,0
130,0
150,0
170,0
190,0
210,0
230,0
SBP 1969 mmHg
Bo Hedblad
Biostatistik T10
Testa hypoteser
Fråga: Har rökare högre systoliskt blodtryck än icke-rökare?
Två hypoteser kan formuleras:
Noll-hypotesen
Det finns ingen skillnad i blodtryck mellan rökare och
icke-rökare (=H0)
Alternativhypotesen
Det finns en skillnad (=HA). Ett p-värde räknas fram med ett
statistiskt test t.ex. Students t-test.
Bo Hedblad
Biostatistik T10
Hypotestestning
Hur stor är sannolikheten att denna skillnad
uppkommer av slumpen?
Eller:
Om man tar 2 stickprov från samma population, hur
ofta får man då en sådan skillnad?
P-värdet beskriver hur stor sannolikheten är att
denna skillnad uppkommit av slumpen
Bo Hedblad
Biostatistik T10
Slumpfynd? P-värde
Variabel
Rökare
Icke-rökare
SBP (mmHg)
135
145
DBP (mmHg)
81
88
Total (n)
436
267
703
Bo Hedblad
Biostatistik T10
Population och stickprov
POPULATION
Deltagare
”Stickprov”
Ex. Blodtrycket
Medelvärdet i populationen = µ
SD i populationen = δ
Medelvärdet i stickprovet = (x)
Precisionen (SD) i stickprovet = (s)
Icke-deltagare
Bo Hedblad
Biostatistik T10
Population och stickprov
Statistisk inferens, statistisk dataanalys och statistisk
slutledning:
Via att bestämma stickprovets (x) och (s) kan vi förutsäga
sannolikheten för överenstämmelse med medelvärdet resp
standardavvikelse (δ) i populationen (µ)
µ skattas med hjälp av x
inferens
µ okänt
Stickprovets x
beräknas
Bo Hedblad
Biostatistik T10
Alternativhypotes (HA)
Urval
Urval
Rökare
Ej rökare
SBP (mmHg)
135
145
DBP (mmHg)
81
88
Total (n)
436
267
Variabel
HA:
Pop
Rök
Pop
Ej rök
703
SBP
Bo Hedblad
Biostatistik T10
H0:
Pop
rök
Pop
Ej rök
Noll hypotes (H0)
Urval
Urval
Rökare
Ej rökare
SBP (mmHg)
135
145
DBP (mmHg)
81
88
Total (n)
436
267
SBP
Variabel
HA:
Pop
rök
Pop
Ej rök
703
SBP
Bo Hedblad
Biostatistik T10
H0:
Pop
rök
Pop
Ej rök
Noll hypotes (H0)
Urval
Urval
Rökare
Ej rökare
135
145
SBP
Variabel
HA:
Pop
rök
Pop
Ej rök
SBP (mmHg)
Blodtrycksnivån är lika,
DBP (mmHg)
81
88
dvs det finns ingen skillnad
(n)
436
267
703
H0 sägerTotal
att slumpen orsakat den observerade
SBP
skillnaden, våra stickprov kommer från två olika
populationer
Bo Hedblad
Biostatistik T10
Variabler
Kvantitativa
Kvalitativa
Normalfördelade
Snedfördelade
Icke parametriska test
mätdata
mätdata
Exempel:
CHI-2
Parametriska test
Exempel:
t-test, F-test, Anova
Linjär regression
Icke parametriska
test
Exempel:
Rangkorrelation
Bo Hedblad
Biostatistik T10
Parametriska och ickeparametriska test
Parametriska test
Icke-parametriska test
• Bygger på antaganden hur
data fördelar sig
• Kan användas oberoende hur
data fördelar sig
• Baseras på observationernas
faktiska värde
• Baseras på observationernas
ranger
• Skattar en effekt för vilken man
kan beräkna p-värde och CI
(konfidensintervall)
• Beräknar endast p-värde
Bo Hedblad
Biostatistik T10
Hypotesprövning: Gruppjämförselser
Två grupper av observationer
Tre eller fler grupper av observationer
Skalnivå
Oberoende
Beroende
Oberoende
Beroende
Kvalitativ
(kategorisk)
CHI-2,
Fisher’s exact
test
McNemar
CHI-2
Cochran Q
Kvantitativ,
ej normalfördelad
Mann-Whitney
Wilcoxon’s
Signed
Kruskal-Wallis
Friedman’s Test
Kvantitativ,
Normalfördelad
Student’s t-Test
Paired t-Test
ANOVA
(ensidig indelning)
ANOVA /
Repeated Measures
(tvåsidig)
Bo Hedblad
Biostatistik T10
Students t-test
Testet kan användas då:
• man jämför en kvantitativ variabel
(dvs medelvärden) mellan 2 grupper
• den kvantitativa variabeln bör vara normalfördelad
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Students t-test
Group Statistics
SBP 1969 mmHg
CURRENT
SMOKER 1969
NO
YES
N
Mean
144,8315
134,9771
267
436
Std. Dev iation
22, 9061
21, 0063
Std. Error
Mean
1, 4018
1, 0060
Independent Samples Test
Lev ene's Test for
Equality of Variances
F
SBP 1969 mmHg Equal variances
assumed
Equal variances
not assumed
1,505
Sig.
,220
t-test f or Equality of Means
t
Mean
Sig. (2-tailed) Dif f erence
df
Std. Error
Dif f erence
95% Conf idence
Interv al of the
Dif f erence
Lower
Upper
5,831
701
,000
9,8544
1,6899
6,5364
13,1724
5,711
525,337
,000
9,8544
1,7255
6,4648
13,2440
Skilj på dessa p-värden!!!
Bo Hedblad
Biostatistik T10
Students t-test
Ange skillnader mellan grupperna som:
• Medeldifferens (95% CI)
Obs:
• Skilj på p-värdet mellan ”Levene’s Test for Equality of
variances” och ”T-test for Equality of means”
• Levene’s test anger statistiskt om det genomsnittliga
avvikelsen (SD) från medelvärdet skiljer sig mellan
grupperna.
Bo Hedblad
Biostatistik T10
H0:
Pop
rök
P-värde
Pop
ej rök
Urval
HA:
Pop
rök
Pop
ej rök
Urval
Variabel
Rökare
Ej rökare
SBP (mmHg)
135±21
145±22
DBP (mmHg)
81±14
88±14
436
267
Totalt (n)
T- test
703
T = 5.8 , p < 0.001
Bo Hedblad
Biostatistik T10
H0:
Pop
rök
P-värde
Pop
ej rök
Sannolikheten att de två stickproven kommer från två
Urval
Urval
populationer med lika systoliskt blodtryck är < 1%
Karakt
HA:
Pop
rök
Pop
ej rök
Rökare
Ej rökare
SBP (mmHg)
135±21
145±22
DBP (mmHg)
81±14
88±14
= αlfa-fel
T- test
Om p>0.05 och konklusionen är att skillnaden man
Totalt (n)
436
267
703
observerat är slumpmässigt betingad finns möjlighten till
beta-fel.
T = 18.1 , p < 0.001
Risk för beta-fel kan beräknas via power-kalkylering
Bo Hedblad
Biostatistik T10
P-värde
• P: probability, sannolikhet. Kan variera från ~0 till 1.
• Beskriver hur stor sannolikheten är att resultatet beror på
slumpen.
• Om p<0.05 är resultatet ’signifikant’, dvs sannolikheten att
resultatet beror på slumpen är <5%.
• Noll-hypotesen kan då förkastas och vi anser att skillnaden
inte kan förklaras av slumpen.
Exempel på signifikanta p-värden: p<0.05, p=0.49, p=0.00001
Exempel på icke signifikanta p-värden: p>0.05; p=0.685;p=0.051
Bo Hedblad
Biostatistik T10
Alfa och beta fel i en studie
Results of the
Study
Reality
Exposure shows An
Effect
Exposure shows No
Effect
Exposure
shows An
effect
Correct
Type I error (α)
“False positive”
Exposure
shows NO
effect
Type II error (β)
1 – β (Power)
“False negative”
Correct
Bo Hedblad
Biostatistik T10
p = 0.049
”VIVE LA DIFFERENCE”!
p = 0.051
Bo Hedblad
Biostatistik T10
P-värde: sammanfattning
Om p < 0.05
• Vi förkastar nollhypotesen – alternativhypotesen
gäller
• Vi antar att det finns en faktisk skillnad
Om p ≥ 0.05
• Vi kan inte förkasta nollhypotesen
• Vi har inte kunnat påvisa några samband, skillnader,
effekter eller olika fördelningar
Bo Hedblad
Biostatistik T10
Hypotesprövning för
kvalitativa variabler
Fråga: Skiljer sig högt blodtryck mellan rökare och ickerökare?
•Hur stor är sannolikheten att denna skillnad beror på
slumpen?
Eller:
•Hur ofta uppkommer en sådan skillnad om stickproven
kommer från samma population?
Bo Hedblad
Biostatistik T10
Variabler
Kvantitativa
Kvalitativa
Normalfördelade
Snedfördelade
Icke parametriska test
mätdata
mätdata
Exempel:
CHI-2
Parametriska test
Exempel:
t-test, F-test, Anova
Linjär regression
Icke parametriska
test
Exempel:
Rangkorrelation
Bo Hedblad
Biostatistik T10
Hypotesprövning: Gruppjämförselser
Två grupper av observationer
Tre eller fler grupper av observationer
Skalnivå
Oberoende
Beroende
Oberoende
Beroende
Kvalitativ
(kategorisk)
CHI-2,
Fisher’s exact
test
McNemar
CHI-2
Cochran Q
Kvantitativ,
ej normalfördelad
Mann-Whitney
Wilcoxon’s
Signed
Kruskal-Wallis
Friedman’s Test
Kvantitativ,
Normalfördelad
Student t-Test
Student t-Test
ANOVA
(ensidig indelning)
ANOVA /
Repeated Measures
(tvåsidig)
Bo Hedblad
Biostatistik T10
Chi2-testet (= Pearsons’ chi-square)
När man jämför kvalitativa variabler (dvs proportioner) i
två eller fler grupper.
Bo Hedblad
Biostatistik T10
Chi2-testet
HYP 1969 Q/HYPMED/BT>160/95 * CURRENT SMOKER 1969 Crosstabulation
HYP 1969
Q/H YPMED/BT>160/95
no
Count
% within C URRENT
SMOKER 1969
Count
% within C URRENT
SMOKER 1969
Count
% within C URRENT
SMOKER 1969
y es
Total
CURRENT SMOKER
1969
NO
YES
157
331
Total
488
58,8%
75,9%
69,4%
110
105
215
41,2%
24,1%
30,6%
267
436
703
100,0%
100,0%
100,0%
Ch i-Sq ua re Tes ts
Pears on C hi-Square
a
Con tinuity C orre ction
Like lih ood Ratio
F isher's Exact Tes t
Line ar-b y -Linear
Assoc ia tion
N o f Va lid Cas es
Value
22, 851b
22, 051
22, 516
22, 818
1
1
1
Asy mp. Sig.
(2 -sided )
,0 00
,0 00
,0 00
1
,0 00
df
Exact Sig.
(2 -sided )
Exact Sig.
(1 -sided )
,0 00
,0 00
703
a. Com put ed o nly f or a 2x2 tab le
b. 0 cells (,0%) h av e ex pecte d co unt less than 5. The min im um ex pect ed co unt is
81, 66.
Bo Hedblad
Biostatistik T10
Chi2-testet
HYP 1969 Q/HYPMED/BT>160/95 * rökgrupper 1969 Crosstabulation
HYP 1969
no
Q/HYPMED/BT>160/95
y es
Total
nev er smoked ex-smoker
Count
61
96
% wit hin rökgrupper 1969
56,5%
60,4%
Count
47
63
% wit hin rökgrupper 1969
43,5%
39,6%
Count
108
159
% wit hin rökgrupper 1969
100,0%
100,0%
rökgrupper 1969
smoker 1-14 smoker 15-24 smoker >25
grs/day
grs/day
grs /day
195
109
27
76,2%
76,8%
71,1%
61
33
11
23,8%
23,2%
28,9%
256
142
38
100,0%
100,0%
100,0%
Total
488
69,4%
215
30,6%
703
100,0%
Ch i-Sq uare Tests
Pears on Chi-Square
Likelihood R atio
Linear-by -Linear
Assoc iation
N of Valid Cases
Value
23, 789a
23, 454
16, 128
4
4
Asy mp. Sig.
(2-sided)
,000
,000
1
,000
df
703
a. 0 cells (,0%) hav e expected count less than 5. The
m inimum ex pect ed c ount is 11,62.
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
PAUS
Bo Hedblad
Biostatistik T10
Hypotestestning
• Den akuta effekten av rökning innebär bl.a. ökad puls
och ökat blodtryck.
• Emellertid har rökare lägre blodtryck än icke-rökare i de
flesta befolkningsstudier.
Frågor:
• Hur ser sambandet kroppsvikt (BMI i tre klasser:
normalviktiga/överviktiga/obesa) och blodtryck ut?
• Har rökare lägre blodtryck pga lägre kroppsvikt?
Bo Hedblad
Biostatistik T10
Hypotesprövning: Gruppjämförselser
Två grupper av observationer
Tre eller fler grupper av observationer
Skalnivå
Oberoende
Beroende
Oberoende
Beroende
Kvalitativ
(kategorisk)
CHI-2,
Fisher’s exact
test
McNemar
CHI-2
Cochran Q
Kvantitativ,
Mann-Whitney
Wilcoxon’s
Signed
Kruskal-Wallis
Friedman’s Test
Student t-Test
Paired t-Test
ANOVA
(ensidig indelning)
ANOVA /
Repeated Measures
(tvåsidig)
Ej normalfördelad
Kvantitativ,
Normalfördelad
Bo Hedblad
Biostatistik T10
Hur ser sambandet ut mellan kroppsvikt och rökning?
Analys av 2 kategoriska variabler: här passar Chi-2 testet
BMI GROUPS 1969 * C URRENT SMOKER 1969 Crosstabulati on
BMI GROUPS
1969
Tot al
NORMAL(BMI <25)
Count
% wit hin C URRENT
SMOKER 1969
OVER WEI GHT(BMI 25-29) Count
% wit hin C URRENT
SMOKER 1969
OBESE(BMI>=30)
Count
% wit hin C URRENT
SMOKER 1969
Count
% wit hin C URRENT
SMOKER 1969
CURRENT SMOKER
1969
NO
Y ES
127
265
Tot al
392
48, 1%
61, 3%
56, 3%
124
151
275
47, 0%
35, 0%
39, 5%
13
16
29
4, 9%
3, 7%
4, 2%
264
432
696
100,0%
100,0%
100,0%
Ch i-Sq ua re Tes ts
Pears on Ch i-Square
Like lih ood R atio
Line ar-b y -Linear
Assoc ia tion
N o f Va lid Case s
Value
11, 671a
11, 650
10, 274
2
2
Asy mp. Sig .
(2 -sided )
,0 03
,0 03
1
,0 01
df
696
a. 0 cells (,0%) h av e exp ecte d co unt less than 5. The
m in imum ex pect ed c ount is 11 ,00.
Bo Hedblad
Biostatistik T10
Hypotesprövning för icke
normalfördelade kvantitativa variabler
Frågeställning:
• Är triglyceridnivån högre hos obesa än överviktiga
och normalviktiga?
Hur ser variabeln triglycerider ut?
• Kontinuerliga eller kategoriska data?
• Om kontinuerliga data, normalfördelade eller ej?
Bo Hedblad
Biostatistik T10
Testa normalfördelning: tex via histogram, kurtosis
(’toppighet’), skewness (’skevhet’)
400
Statisti cs
Positiv
snedfördelning
300
trigly c 1969 mmol/ l
N
200
100
Std. Dev = ,83
Mean = 1,2
Valid
Missing
Mean
Median
Std. Dev iation
Skewness
Std. Error of Skewness
Kurt osis
Std. Error of Kurtos is
691
12
1, 2233
1, 0169
,8251
5, 512
,093
52, 211
,186
N = 691,00
0
,0
11
,0
10
0
9,
0
8,
0
7,
0
6,
0
5,
0
4,
0
3,
0
2,
0
1,
0
0,
triglyc 1969 mmol/l
A
Variansanalys
Logaritmera Tg
2 oberoende stickprov
t.ex. Mann-Whitney
B
Icke parametriska test
k oberoende stickprov
t.ex. Kruskal-Wallis
Bo Hedblad
Biostatistik T10
Logaritmera Tg
200
Statisti cs
100
Std. Dev = ,48
Mean = ,07
N = 691,00
0
-1,50 -1,00 -,50
0,00
,50
1,00 1,50 2,00 2,50
-1,25 -,75
-,25
,25
,75
1,25 1,75 2,25
LOG TRIGLY CERIDES 1969
N
Valid
Missing
Mean
Std. Error of Mean
Median
Std. Dev iation
Skewness
Std. Error of Skewness
Kurt osis
Std. Error of Kurtos is
Minimum
Max imum
691
12
7, 264E-02
1, 818E-02
1, 681E-02
,4779
,556
,093
1, 722
,186
-1,44
2, 46
LOG TRIGLYCERIDES 1969
ANOVA - Univariat Analys av Variansen
Descriptive Statistics
Between-Subj ects Factors
BMI GROUPS
1969
1
2
3
Value Label
NORMAL(B
MI<25)
OVERWEI G
HT(BMI25-2
9)
OBESE(BMI
>=30)
N
Dependent Variable: LOG TRIGLYCERIDES 1969
386
274
28
BMI GROUPS 1969
Mean
NORMAL(BMI<25)
-4,51E-02
OVER WEI GHT(BMI 25-29)
,1980
OBESE(BMI>=30)
,4775
Tot al
7, 301E-02
Std. Dev iation
,4395
,4647
,5596
,4765
N
386
274
28
688
Bo Hedblad
Biostatistik T10
Hur ser sambandet ut mellan triglycerider och kroppsvikt?
Analys av en kvantitativ logaritmerad normalfördelad variabel i olika grupper
(kategorisk variabel): här passar
ANOVAects
(’variansanalys’)
metoden
Tests of Between-Subj
Effects
Dependent Variable: LOG TRIGLY CER IDES 1969
Sourc e
Correct ed Model
Interc ept
BMI69_3
Error
Tot al
Correct ed Total
Ty pe III Sum
of Squares
14, 247a
9, 475
14, 247
141,769
159,683
156,016
df
2
1
2
685
688
687
Mean Square
7, 124
9, 475
7, 124
,207
F
34, 420
45, 781
34, 420
Sig.
,000
,000
,000
a. R Squared = , 091 (Adjust ed R Squared = ,089)
Contrast Results (K Matri x)
BMI GROUPS 1969
a
Simple Cont rast
Lev el 2 v s. Lev el 1
Contras t Est im at e
Hy pot hesized Value
Dif f erence (Es timate - Hy pot hesized)
Std. Error
Sig.
95% Conf idence Interv al
f or Dif f erence
Lev el 3 v s. Lev el 1
Lower Bound
Upper Bound
Contras t Est im at e
Hy pot hesized Value
Dif f erence (Es timate - Hy pot hesized)
Std. Error
Sig.
95% Conf idence Interv al
f or Dif f erence
a. Ref erence cat egory = 1
Lower Bound
Upper Bound
Dependent
Variable
LOG
TRI GLY CERI
DES 1969
,243
0
,243
,036
,000
,173
,314
,523
0
,523
,089
,000
,348
,697
Test Results
Dependent Variable: LOG TRIGLY CERIDES 1969
Sourc e
Contras t
Error
Sum of
Squares
14,247
141,769
df
2
685
Mean Square
7,124
,207
F
34,420
Sig.
,000
BMI GROUPS 1969
Dependent Variable: LOG TRIGLYCERIDES 1969
BMI GROUPS 1969
Mean
NORMAL(BMI<25)
-4,51E-02
OVERWEIGHT(BMI25-29)
,198
OBESE(BMI>=30)
,478
Std. Error
,023
,027
,086
95% Conf idence Interval
Lower Bound Upper Bound
-9,055E-02
3,812E-04
,144
,252
,309
,646
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Hypotesprövning för icke
normalfördelade kvantitativa variabler
Frågeställning:
• Är triglyceridnivån högre hos obesa än överviktiga
och normalviktiga?
Hur ser variabeln triglycerider ut?
• Kontinuerliga data
• Ej normalfördelade
Bo Hedblad
Biostatistik T10
Hypotesprövning: Gruppjämförselser
Två grupper av observationer
Tre eller fler grupper av observationer
Skalnivå
Oberoende
Beroende
Oberoende
Beroende
Kvalitativ
(kategorisk)
CHI-2,
Fisher’s exact
test
McNemar
CHI-2
Cochran Q
Kvantitativ,
ej normalfördelad
Mann-Whitney
Wilcoxon’s
Signed
Kruskal-Wallis
Friedman’s Test
Kvantitativ,
Normalfördelad
Student t-Test
Paired t-Test
ANOVA
(ensidig indelning)
ANOVA /
Repeated Measures
(tvåsidig)
Bo Hedblad
Biostatistik T10
Icke parametriska test
Kruskal-Wallis Test
Test Statisticsa,b
Ranks
BMI GROUPS 1969
trigly c 1969 mmol/ l NORMAL(BMI <25)
OVER WEI GHT(BMI 25-29)
OBESE(BMI>=30)
Tot al
N
386
274
28
688
Mean Rank
293,86
398,98
509,48
trigly c 1969
m mol/ l
Chi-Square
64, 940
df
2
Asy mp. Sig.
,000
a. Krus kal Wallis Test
b. Grouping Variable: BMI GROUPS 1969
Mann-Whitney Test
Test Statisticsa
Ranks
BMI GROUPS 1969
trigly c 1969 mmol/ l NORMAL(BMI <25)
OBESE(BMI>=30)
Tot al
N
386
28
414
Mean Rank
199,30
320,52
Sum of Ranks
76930,50
8974,50
trigly c 1969
mmol/ l
Mann-Whit ney U
2239,500
Wilcox on W
76930, 500
Z
-5,176
Asy mp. Sig. (2-tailed)
,000
a. Grouping Variable: BMI GROUPS 1969
Test Statisticsa
Ranks
BMI GROUPS 1969
trigly c 1969 mmol/l OVER WEIGHT(BMI25-29)
OBESE(BMI>=30)
Total
N
274
28
302
Mean Rank
146,19
203,46
Sum of Ranks
40056,00
5697,00
trigly c 1969
mmol/ l
Mann-Whit ney U
2381,000
Wilcox on W
40056, 000
Z
-3,306
Asy mp. Sig. (2-tailed)
,001
a. Grouping Variable: BMI GROUPS 1969
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Bakgrund:
• Den akuta effekten av rökning innebär bl.a. ökad puls
och ökat blodtryck
• Emellertid har rökare lägre blodtryck än icke-rökare i de
flesta studier
• Kan bero på att rökare har lägre kroppsvikt
Frågeställning:
• Är blodtrycket relaterat till kroppsvikt?
Fundera alltid på:
• Vilken typ av variabler ingår i analysen?
• Vilken statistiskt test är lämplig?
• Hur presentera data?
Bo Hedblad
Biostatistik T10
Frågeställning:
• Är blodtrycket relaterat till kroppsvikt?
• Vilken typ av variabler?
Kontinuerliga, kategoriska
• Hur presentera data?
Figur, tabell
• Vilken test?
Korrelation, ANOVA, Chi-square
Bo Hedblad
Biostatistik T10
Hur ser sambandet ut mellan blodtryck och kroppsvikt?
Analys av en kvantitativ normalfördelad variabel i olika grupper
(kategorisk variabel): här passar ANOVA (’variansanalys’) metoden
Descriptives
SBP 1969 mmHg
N
NORMAL(BMI<25)
OVERWEIGHT(BMI25-29)
OBESE(BMI>=30)
Total
392
275
29
696
Mean
Std. Dev iation Std. Error
134,8724
21,0160
1,0615
142,6909
22,0822
1,3316
152,5862
26,0707
4,8412
138,6997
22,1521
,8397
95% Conf idence Interval for
Mean
Lower Bound Upper Bound
132,7856
136,9593
140,0694
145,3124
142,6695
162,5030
137,0511
140,3483
Minimum
95,00
95,00
110,00
95,00
Maximum
225,00
220,00
215,00
225,00
ANOVA
SBP 1969 mmHg
Between Groups
Within Groups
Tot al
Sum of
Squares
15714,856
325333, 4
341048, 2
df
2
693
695
Mean Square
7857,428
469,457
F
16, 737
Sig.
,000
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Frågeställning:
• Är blodtrycket relaterat till kroppsvikt?
• Vilken typ av variabler?
Kontinuerliga, kategoriska
• Hur presentera data?
Figur, tabell
• Vilken test?
Korrelation, ANOVA, Chi-square
Bo Hedblad
Biostatistik T10
Correlations
Föutsättning: Normalfördelade variabler!
Co rrelati on s
SBP 1969 mm Hg
BMI 1969 kg/m 2
Pears on C orrelation
Sig. (2-t ailed)
N
Pears on C orrelation
Sig. (2-t ailed)
N
SBP 1969
BMI 1969
m mHg
kg/ m2
1, 000
,259* *
,
,000
703
696
,259* *
1, 000
,000
,
696
696
**. Correlat ion is signif icant at t he 0.01 lev el (2-tailed).
Nonparametric correlations
Vid snedfördelade variabler!
Correlati ons
Spearman's rho
SBP 1969 mmHg
BMI 1969 kg/m2
SBP 1969
BMI 1969
mmHg
kg/ m2
Correlat ion Coef f ic ient
1, 000
,254**
Sig. (2-t ailed)
,
,000
N
703
696
Correlat ion Coef f ic ient
,254**
1, 000
Sig. (2-t ailed)
,000
,
N
696
696
**. Correlat ion is signif icant at the . 01 lev el (2-t ailed).
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Hypotesprövning av 2 kvantitativa variabler
Korrelationskoefficient (Pearsons’ correlation).
Beskriver hur väl en scatterplot ansluter till en rät linje. Kan
variera från –1 till +1.
Fråga: Har blodtrycket ett samband med kroppsvikten?
240
220
200
180
160
140
120
100
80
10
20
30
40
50
body mass index
Scatterplot (spridningsdiagram) för systoliskt blodtryck och BMI.
Korrelationskoefficienten r=0.26 (r2=0.07), n=696 (7 missing),
p=0.0000000000026 (p<0.001)
Bo Hedblad
Biostatistik T10
Hypotesprövning av
2 kvantitativa variabler:
Fråga: Har triglyceridnivån ett samband med kroppsvikten?
12
10
8
6
4
2
0
10
20
30
40
50
BMI 1969 kg/m2
Scatterplot (spridningsdiagram) för triglycerider och BMI.
r = 0.23, r2 = 0.05, p<0.001, n= 688
KORREKT????
Bo Hedblad
Biostatistik T10
Statisti cs
N
Valid
Missing
Mean
Median
Std. Dev iation
Skewnes s
Std. Error of Skewness
Kurt osis
Std. Error of Kurtos is
BMI 1969
kg/ m2
696
7
24, 5240
24, 5980
3, 0971
,324
,093
1, 012
,185
trigly c 1969
m mol/ l
691
12
1, 2233
1, 0169
,8251
5, 512
,093
52, 211
,186
Co r relatio ns
BMI 1969 kg/ m2
Correlations
trigly c 1969 m mol/ l
Pears on Correlation
Sig. (2-t ailed)
N
Pears on Correlation
Sig. (2-t ailed)
N
BMI 1969
trigly c 1969
kg/ m2
m mol/ l
1, 000
,230* *
,
,000
696
688
,230* *
1, 000
,000
,
688
691
* * . Correlat ion is signif icant at t he 0.01 lev el (2-tailed).
Correlati ons
Nonparametric
correlations
Spearman's rho
BMI 1969
trigly c 1969
kg/ m2
m mol/ l
BMI 1969 kg/m 2
Correlat ion Coef f icient
1, 000
,311**
Sig. (2-t ailed)
,
,000
N
696
688
trigly c 1969 m mol/ l Correlat ion Coef f icient
,311**
1, 000
Sig. (2-t ailed)
,000
,
N
688
691
**. Correlat ion is signif icant at the .01 lev el (2-t ailed).
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Exempel på olika korrelationer (r)
X
X
X
X
Exempel
på r:
X
X
X
1.0
X
X
X
X
X
X
X
Beskrivnin Perfekt
g av
positivt
relationen: samband
X
X
Perfekt
negativt
samband
-1.0
X
X
X
Starkt
positivt
samband
0.75
Starkt
negativt
samband
-0.75
X
X
X
Inget
samband
0
X
X
X
Icke-linjärt
samband
Korrelation
ej lämplig
Bo Hedblad
Biostatistik T10
Scatterbilder säger mer än
siffror och tabeller
80
r= -0.40
p= 0.003
70
60
50
40
30
20
10
14
16
18
20
22
24
26
28
30
32
34
36
Bo Hedblad
Biostatistik T10
80
70
60
r=0.53
p<0.0001
Samma r-värde
men helt olika
samband!
50
40
30
20
10
28
30
32
34
36
38
40
42
80
70
60
50
r=0.51
p=0.0001
40
30
20
10
-,05
0
,05
,1
,15
,2
,25
,3
,35
,4
Bo Hedblad
Biostatistik T10
Hypotesprövning av 2 normalfördelade
kvantitativa variabler
Linjär regression
Bo Hedblad
Biostatistik T10
Enkel linjär regression
Kopierat ifrån Björk J, Praktisk statistik för medicin och hälsa, s. 209, Studentlitteratur
Bo Hedblad
Biostatistik T10
Enkel linjär regressionsmodell
Genomsnittsmodell vs. Individuell modell
Genomsnittsmodell:
• y = utfallsvariabel
• x = förklarande variabel
•  (ekvationens konstant, eller skärning (intercept)),  (ekvationens
riktningskoefficient eller lutningskoefficient (slope)) är
regressionsparametrar vilka uppskattas utifrån observerade data
Individuell modell:
y=+*x+
•  = naturlig variation i data (felterm (residual), dvs. avvikelse från
modellen)
Avståndet från en observation till linjen kallas för
observationens residual. Storleken ( ) blir ett mått på hur
mycket av den naturliga variationen i y man kan förklara
genom att känna till värdet på x.
Bo Hedblad
Biostatistik T10
Hypotesprövning: 2 kvantitativa variabler
Påverkas lungfunktionen av
kroppsvikten?
Hur samvarierar FEV1.0 och BMI?
Är sambandet oberoende av rökning?
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Förklaringsgrad (här justerat r2) anger hur mycket av
variationen i y (här FEV1.0) som förklaras av
ingående variabler x (BMI) och z (rökning)
Bo Hedblad
Biostatistik T10
Massignifikans
• Om man gör ett statistiskt test är sannolikheten 5% att man får ett
signifikant resultat även om nollhypotesen är sann (dvs om det inte
finns någon skillnad mellan grupperna).
• Om man gör ytterligare ett test har man även denna gång 5% chans att
få signifikant resultat.
• Om man gör 100 test kan 5 resultat förväntas bli signifikanta även om
det inte finns någon skillnad mellan grupperna.
• Med datorns hjälp är det lätt att göra många analyser. Man bör undvika
att göra många analyser utan en bra hypotes och att övertolka enstaka
signifikanta värden.
Bo Hedblad
Biostatistik T10
”The multifactorial
web of causation”
Omgivning
Livsstil
Genetik
Sjukdom = f (ax1 + bx2 + cx3 + ………)
Bo Hedblad
Biostatistik T10
Schematic description of mechanisms involved in the
development of atherosclerosis
Environmental
factors
Psychosocial
Factors
Diet
-calories
-fat
Physical activity
Stress
Smoking
Diabetes
Glucose intolerance
Insulin resistance
Hypertriglyceridemia
Low HDL
Obesity
Hypertension
O2-radicals
DNA-damage
Genetic factors
DNA-repair




Increased
LDL-receptor
plasma lipids
Diabetes type II?
Homocysteinemia?
-1-rec-polymorphism
Endothelial damage
Inflammation
Lipid accumulation
SMC proliferation
Clinical manifestation
Oxidized
LDL
Coronary heart disease
Cerebrovascular disease
Periphery artery disease
Defect fibrinolysis
and/or
Activation of the
coagulation system
Intima media thickness
(IMT)
Plaque
Bo Hedblad
Biostatistik T10
BIAS
och
CONFOUNDING
Bo Hedblad
Biostatistik T10
Två huvudsakliga typer av bias
• Selection bias och information bias
Dessa kan sedan delas in i ett stort antal specifika typer
• Confounding bias är en tredje typ som ofta hanteras
separat
Bo Hedblad
Biostatistik T10
CONFOUNDING
(“störfaktorer”)
En störfaktor kan förklara
ett skensamband
Bo Hedblad
Biostatistik T10
Confounding
- Vad är en confounder?
- Hur känner man igen en confounder?
- Vilka metoder finns att ta hänsyn till confounding?
- När och hur skall man justera för en confounder?
Bo Hedblad
Biostatistik T10
Confounding
’ En störfaktor (’CF’) som förklarar relationen mellan exponering
(’E’) och utfall (’O’)’
O
E
CF
Bo Hedblad
Biostatistik T10
Exempel på confounding
Ojusterad RR >> Sann RR=1
Hjärtinfarkt
Gula fingrar
Rökning
Bo Hedblad
Biostatistik T10
Exempel på confounding
Ojusterad risk << sann risk
Hjärtinfarkt
Högt BMI
Rökning
Bo Hedblad
Biostatistik T10
Confounder
”Störfaktor”
E
O
CF
En ”störfaktor” måste vara:
1. En kausal riskfaktor för utfallet
2. Samvariera med exponeringen
3. Ska inte vara en effekt av utfallet eller en intermediär faktor
”Störfaktorns” effekt beror på:
1.
2.
Styrkan på sambandet mellan ”störfaktorer” och utfall bland
exponerade och oexponerade
Prevalens av ”störfaktorn”
Inte svårt i teorin, men ofta mycket komplext i verkliga livet !!
Bo Hedblad
Biostatistik T10
Hur väljer man
’confounding factors’?
O
E
• A priori ?
CF
• Datadriven strategi?
• Kombination av båda?
- Undvik justera för faktorer i orsakskedjan eller faktorer
som inte är riktiga confounders!
- Antal events som ingår i analysen?
Inte svårt i teorin, men ofta mycket komplext i verkliga livet !!
Bo Hedblad
Biostatistik T10
Confounding – 2 senarios
A) CF = confounder
B) CF = sannolikt ej confounder utan en mediator
Bo Hedblad
Biostatistik T10
Reverse confounding
Exponeringsvariabeln påverkas av utfallet (som vid
tidpunkten kan vara odiagnosticerat), och en del av
orsakskedjan.
• Exempel: Är låg fysisk aktivitet (E) en risk faktor för övervikt (O) ?
Eller är den fysiska aktiviteten låg eftersom individen är överviktig?
• Exempel: Hypertoni är en risk faktor för kranskärlssjukdom. Men
antihypertensiv behandling är oftast indicerad för patienter med
kranskärlssjukdom, dessa kommer att bli hypertensiva per definition.
Bo Hedblad
Biostatistik T10
Residual Confounding
Confounding p.g.a. omätta eller dåligt mätta variabler
De variabler vi justerar för korrigerar inte för confounding fullt ut
Orsak:
• Variabeln har dålig precision
• Multivariatmodellen passar dåligt
• Frånvaro (“missing”) av data
Bo Hedblad
Biostatistik T10
Confounding by Indication
När ett symtom eller tecken på sjukdom kan ses som en indikation (eller
kontraindikation) för en viss terapi och därför både är associaterad med
terapi och sannolikhet för utfallet.
• Exempel – de effektivaste astmaläkemedlen skrivs ut till de svårast
sjuka patienterna. Dessa läkemedel kan därför vara associerade med
ökat insjuknande i astmaexacerbationer.
• Exempel – Statiner förskrivs till patienter med hög kardiovaskulär risk.
Incidensen kan därför vara högre bland patienter med statiner.
Bo Hedblad
Biostatistik T10
Vilka metoder finns att ta
hänsyn till confounding
(’störfaktorer’)?
Bo Hedblad
Biostatistik T10
Metoder att hantera confounding
Confounding (“störfaktorer”)
Mätta confounders
Design
•Restriktion
•Matchning
Omätta confounders
•Standardisering
Omätta, men kan
mätas i en
substudie
•Stratifiering
•2-stegs insamling
•Regression
•Imputering
Analys
•Propensity scores
•Marginal Structural
Models
Från Schneeweiss, PDS 2006
Omätbara
Design
Analys
•Fall-baserad
design
•Instrumental
variabel
•Aktiv
jämförelsegrupp
(restriktion)
•Proxy analys
•Sensitivitets
analys
Bo Hedblad
Biostatistik T10
Sammanfattning: Vilka metoder finns att ta
hänsyn till confounding?
• Stratifiera (tex på en eller flera exponeringsvariabler)
• Randomisera (skapa jämföra grupper, tex RCT)
• Matcha (tex på ålder, kön, us-tid. Obs! övermatchning)
• Statistisk justering: tex, multivariat analys, imputering, Prop Sc
Bo Hedblad
Biostatistik T10
Statistisk metod att ta hänsyn
till confounding (’störfaktorer’)?
Multivariat analys
Bo Hedblad
Biostatistik T10
Vilka metoder finns för statistisk
justering av ’confounders’
• Multipel linjär regression eller partiell korrelation (när vi
studerar sambandet mellan 2 kvantitativa variabler)
• ANCOVA m.m. när vi jämför medelvärdet av kvantitativa
normalfördelade variabler i olika grupper (kategorisk variabel)
• Logistisk regression (när vi studerar en ja / nej variabel)
• Cox proportional hazard regression vid en prospektiv
studie av insjuknande (’incidens’) eller överlevnad (’mortalitet’)
av sjukdom i olika grupper (tex kliniska försök, RCT) Bo Hedblad
Biostatistik T10
Vilka metoder finns för statistisk
justering av ’confounders’
• Multipel linjär regression eller partiell korrelation (när vi
studerar sambandet mellan 2 kvantitativa variabler)
• ANCOVA m.m. när vi jämför medelvärdet av kvantitativa
normalfördelade variabler i olika grupper (kategorisk variabel)
• Logistisk regression (när vi studerar en ja / nej variabel)
• Cox proportional hazard regression vid en prospektiv
studie av insjuknande (’incidens’) eller överlevnad (’mortalitet’)
av sjukdom i olika grupper (tex kliniska försök, RCT) Bo Hedblad
Biostatistik T10
Frågeställning:
Är högt blodtryck (>=160/95 mm
Hg eller BT-behandling) relaterat
till rökning oberoende av
kroppsvikt (BMI) och fysisk
aktivitet (fys_akt)
Bo Hedblad
Biostatistik T10
Logistisk regression
Variables in the Equation
Step
a
1
NUROK69(1)
FYS_69
FYS_69(1)
FYS_69(2)
BMI69_3
BMI69_3(1)
BMI69_3(2)
Constant
B
-,760
S.E.
,173
,040
,082
,246
,272
,484
,956
-,663
,176
,398
,245
Wald
19,280
,097
,026
,091
11,140
7,585
5,763
7,323
df
1
2
1
1
2
1
1
1
Sig.
,000
,953
,871
,763
,004
,006
,016
,007
Exp(B)
,468
95,0% C.I.f or EXP(B)
Lower
Upper
,333
,657
1,041
1,085
,642
,637
1,686
1,848
1,622
2,602
,515
1,150
1,192
2,289
5,679
a. Variable(s) entered on step 1: NUROK69, FYS_69, BMI69_3.
Jämfört med normalviktiga (BMI <25) har överviktiga (BMI 25-29) och obesa
(BMI>=30) en statistiskt högre Odds kvot (OR) att ha högt blodtryck (>=160/95
mmHg), OR: 1.6; 95% CI: 1.2 – 2.3 och 2.6; 95% CI: 1.2 – 5.7.
Sambandet är oberoende av fysisk aktivitet, kroppsvikt och rökning.
OR är signifikant lägre för rökare (0.5; 95% CI: 0.3 – 0.7), oberoende av övriga
Bo Hedblad
faktorer.
Biostatistik T10
Bo Hedblad
Biostatistik T10
Vilka metoder finns för statistisk
justering av ’confounders’
• Multipel linjär regression eller partiell korrelation (när vi
studerar sambandet mellan 2 kvantitativa variabler)
• ANCOVA m.m. när vi jämför medelvärdet av kvantitativa
normalfördelade variabler i olika grupper (kategorisk variabel)
• Logistisk regression (när vi studerar en ja / nej variabel)
• Cox proportional hazard regression vid en prospektiv
studie av insjuknande (’incidens’) eller överlevnad (’mortalitet’)
av sjukdom i olika grupper (tex i kliniska försök, RCT) Bo Hedblad
Biostatistik T10
Fråga: Dör rökare tidigare än icke-rökare?
dead 1969-83 * CURR ENT SMOKER 1969 Crosstabulation
dead 1969-83
aliv e
y es, dead
Tot al
Count
% wit hin C URREN T
SMOKER 1969
Count
% wit hin C URREN T
SMOKER 1969
Count
% wit hin C URREN T
SMOKER 1969
CURRENT SMOKER
1969
NO
Y ES
223
324
Tot al
547
83, 5%
74, 3%
77, 8%
44
112
156
16, 5%
25, 7%
22, 2%
267
436
703
100,0%
100,0%
100,0%
Asy mp. Sig.
(2-sided)
,004
,006
,004
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
,005
,003
Ch i-Sq uare Tests
Pears on C hi-Square
a
Continuity C orrection
Likelihood Ratio
F isher's Exact Tes t
Linear-by -Linear
Assoc iation
N of Valid Cas es
Value
8, 133b
7, 608
8, 388
8, 121
df
1
1
1
1
,004
703
a. Com put ed only f or a 2x2 table
b. 0 cells (,0%) hav e ex pected count less than 5. The minim um ex pect ed count is Bo Hedblad
59, 25.
Biostatistik T10
Effektmått – Risk
Skillnader mellan riskmåtten
Absolut risk
• Utrycks i händelser per personår
Relativ risk
• Utrycks som en kvot där man jämför med en
referensgrupp
Bo Hedblad
Biostatistik T10
• Sannolikhetsfunktionen f(t)
(”sannolikheten att överleva en viss tid”)
• Överlevnadsfunktionen s(t)
• Kaplan-Meier
• Hazardfunktionen k(t)
(”sannolikheten att dö precis innan Du lever”)
• Cox regression
• Prop. Hazards
Bo Hedblad
Biostatistik T10
100
90
80
70
sannolikhetsfunktionen
60
hazardsfunktionen
överlevnadsfunktionen
50
40
30
20
10
0
0
10
20
30
40
50
60
70
80
90
100
Follow-up (years)
Bo Hedblad
Biostatistik T10
Överlevnadskurvor – Personår av observation
Ind. #
0
1
2
3
4
5
6
7
8
MI
= 4.5 personår
9
10
S=Screening
S
1
†
S
2
3
= 2 personår
Em = 4.5 personår
S
S
4
= 7.5 personår
etc
1000
S
CABG
= 7.2 personår
Bo Hedblad
Biostatistik T10
Överlevnadskurvor
1, 0
ICKE RÖKARE
,9
,8
RÖKARE
,7
0
2
4
6
8
10
Uppföljning stid (år)
12
14
16
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Cox regression
h(t) = h0(t)e–a+b1x1+b2x2+b3x3
100
90
80
70
60
50
40
h0(x)
b1x1 (tex kön)
30
20
10
0
0
2
4
6
8
10
Follow-up (years)
Bo Hedblad
Biostatistik T10
Bo Hedblad
Biostatistik T10
Överlevnadsanalys
Risken att dö per person-år hos rökare och
icke-rökare:
Icke-rökarna:
De 267 icke-rökarna levde sammanlagt i 3591 år
mellan 55 och 68 års ålder. 44 dog.
Antal döda per person-år var: 44 / 3591 = 0.012
Rökarna:
De 436 rökarna levde sammanlagt i 5567 år
mellan 55 och 68 års ålder. 112 dog.
Antal döda per person-år var: 112 / 5567 = 0.020
Bo Hedblad
Biostatistik T10
Överlevnadsanalys
Icke-rökarna:
Incidensen är: 44 / 3591 = 0.012
Rökarna:
Incidensen är: 112 / 5567 = 0.020
Relativ risk (RR, HR): 0.02 / 0.012 = 1.67
Om risken är 1 hos icke-rökaren så är den 1.67
(67% högre) hos rökaren
Bo Hedblad
Biostatistik T10
Konfidensintervall
Är detta signifikant?
Relativ risk: 1.67, 95% konfidensintervall (CI): 1.17 - 2.34.
CI = x±c·sd/√n
Konfidensintervall: Vid upprepade stickprov från samma
population kommer 95% av konfidensintervallen att innefatta
det sanna värdet (medelvärde, proportion eller sjuklighet).
1.17 – 2.34 utgör en skattning på osäkerheten i vårt
punktestimat.
OBS!!! En relativ risk (eller odds kvot) är signifikant om
95% konfidensintervallet inte innefattar 1.
Bo Hedblad
Biostatistik T10
Absolut risk
Icke-rökarna:
Incidensen är: 44 / 3591 = 0.012 *1000 = 12 per
1000 personår
Rökarna:
Incidensen är: 112 / 5567 = 0.020 *1000 = 20 per
1000 personår
Absolut risk: 20 - 12 = 8 per 1000 personår
Relativ risk: 1.67 = 67%
Bo Hedblad
Biostatistik T10
BIAS
“systematiskt fel”
Bo Hedblad
Biostatistik T10
Bias – ett systematiskt fel
• Ger ett felaktigt estimat eller en felaktig uppskattning av
sambandet
- Kan visa ett samband där det inte finns något
- Kan dölja ett samband där det finns ett
• Bias uppträder i design och genomförandefasen av en
studie
- Kan ofta inte åtgärdas i analysfasen
- Finns i alla typer av studier - experimentella &
observationsstudier
Bo Hedblad
Biostatistik T10
Två huvudsakliga typer av bias
• Selection bias och information bias.
Dessa kan sedan delas in i ett stort antal specifika typer
• Confounding bias är en tredje typ som ofta hanteras
separat
Bo Hedblad
Biostatistik T10
Typer av bias. Del 1
J Epidemiol Community Health 2004;58:635–641.
Bo Hedblad
Biostatistik T10
Typer av bias. Del 2
Bo Hedblad
Biostatistik T10
Types of bias part 3
J Epidemiol Community Health 2004;58:635–641.
Bo Hedblad
Biostatistik T10
Selection bias
Exempel:
•
•
•
•
•
•
•
Felaktigt val av fall och kontroller
Frivillig-bias
Healthy worker effect
Exklusioner pga missing data
Immortal time bias
Incidence-prevalence bias (selektiv överlevnad)
Health care access bias
Bo Hedblad
Biostatistik T10
Information bias
Exempel
•
•
•
•
•
•
•
Missklassificering av exponering
Missklassificering av utfall
Recall bias
Reporting bias
Protopathic bias
Ecological fallacy
Numerator-denominator bias
Bo Hedblad
Biostatistik T10
Orsaker till bias ?
• Vilken är studiebasen? Har alla haft samma sannolikhet
att komma med i studien?
• Har alla exponerade haft samma sannolikhet att bli
identifierade som exponerade? Valida och enhetliga
mätmetoder? Kan exponeringen ha påverkats av
subklinisk sjukdom?
• Är alla endpoints med? Har alla utfall haft samma chans
att bli identifierade och inkluderade i studien?
• Vid överlevnadsanalyser – när startar och när stoppar
klockan? Finns det konkurrerande utfall?
Bo Hedblad
Biostatistik T10
Standardisering
Bo Hedblad
Biostatistik T10
Standardisering
• En metod att ta hänsyn till skillnader mellan grupper.
• Oftast standardiserar man för skillnader i ålder och / eller kön, men
det kan också gälla andra skillnader.
DIREKT STANDARDISERING, exempel
I två städer är befolkningen ungefär lika stor (79600 respektive 85000).
Dödligheten är 14 respektive 11 per 1000 person-år. Det finns
emellertid skillnader i ålder - i STAD 1 finns fler unga invånare
medan STAD 2 utgör en äldre befolkning. Finns det någon skillnad i
dödlighet om man tar hänsyn till åldersskillnaden?
Räkna ut incidensen i varje åldersgrupp för sig (6 åldersgrupper). I detta
fall låter vi alla åldersgrupper få samma vikt genom att multiplicera
alla incidenser med 0.1666 (1 / 6).
Bo Hedblad
Biostatistik T10
Standardisering
STAD 1
STAD 2
Ålder (år)
Vikt
(andel)
Antal
döda
Befolkning
Incidens
per 1000
person-år
Antal
döda
Befolkning
Incidens
per 1000
person-år
25-34
0.166
70
14000
5
9
10000
0,9
35-44
0.166
150
23000
6,5
15
19000
0,79
45-54
0.166
190
18000
10,6
30
16000
1,9
55-64
0.166
200
13000
15,4
100
15000
6,7
65-74
0.166
300
8600
34,8
250
14000
17,9
75-84
0.166
200
3000
66,7
500
11000
45,5
Totalt
1.00
1110
79600
14
904
85000
11
Standardiserad incidens:
STAD 1: (5+6.5+10.6+15.4+34.8+66.7)*0.1666 = 24 per 1000 personår
STAD 2. (0.9+0.79+1.9+6.7+17.9+45.5)*0.1666 = 12.3 per 1000 personår
Bo Hedblad
Biostatistik T10
I detta exempel har alla åldersgrupper fått samma vikt (en sjättedel). Det är också
möjligt att ge yngre åldersgrupper större betydelse genom att vikta på annat sätt.
Standardisering
STAD 1
STAD 2
Ålder (år)
Vikt
(andel)
Antal
döda
Befolkning
Incidens
per 1000
person-år
Antal
döda
Befolkning
Incidens
per 1000
person-år
25-34
0.166
70
14000
5
9
10000
0,9
35-44
0.166
150
23000
6,5
15
19000
0,79
45-54
0.166
190
18000
10,6
30
16000
1,9
55-64
0.166
200
13000
15,4
100
15000
6,7
65-74
0.166
300
8600
34,8
250
14000
17,9
75-84
0.166
200
3000
66,7
500
11000
45,5
Totalt
1.00
1110
79600
14
904
85000
11
Standardiserad incidens:
RR: 24 / 12.3 = 1.95
STAD 1: (5+6.5+10.6+15.4+34.8+66.7)*0.1666 = 24 per 1000 personår
STAD 2. (0.9+0.79+1.9+6.7+17.9+45.5)*0.1666 = 12.3 per 1000 personår
I detta exempel har alla åldersgrupper fått samma vikt (en sjättedel). Det är också
möjligt att ge yngre åldersgrupper större betydelse genom att vikta på annat sätt.
Indirekt standardisering
SMR (standardized mortality rate)
•Anger dödlighet som observerats om det förväntade
antalet är 100.
•Ofta jämför man med en stor population, tex Sveriges
befolkning 1990, som alltså får talet SMR = 100.
Bo Hedblad
Biostatistik T10
Litet schema för val av statistisk metod
• Två kvalitativa variabler (ex. kön, rökare, hypertoniker). Gör 4-fältstabell
och Chi-2 test.
• Jämföra medelvärde i två grupper. (ex. vikt eller blodtryck hos rökareickerökare). Använd t-test, ANOVA
• Samband (”grad av rätlinjighet”) mellan två kvantitativa variabler.
Använd Pearsons’ korrelation coefficient.
• Vid små material (<30 individer) och icke normalfördelade material:
Använd icke-parametriska test. t-test ersätts med Mann-Whitney U-test
eller Pearsons korrelation med Spearman.
• Om Du gjort upprepat test på samma individer, t.ex. blodtryck före och
efter vårdtillfället. Använd parade tester, tex parat t-test.
Bo Hedblad
Biostatistik T10
Likabedömning
Gör läkare samma bedömning av en grupp patienter?
2 läkare möter samma pat och oberoende av varandra
föreslås beh A, B eller C. Läkarna föreslår beh på 25
patienter. Fråga: Gör läkarna samma bedömning i
gruppen?
läkB * l äkA Crosstabulation
Count
Kappa (κ) test:
läkB
Met od A
Met od B
Met od C
Tot al
Met od A
7
3
0
10
läkA
Met od B
3
7
2
12
Met od C
0
0
3
3
Tot al
10
10
5
25
Enligt Robert Altman:
Symmetri c Measures
Measure of Agreement Kappa
N of Valid Cas es
Value
,487
25
Asy mp.
a
Std. Error
,153
< 0.2 = slumpen
b
Approx. T
3, 296
Approx. Sig.
,001
0.21-0.4 = svag överenstämmelse
0.41-0.60 = måttlig överenstämmelse
a. Not ass uming t he null hy pot hesis.
b. Using the as y mptotic standard error assuming the null hy pothesis.
0.61-0.80 = god överenstämmelse
0.81-1.00 = stark överenstämmelse
Bo Hedblad
Biostatistik T10
Likabedömning
Gör läkare samma bedömning av en grupp patienter?
2 läkare möter samma pat och oberoende av varandra
föreslås beh A, B eller C. Läkarna föreslår beh på 25
patienter. Fråga: Gör läkarna samma bedömning i
gruppen?
läkB * l äkA Crosstabulation
Count
Kappa (κ) test:
läkB
Met od A
Met od B
Met od C
Tot al
Met od A
7
3
0
10
läkA
Met od B
3
7
2
12
Met od C
0
0
3
3
Tot al
10
10
5
25
Enligt Robert Altman:
Symmetri c Measures
Measure of Agreement Kappa
N of Valid Cas es
Value
,487
25
Asy mp.
a
Std. Error
,153
< 0.2 = slumpen
b
Approx. T
3, 296
Approx. Sig.
,001
0.21-0.4 = svag överenstämmelse
0.41-0.60 = måttlig överenstämmelse
a. Not ass uming t he null hy pot hesis.
b. Using the as y mptotic standard error assuming the null hy pothesis.
0.61-0.80 = god överenstämmelse
0.81-1.00 = stark överenstämmelse
Bo Hedblad
Biostatistik T10
Mättillfälle 2 (DBP mmHg)
MEDELVÄRDESREGRESSION
125
Mättillfälle 1 (M1, svart prick):
115
500 patienter: x= 95 ± 8 mmHg
105
95
Mättillfälle 2 (M2, vit prick):
85
75
500 patienter: x = 95 mm Hg
Korrelation (r) mellan
mättillfälle 1 och 2 = 0.6
65
65 75
85 95 105 115 125
Mättillfälle 1 (DBP mmHg)
Om mäter bara patienter med
DBP ≥ 95 mm Hg
M1: 101.4 mm Hg
-2.6 mmHg
M2: 98.8 mm Hg
”Fenomenet” orsakas av mätosäkerhet och inom patientvariation
Bo Hedblad
Biostatistik T10
MEDELVÄRDESREGRESSION KAN
FÖRORSAKA MISSVISANDE RESULTAT SOM:
• Relaterande av förändring mot ingångsvärdet
Tex r = - 0.45 (M1 vs M2-M1)
• Undersökning av effekter i subgrupper
Tex av grupper med ”extrema” värden
• Publikationsbias
Tex många ”fynd” uppvisar påtaglig
regression mot medelvärdet i senare
jämförbara studier (t.ex. hsCRP och CV risk)
Bo Hedblad
Biostatistik T10
POWER BERÄKNING –
några Web adresser
http://www.dssresearch.com/toolkit/default.asp
• PS Power and Sample Size Calculation
– Enkelt, lätt att använda
– Kan laddas ned gratis via
http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/
PowerSampleSize
• G*Power 3
– Mer avancerat, något svårare att använda
– Kan laddas ned gratis via
http:// www.psycho.uni-duesseldorf.de/abteilungen/gpower3
• Episheet
– Epidemiologiska dimensioneringsberäkningar
http:// www.epidemiolog.net/studymat/
Bo Hedblad
Biostatistik T10
ADRESS TILL KORT REDOVISNING AV
STATISTISKA METODER
•http://www.jerrydallal.com/LHSP/bmj.htm
Bo Hedblad
Biostatistik T10
OBSERVERAT SAMBAND
Kan det bero på
selektions eller mätningsbias?
NEJ
Kan det bero på
confounding?
NEJ
Kan det bero slumpen?
SANNOLIKT
NEJ
Kan det vara
kausalt?
Bo Hedblad
Biostatistik T10
En guideline för kausalitet
Tidsamband:
Kommer orsak före effekten?
Rimlighet:
Är observerade samband i linje
med annan kunskap?
Mekanismer, djurförsök
Konsistens:
Har liknande resultat visats
tidigare?
Styrka:
Vilken styrka finns mellan orsak
och verkan? Relativ risk
Dos-respons samband:
Ger ökad exponering en ökad
effekt?
Reversibilitet:
Ger minskad exponering en
minskad risk?
Studiedesign:
Är resultaten baserade på en
stark studiedesign?
Bevisbedömning:
Hur många olika typer av
Bo Hedblad
evidens leder till konklusionen?Biostatistik
T10
Värdering av samband
Nej
Statistiskt samband
Samband saknas
Ja
Bias
Påverkan på samband
Ja
Confounding
Orsakssamband
Konsistens
Styrka
Tidsamband
Rimlighet
Dos-respons samband
Bidra till orsaks
samband
Studiedesign
Kausalitet
I. Andersson. Studentlitteratur 2006
Reversibilitet
Bo Hedblad
Biostatistik T10
Värdering av samband
STUDIETYP
Styrkan att påvisa kausalitet
• Ekologisk studie
Mycket låg
• Tvärsnittsstudie
Låg
• Fall-kontroll studie
Måttlig
• Kohort studie
Stor
• RCT
• Samhällsintervention
I. Andersson. Studentlitteratur 2006
Stor – mycket stor
Låg – Måttlig
Bo Hedblad
Biostatistik T10