Grundläggande statistik

Grundläggande Biostatistik
Joacim Rocklöv, Lektor
Epidemiologi och global hälsa
Umeå Universitet
Formell
analys
Informell data
analys
Design and mätning
Problem
Formell
analys
Informell data
analys
Hur samlas
data in?
Design och mätning
Formell
analys
Informell data
analys
Hur samlas
data in?
Design och mätning
Mätskalor
reliabilitet
validitet
Formell
analys
Informell data
analys
Hur samlas
data in?
Design och mätning
Lär känna data,
tabeller, mått,
grafer
Mätskalor
reliabilitet
validitet
Hitta misstag
Hantera extremvärden
Bortfall
Hur samlas
data in?
Formell
analys
Informell data
analys
Design och mätning
Lär känna data,
tabeller, mått,
grafer
Mätskalor
reliabilitet
validitet
Konfidensintervall
P-värden
Hitta misstag
Hantera extremvärden
Bortfall
Hur samlas
data in?
Formell
analys
Informell data
analys
Design och mätning
Lär känna data,
tabeller, mått,
grafer
Mätskalor
reliabilitet
validitet
Modellbaserad analys
Regression
Logistisk regression
Överlevnadsanalys
Hitta misstag
Hantera extremvärden
Bortfall
Hur samlas
data in?
Konfidensintervall
P-värden (enkla tester)
Formell
analys
Informell data
analys
Design och mätning
Lär känna data,
tabeller, mått,
grafer
Mätskalor
reliabilitet
validitet
Problem – syfte
•  Skatta prevalenser och risker för insjuknande
av sjukdom
•  Jämföra utfall av behandling tex läkemedel/
rehabiliteringsmetoder
•  Kartlägga riskfaktorer, dvs faktorer som ökar
risken för sjukdom
•  Följa förlopp - tillväxtkurvor
Studiedesign
Experiment
Klinisk prövning
Observationsstudie
Tvärsnittsundersökning
Longitudinell
undersökning
Kohortstudie
Fall-kontroll
studie
Randomiserad kontrollerad studie
Behandling
Patienter
Utfall
Randomisering
Kontroll/
Placebo
Fler armar kan förekomma
Utfall
Kohort studie
Exponerade
Utfall
Ej
exponerade
Utfall
Population
Fall kontroll studie
Exponerade
Ej exponerade
Fall
Kontroller
Tvärsnitts-studie
Mätningar
Population
Urval
Hypotesprövning
Vid prövning av behandlingsmetod på två grupper:
H0: ingen skillnad mellan grupper
HA: skillnad mellan grupper När väljer vi nollhypotesen och när förkastar vi den till fördel för den alternativa hypotesen?
Typ I och II fel
H0: gruop1=gruop2
HA: gruop1≠gruop2
Null Hypothesis is
true (H0)
Alternative
Hypothesis is true
(HA)
Reject Null
Hypothesis
-  Negative
Right decision
Type 2 error (β)
Reject Null
Hypothesis
-  Positive
Type 1 error (α)
Right decision
Type 1 error is referred to as false positive
Type 2 error is referred to as false negative
Standard normal distribution
α = 0.1, P(Z>1.28)=0.1
Hypotesprövning
v α är sannolikheten för typ 1 fel:
α = P(Type 1 error) = P(reject H0 | H0 true)
v β är sannolikheten för typ 2 fel:
β = P(Type 2 error) = P(fail to reject H0| H1 true) =
1 – P(reject H0 | H1 true) = 1 - (power of the test)
v Power eller styrkan för testet = 1 - β
Begreppet power – studiens styrka
•  Sannolikheten att kunna påvisa en skillnad mellan
grupper (tex behandlingsgrupper) om den finns där
•  Utgör en komponent vid bestämning av studiens storlek
•  Andra komponenter är:
•  Den minsta skillnad vi vill kunna påvisa
•  Risk för ett falskt positivt fynd (alfa-fel)
•  Storleken av spridningen i utfallet
Mätning
Variabel
Kvantitativ
Diskret
Kontinuerlig
Kategorisk
Ordnad
Ej ordnad
Datanivå
Kvot
+++
Intervall
++Ordinal
+-Nominal
---
Ordning
Avstånd
Absolut nollpunkt
Variabel
Kategorier
Typ av
variabel
Datanivå
Kön
Man/Kvinna
Kat
Nominal
Binär
Blodgrupp
O, A, B, AB
Kat
Nominal
VIKT
Mätt i kg
Kvant
Kontinuerlig
Rökare
Nej, Ja
Kat
Nominal
Binär
Smärta
Obetydlig, Måttlig,
Svår, Outhärdlig
Kat
Ordinal
Vårddagar
Antal vårdagar
Kvant
Diskret
ID
Grupper av variabler
•  Utfallsvariabler – primära/sekundära
•  Behandlingsvariabler/riskfaktorer – variabler som
påverkar utfallet
•  Bakgrundsvariabler – demografiska variabler
•  Förväxlingsvariabler – confounders/inflytelserika
men ej intressanta variabler för frågeställningen
Presentation av data
Bild
Mått
Tabell
Val styrs av variabeltyp
Exempel: Kroppstemperatur
Vi har lärt oss att normal kroppstemperatur, när man är frisk, skall vara 37
grader C. Stämmer det? En studie av detta gjordes i USA för ca 20 år sedan.
Design:
Tvärsnittsstudie
Utfallsvariabel:
Kroppstemperatur (vid fix tid på dagen)
Andra variabler:
Kön, ålder, …
Lägesmått
n
Medelvärde
Median
∑x
i
x=
i =1
n
Mittersta värdet
36.8 gr C
36.8 gr C
Variationsmått
n
Standardavvikelse
Kvartilavstånd
(IQR)
Variationsvidd
(Range)
s=
2
(
x
−
x
)
∑ i
i =1
s = 4.13 år
n −1
q1 = 36.56, q3 = 37.06
IQR= 0.5 grC
max =38.22, min = 35.72 VV = 2.5
Grafisk beskrivning: Histogram
0
.
4
0
.
3
Y
0
.
2
0
.
1
0
.
0
3
2
1
0
1
2
3
4
X
Referens
Grafisk beskrivning: Boxplot
Tabellpresentation
Jämförelse mellan grupper
Analys Inferens Ska7ning av sant medelvärde Sant medelvärde Urvalsmetod Popula1on Urval Inferens 1: Konfidensintervall
•  Ska7ningar är osäkra på grund av a7 vi studerar en del av popula1onen. •  Ska7ningar kan ges med FELMARGINAL. •  Det kallas KONFIDENSINTERVALL. •  Konfidensintervallet anges med grad av osäkerhet som kallas konfidensnivå (95%, 99%, etc) Inferens 1: Konfidensintervall
intervall som inkluderar det sanna medelvärdet nästan säkert (95%). Kroppstemperatur Konfidensintervallet blir 36.73 – 36.88 De7a intervall inkluderar popula1onens medelvärde nästan säkert (med 95% konfidens) Inferens 2: Hypotesprövning
Skiljer sig män och kvinnor åt vad avser kroppstemperatur? Report temp_c sex Man Mean 36,7248 N Kvinna 36,8855 65 ,41305 Total 36,8051 130 ,40732 P-värde = 0.024 Slutsats: ?
Std. Deviation 65 ,38820 P-värde
•  Sannolikheten a7 få det uZall vi få7 (eller mer avvikande) under förutsä7ning a7 nollhypotesen stämmer •  motsvarar typ I fel Praxis för bedömning av p-värden
p > 0.05 ingen skillnad (ej signifikant) 0.05>p>0.01 skillnad (signifikant *) 0.01>p>0.001 skillnad (signifikant **) 0.001>p skillnad (signifikant ***) Tre grupper eller fler -ANOVA
Vid en hälsoundersökning mättes midjemåttet på
knappt 1600 individer. Tre åldersgrupper jämförs. Skiljer
Sig åldersgrupperna åt?
Descriptives Midjemått i cm N Mean Std.
Deviation 95% Confidence Interval for
Mean Std. Error Lower Bound Upper Bound Minimum Maximum -39 557 81,715 11,32893 ,48002 80,7727 82,6585 58,50 122,00 40-59 808 86,597 11,56607 ,40689 85,7988 87,3962 61,50 140,50 60+ 212 89,872 11,39584 ,78267 88,3298 91,4155 61,50 130,00 Total 1577 85,313 11,80601 ,29729 84,7304 85,8966 58,50 140,50 P<0.001
Parvisa test
En grupp barn har undersökts med avseende på styrka i
höger respektive vänster hand. Skiljer sig styrkan åt?
Paired Samples Statistics Pair 1 Mean Handstyrka höger 14,878 (kg) Handstyrka
vänster (kg) p<0.001
13,469 Std.
Std. Error
Deviation Mean N 67 4,2883 ,5239 67 3,9734 ,4854 Linjär regression
•  för att beskriva sambandet mellan kontinuerliga
utfalls variabler och kontinuerliga samt
kategoriska förklaringsvariabler
•  antar normalfördelning
•  kan inkludera flera förklaringsvariabler och
bakgrundsvariabler (crude/adjusted)
•  Vid studie av enbart två variabler liknar det och
kan jämföras med korrelationsanalys
•  Annars kan det ses som en utveckling av ANOVA
•  Beräknar linjära samband i skala av utfallet
Logistisk regression
•  för att beskriva sambandet mellan binära (ja/nej)
utfallsvariabler samt kontinuerliga eller
kategoriska förklaringsvariabler
•  kan inkludera flera förklaringsvariabler och
bakgrundsvariabler (crude/adjusted)
•  Vid studie av enbart en kategorisk
förklaringsvariabel kan det liknas vid korstabell/
kontigenstabell (chi-2)
•  Kan ses som en utveckling av korstabeller
•  Vanligt i tvärsnittsstudier
•  Beräknar Odds Ratio
Survival eller time to event analys
•  Utfallet är binärt (ja, nej) och förklaringsvariabler
kan vara katergoriska (Kaplan-Meier) och
kontinuerliga (Cox Proportional Hazards)
•  Inbegriper person-tid av exponering i olika
grupper
•  Vanligt i kohortstudier
•  Kan inkludera flera förklaringsvariabler (Cox PH)
•  Cox PH antar proportionella risker i grupper eller
över skalor
•  Beräknar Hazard Ratio/Incidence Rate Ratio/
Relative Risk (t.ex. mellan grupper)