SPSS baserad biostatistik Bo Hedblad Senior professor Kardiovaskulär epidemiologi IKVM, CRC SUS Malmö Bo Hedblad Biostatistik T10 Statistik (av stat, ställning) • Ursprungligen beskrivning av befolkning och politiska förhållanden • 1600-talet: studier av födslo- och dödstal • 1741 JP Süssmilch. “Die Göttliche Ordnung in den Veränderung des menschlichen Geschlechtes” Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Finns det något fel i denna studie? 73% av olyckorna bland ’hang gliders’ inträffar mellan kl. 11 och 15. Slutsats: Flygningar mellan dessa tidpunkter bör därför förbjudas. Bo Hedblad Biostatistik T10 Ett annat exempel. Något fel? I en studie rapporterades att 68% av olycksfallen på sjukhus inträffade bland patienter över 60 år. Slutsats: Patienter över 60 år har större olycksrisk och bör i större utsträckning få särskild tillsyn. Bo Hedblad Biostatistik T10 Methods of Reporting Statistical Results from Medical Research Studies Stephen D. Walter Department of Clinical Epidemiology and Biostatistics, McMaster University, Hamilton, Ontario, Canada. - One survey concluded ”that statistical knowledge of most doctors is so limited that they cannot be expected to draw the right conclusions from those statistical analyses which are found in papers in most medical journals” (14, p. 3). - By its nature, much of epidemiology, is inherently quantitative, and statistical issues are prominent. Walters SD. Am J Epidemiol 1995; 141: 896-906 Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Några epidemiologiska grundbegrepp Population En definierad grupp av individer Individer Oftast detsamma som personer, kan även vara familjer, kommuner, etc Totalundersökning Alla individer i populationen ingår Urvalsundersökning Endast en del (”stickprov”) av totalpopulationen ingår Bo Hedblad Biostatistik T10 Population och urval TOTAL URVAL - Patienter POPULATION ”stickprov” - Individer Deltagare Skillnader? Representativitet? - Selektionbias? Icke-deltagare Bo Hedblad Biostatistik T10 Population - Urval Representativitet • Hur ser bakgrundspopulationen ut? • Hur ser urvalet (”stickprovet”) ut? • Hur representativa är resultaten? Bo Hedblad Biostatistik T10 Malmö Diet and Cancer study Cardiovascular cohort examined Nov 1991- Feb 1994 n=5530 with n=6103 subjects n=3531 (57.9%) women lab measures n=2572 (42.1%) men Re-examined between May 2007- Jan 2012 Participation rate 75.8 % n = 6103 Participants attending re-examin n=3734 (61%) n=2212 women (59.2%) n=1522 men (40.8%) Nonparticipants due to *sickness *unwilling *emigration *lacking in register n=1333 (22%) Deceased before scheduled visit n=1036 (17%) n=485 women (46.8%) n=551 men (53.2%) n=834 women (62.6%) n=499 men (37.4%) Rosvall M, et al. Atherosclerosis 2015; 91: 012809. Epub 2015 Jan 12 Bo Hedblad Biostatistik T10 http://www.strobe-statement.org/fileadmin/Strobe/uploads/checklists/STROBE_checklist_v4_cohort.pdf Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Bo Hedblad SPSS-baserad biostatistik SPSS Statistical Package for Social Science Bo Hedblad Biostatistik T10 Variabler En variabel = en kolumn i ett datablad (Normalt en rad per deltagare) Variabler Deltagare = ”id” Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Olika skaltyper Nivå I n f o r m a t i o n s m ä n g d e n ö k a r Nominalskala =Klassificering.Jfr. nomenklatur, namn (ex. nummer på fotbollspelare, kön) Ordinalskala Kan rangordnas. Jfr. Ordning, eng. order (ex. betyg: 1-5) Intervallskala Skillnaderna mellan mätvärdena är lika (ex. temperatur i Celsius) Kvotskala Intervallskala med absolut nollpunkt. (ex. ålder, vikt, blodglukos) Obs! Intervall och kvotskala i SPSS: Scale Bo Hedblad Biostatistik T10 Vilken information (vilka variabler) har/vill Du samla(-t) eller analysera för varje individ? Kvalitativa variabler (Kategoriska) Kontinuerliga variabler Diskreta variabler Icke numeriska, innebär klassificering (t.ex. kön, civilstånd) K v a n t i t a t i v a Numeriska mätvärden, (t.ex. blodtryck, vikt) Kvantitativa variabler som bara kan visa vissa värden, (t.ex. antal barn, antal läkarbesök) Bo Hedblad Biostatistik T10 Sammanfattning: Olika skaltyper VARIABEL KVALITATIVA DATA KVANTITATIVA DATA (kategoriska) (numeriska) NOMINALDATA ORDINALDATA DISKRETA DATA KONTINUERLIGA DATA Utan inbördes ordning Med inbördes ordning Kan endast anta vissa värden Kan anta i princip vilka värden som helst Bo Hedblad Biostatistik T10 MÄTKVALITET Bo Hedblad Biostatistik T10 Variationskällor. Mätning av diastoliskt blodtryck DISTRIBUTION FÖRUTSÄTTNING VARIATIONSKÄLLA En patient. En observer. Upprepade observationer vid samma tillfälle på dygnet Mätning En patient. Många observer, vid samma tillfälle på dygnet En patient. En observer. Upprepade observationer, under dygnet Biologi + Mätning Många patienter DBP mmHg 60 70 80 90 100 110 120 Boe J, et al. Acta Med Scand 1957; 321 130 Bo Hedblad Biostatistik T10 Några grundbegrepp Precision Mått på reproducerbarhet Motsatsen till ’random errors’ (slumpvisa fel) Validitet Att man verkligen har undersökt det man ville undersöka och ingenting annat. Motsatsen till ’bias’ (systematiska fel) Bo Hedblad Biostatistik T10 Validitet och precision VALIDITET Hög A Frekvens (tillförlitlighet) PRECISION Hög (giltighet) C Låg B D Låg Mått Den blå linjen representerar de sanna värderna Bo Hedblad Biostatistik T10 PRECISION - reproducerbarhet Samma resultat vid upprepade tester? Påverkas av slumpmässiga fel (’random errors’) • Intra-observer variation - gör samma undersökare samma bedömning vid olika tillfällen? • Inter-observer variation - gör olika undersökare samma bedömning? Överenstämmelsen uttrycks som: - Coefficient of variation (CV (%): SD dividerat med X) - Agreement / Kappa-värden (stat test på agreement) Bo Hedblad Biostatistik T10 Biostatistik Beskrivande Statistik Grafisk presentation Exempel: Histogram Analytisk Statistik Spridningsmått Gruppjämförelse Sambandsanalyser Exempel: Exempel: Exempel: Medelvärde t-test, F-test Korrelationsanalys Standardavvikelse CHI-2 Regressionsanalys Bo Hedblad Biostatistik T10 Beskrivande statistik Många syften: • Sammanfatta resultat • Underlag för att bedöma – jämförbarhet hos de grupper som studeras – generaliserbarhet – ev. konsekvenser av bortfall • Överblick över datamaterialets sammansättning – upptäcka skevheter eller direkta felaktigheter Bo Hedblad Biostatistik T10 Hur beskriva data? • Tabeller 160 240 220 SBP 1969 mmHg • Diagram 576 344 345 74 140 354 80 200 1 512 153 283 525 549 328 343 688 380 279 329 120 4 180 100 160 80 140 60 120 40 100 20 80 0 N= 108 never smoked 159 256 142 smoker 1-14 grs/day ex-smoker 38 smoker >25 grs /day Std. Dev = 22,25 Mean = 138,7 N = 703,00 100,0 120,0 140,0 160,0 180,0 200,0 220,0 110,0 130,0 150,0 170,0 190,0 210,0 230,0 smoker 15-24 grs/day SBP 1969 mmHg SMOKING HABITS • Text Bo Hedblad Biostatistik T10 Hur beskriva kvalitativa eller diskreta variabler? • Antal (procent), n (%) • Antal (kumulativ procent) • Stolpdiagram • Trappstegskurva • Typvärde Bo Hedblad Biostatistik T10 TABELLER OCH DIAGRAM FÖR ATT BESKRIVA KVALITATIVA VARIABLER rökgrupper 1969 Percent 15, 4 22, 6 36, 4 20, 2 5, 4 100,0 Valid Percent 15, 4 22, 6 36, 4 20, 2 5, 4 100,0 Cumulat iv e Percent 15, 4 38, 0 74, 4 94, 6 100,0 • Antal (procent), n (%) • Antal (kumulativ procent) 300 256 200 • Stolpdiagram 159 142 100 Count Valid Frequency nev er smoked 108 ex-smoker 159 smoker 1-14 grs/ day 256 smoker 15-24 grs /day 142 smoker >25 grs / day 38 Tot al 703 108 38 0 never smoked smoker 1-14 grs/day ex-smoker smoker >25 grs /day smoker 15-24 grs/day SMOKING HABITS Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Hur beskriva kvantitativa variabler? • Histogram • Box plot • Medelvärde • Median Bo Hedblad Biostatistik T10 TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER Statisti cs SBP 1969 mm Hg N Histogram Valid Missing 160 703 0 138,7198 135,0000 22, 2520 ,777 ,092 ,592 ,184 95, 00 225,00 Mean Median Std. Dev iation Skewness Std. Error of Skewness Kurt osis Std. Error of Kurtos is Minim um Max im um 140 120 100 80 60 SBP 1969 mmHg 95, 00 100,00 105,00 110,00 115,00 120,00 125,00 130,00 135,00 140,00 145,00 150,00 155,00 160,00 165,00 170,00 175,00 180,00 185,00 190,00 195,00 200,00 205,00 215,00 220,00 225,00 Tot al Percent ,3 1, 4 2, 3 5, 3 6, 7 9, 4 10, 1 9, 5 8, 7 8, 1 7, 8 6, 5 5, 3 4, 1 3, 6 2, 3 2, 7 1, 6 1, 4 1, 1 ,3 ,6 ,4 ,1 ,3 ,1 100,0 Valid Percent ,3 1, 4 2, 3 5, 3 6, 7 9, 4 10, 1 9, 5 8, 7 8, 1 7, 8 6, 5 5, 3 4, 1 3, 6 2, 3 2, 7 1, 6 1, 4 1, 1 ,3 ,6 ,4 ,1 ,3 ,1 100,0 Cumulat iv e Percent ,3 1, 7 4, 0 9, 2 15, 9 25, 3 35, 4 45, 0 53, 6 61, 7 69, 6 76, 1 81, 4 85, 5 89, 0 91, 3 94, 0 95, 6 97, 0 98, 2 98, 4 99, 0 99, 4 99, 6 99, 9 100,0 40 Std. Dev = 22,25 20 Mean = 138,7 N = 703,00 0 100,0 120,0 140,0 160,0 180,0 200,0 220,0 110,0 130,0 150,0 170,0 190,0 210,0 230,0 SBP 1969 mmHg Outliers, extremvärden Boxplot 240 220 576 344 345 74 354 80 200 SBP 1969 mmHg Valid Frequency 2 10 16 37 47 66 71 67 61 57 55 46 37 29 25 16 19 11 10 8 2 4 3 1 2 1 703 1 512 283 153 525 549 328 343 688 380 279 329 4 180 160 140 120 100 80 N= 108 never smoked 159 256 142 smoker 1-14 grs/day ex-smoker 38 smoker >25 grs /day smoker 15-24 grs/day SMOKING HABITS Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER Boxplot Outliers = O * Extreme outliers (>3 ggr boxens höjd) 1.5 ggr boxens höjd 240 220 576 354 80 200 SBP 1969 mmHg Högsta värde 344 345 74 1 512 283 153 525 549 328 343 688 380 279 329 4 IQR (kvartilavstånd) = Q1 – Q3 180 160 Q3 = 75:e percentilen 140 Median Q1 = 25:e percentilen 120 100 80 N= 108 never smoked 159 256 142 smoker 1-14 grs/day ex-smoker 38 smoker >25 grs /day Lägsta värde (eller 1.5 ggr boxens höjd) smoker 15-24 grs/day SMOKING HABITS Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Centralmått Medelvärde (aritmiskt) Mätvärdena adderas och divideras med antalet mätvärden. Endast vid kvantitativa variabler. Median ’Mittenvärdet’. Det värde som gör att lika många värden är lägre och högre. Bra metod om det finns avvikare (s.k. ’out-liers’) med mycket höga eller låga värden. Typvärde Det mest vanligaste värdet i data. Kan användas i alla data (ordinaldata, diskreta och kontinuerliga data). Bo Hedblad Biostatistik T10 TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER Statisti cs SBP 1969 mm Hg N Histogram Valid Missing 160 703 0 138,7198 135,0000 22, 2520 ,777 ,092 ,592 ,184 95, 00 225,00 Mean Median Std. Dev iation Skewness Std. Error of Skewness Kurt osis Std. Error of Kurtos is Minim um Max im um 140 120 100 80 60 SBP 1969 mmHg 95, 00 100,00 105,00 110,00 115,00 120,00 125,00 130,00 135,00 140,00 145,00 150,00 155,00 160,00 165,00 170,00 175,00 180,00 185,00 190,00 195,00 200,00 205,00 215,00 220,00 225,00 Tot al Percent ,3 1, 4 2, 3 5, 3 6, 7 9, 4 10, 1 9, 5 8, 7 8, 1 7, 8 6, 5 5, 3 4, 1 3, 6 2, 3 2, 7 1, 6 1, 4 1, 1 ,3 ,6 ,4 ,1 ,3 ,1 100,0 Valid Percent ,3 1, 4 2, 3 5, 3 6, 7 9, 4 10, 1 9, 5 8, 7 8, 1 7, 8 6, 5 5, 3 4, 1 3, 6 2, 3 2, 7 1, 6 1, 4 1, 1 ,3 ,6 ,4 ,1 ,3 ,1 100,0 Cumulat iv e Percent ,3 1, 7 4, 0 9, 2 15, 9 25, 3 35, 4 45, 0 53, 6 61, 7 69, 6 76, 1 81, 4 85, 5 89, 0 91, 3 94, 0 95, 6 97, 0 98, 2 98, 4 99, 0 99, 4 99, 6 99, 9 100,0 40 Std. Dev = 22,25 20 Mean = 138,7 N = 703,00 0 100,0 120,0 140,0 160,0 180,0 200,0 220,0 110,0 130,0 150,0 170,0 190,0 210,0 230,0 SBP 1969 mmHg Typvärde Boxplot 240 220 576 344 345 74 354 80 200 SBP 1969 mmHg Valid Frequency 2 10 16 37 47 66 71 67 61 57 55 46 37 29 25 16 19 11 10 8 2 4 3 1 2 1 703 1 512 283 153 525 549 328 343 688 380 279 329 4 180 160 140 120 100 80 N= 108 never smoked 159 256 142 smoker 1-14 grs/day ex-smoker 38 smoker >25 grs /day smoker 15-24 grs/day SMOKING HABITS Bo Hedblad Biostatistik T10 Spridningsmått Kvartil-(percentil) värden Delar ett material i 4 (100) lika delar. Interkvartilavstånd Skillnaden mellan 1a (25%) och 3e (75%) kvartilgränsen Range (variationsvidd) Avståndet mellan högsta (max) och lägsta (min) värde. Standardavvikelse (SD). SD=√variansen Bo Hedblad Biostatistik T10 TABELLER, DIAGRAM FÖR ATT BESKRIVA KVANTITATIVA VARIABLER Statistics SBP 1969 mmHg 95,00 100,00 105,00 110,00 115,00 120,00 125,00 130,00 135,00 140,00 145,00 150,00 155,00 160,00 165,00 170,00 175,00 180,00 185,00 190,00 195,00 200,00 205,00 215,00 220,00 225,00 Total Percent Valid Percent ,3 ,3 1,4 1,4 2,3 2,3 5,3 5,3 6,7 6,7 9,4 9,4 10,1 10,1 9,5 9,5 8,7 8,7 8,1 8,1 7,8 7,8 6,5 6,5 5,3 5,3 4,1 4,1 3,6 3,6 2,3 2,3 2,7 2,7 1,6 1,6 1,4 1,4 1,1 1,1 ,3 ,3 ,6 ,6 ,4 ,4 ,1 ,1 ,3 ,3 ,1 ,1 100,0 100,0 95% CI SBP 1969 mmHg Valid Frequency 2 10 16 37 47 66 71 67 61 57 55 46 37 29 25 16 19 11 10 8 2 4 3 1 2 1 703 Cumulative Percent ,3 1,7 4,0 9,2 15,9 25,3 35,4 45,0 53,6 61,7 69,6 76,1 81,4 85,5 89,0 91,3 94,0 95,6 97,0 98,2 98,4 99,0 99,4 99,6 99,9 100,0 SBP 1969 mmHg N Valid Miss ing 703 0 138,72 ,84 135,00 22, 25 495,15 130 95 225 120,00 135,00 150,00 Mean Std. Error of Mean Median Std. Dev iat ion Variance Range Minimum Max imum Perc entiles 25 50 75 SE = SD/√n Error bar 160 95% konfidensintervallet (CI) 150 140 130 120 N = 108 never smoked 159 256 142 smoker 1-14 grs/day ex-smoker 38 smoker >25 grs /day smoker 15-24 grs/day rökgrupper 1969 Bo Hedblad Biostatistik T10 Normalfördelning (Gauss distribution) eller ej Bo Hedblad Biostatistik T10 Normalfördelning eller ej -2SD Medel -1SD +2SD +1SD Vid normalfördelning: 66% av observationerna inom x±1SD 95% av observationerna inom x±2SD 99% av observationerna inom x±3SD 95% av individerna Bo Hedblad Biostatistik T10 120 Symmetrisk fördelning 100 Statisti cs BMI 1969 kg/m2 N 80 60 Normalfördelningskurva 40 20 Std. Dev = 3,10 Valid Missing Mean Median Std. Dev iation Skewness Std. Error of Skewness Kurt osis Std. Error of Kurtos is 696 7 24, 5240 24, 5980 3, 0971 ,324 ,093 1, 012 ,185 Mean = 24,5 N = 696,00 0 ,0 40 ,0 38 ,0 36 ,0 34 ,0 32 ,0 30 ,0 28 ,0 26 ,0 24 ,0 22 ,0 20 ,0 18 ,0 16 BMI 1969 kg/m2 Positiv sned fördelning 400 Statisti cs trigly c 1969 mmol/ l N 300 200 Normalfördelningskurva 100 Std. Dev = ,83 Mean = 1,2 N = 691,00 0 Mean Median Std. Dev iation Skewness Std. Error of Skewness Kurt osis Std. Error of Kurtos is Valid Missing 691 12 1, 2233 1, 0169 ,8251 5, 512 ,093 52, 211 ,186 ,0 11 ,0 10 0 9, 0 8, 0 7, 0 6, 0 5, 0 4, 0 3, 0 2, 0 1, 0 0, triglyc 1969 mmol/l Bo Hedblad Biostatistik T10 Val av genomsnitts- och spridningsmått hör ihop • Är data symmetriskt fördelade: välj medelvärde och standardavvikelse • Är data snedfördelade: välj median och interkvartiler (IQ) alternativt percentiler • Om små grupper: överväg spridningsmått som min och max. Bo Hedblad Biostatistik T10 Standard deviation (SD) SD = √variansen SD = mått på genomsnittlig avvikelse från medelvärdet Mått på osäkerheten: anges som konfidensintervall Standard error (SE, medelfel) SE = SD/√n SE = mått på osäkerheten i uppskattat medelvärdet för gruppen dvs beskriver medelfelet vid urvalet (stickprovet) Bo Hedblad Biostatistik T10 Konfidensintervall (CI el KI) • Anger osäkerheten i en punktskattning, ett nmedelvärde, skillnaden mellan två medelvärden, en andel, eller skillnaden mellan två andelar • Beräknas utifrån formeln: punktskattningen (x) ± konstant (C) · medelfelet (SE) • Konstanten vid olika konfidensgrader: Konfidensgrad 90% ⇒ c=1,64 Konfidensgrad 95% ⇒ c=1,96 Konfidensgrad 99% ⇒ c=2,58 • CI av ett medelvärde (x): • CI av en andel (q): Bo Hedblad Biostatistik T10 Skilj på standardavvikelse (SD) och Standard Error (SE)! SD och SE uttrycker olika saker Rökare Icke rökare Individer Report Grupper BMI 1969 kg/m2 CURRENT SMOKER 1969 NO YES Total Mean 25,1272 24,1553 24,5240 N 264 432 696 Std. Dev iation 2,88004 3,16966 3,09709 Std. Error of Mean ,17725 ,15250 ,11739 Median 25,1226 24,1997 24,5980 Minimum 15,92 15,70 15,70 Max imum 35,01 39,97 39,97 Variance 8,295 10,047 9,592 Bo Hedblad Biostatistik T10 Bakgrund: Den akuta effekten av rökning innebär bl.a. ökad puls och ökat blodtryck. HYPOTES Har rökare högre blodtryck än icke rökare? Bo Hedblad Biostatistik T10 60 50 40 ICKE RÖKARE 30 20 10 Std. Dev = 22,91 Mean = 144,8 N = 267,00 0 Histogram 100,0 120,0 140,0 160,0 180,0 200,0 220,0 110,0 130,0 150,0 170,0 190,0 210,0 230,0 Visar distributionen, medelvärdet och SD SBP 1969 mmHg 120 100 80 RÖKARE 60 40 20 Std. Dev = 21,01 Mean = 135,0 N = 436,00 0 100,0 120,0 140,0 160,0 180,0 200,0 220,0 110,0 130,0 150,0 170,0 190,0 210,0 230,0 SBP 1969 mmHg Bo Hedblad Biostatistik T10 Testa hypoteser Fråga: Har rökare högre systoliskt blodtryck än icke-rökare? Två hypoteser kan formuleras: Noll-hypotesen Det finns ingen skillnad i blodtryck mellan rökare och icke-rökare (=H0) Alternativhypotesen Det finns en skillnad (=HA). Ett p-värde räknas fram med ett statistiskt test t.ex. Students t-test. Bo Hedblad Biostatistik T10 Hypotestestning Hur stor är sannolikheten att denna skillnad uppkommer av slumpen? Eller: Om man tar 2 stickprov från samma population, hur ofta får man då en sådan skillnad? P-värdet beskriver hur stor sannolikheten är att denna skillnad uppkommit av slumpen Bo Hedblad Biostatistik T10 Slumpfynd? P-värde Variabel Rökare Icke-rökare SBP (mmHg) 135 145 DBP (mmHg) 81 88 Total (n) 436 267 703 Bo Hedblad Biostatistik T10 Population och stickprov POPULATION Deltagare ”Stickprov” Ex. Blodtrycket Medelvärdet i populationen = µ SD i populationen = δ Medelvärdet i stickprovet = (x) Precisionen (SD) i stickprovet = (s) Icke-deltagare Bo Hedblad Biostatistik T10 Population och stickprov Statistisk inferens, statistisk dataanalys och statistisk slutledning: Via att bestämma stickprovets (x) och (s) kan vi förutsäga sannolikheten för överenstämmelse med medelvärdet resp standardavvikelse (δ) i populationen (µ) µ skattas med hjälp av x inferens µ okänt Stickprovets x beräknas Bo Hedblad Biostatistik T10 Alternativhypotes (HA) Urval Urval Rökare Ej rökare SBP (mmHg) 135 145 DBP (mmHg) 81 88 Total (n) 436 267 Variabel HA: Pop Rök Pop Ej rök 703 SBP Bo Hedblad Biostatistik T10 H0: Pop rök Pop Ej rök Noll hypotes (H0) Urval Urval Rökare Ej rökare SBP (mmHg) 135 145 DBP (mmHg) 81 88 Total (n) 436 267 SBP Variabel HA: Pop rök Pop Ej rök 703 SBP Bo Hedblad Biostatistik T10 H0: Pop rök Pop Ej rök Noll hypotes (H0) Urval Urval Rökare Ej rökare 135 145 SBP Variabel HA: Pop rök Pop Ej rök SBP (mmHg) Blodtrycksnivån är lika, DBP (mmHg) 81 88 dvs det finns ingen skillnad (n) 436 267 703 H0 sägerTotal att slumpen orsakat den observerade SBP skillnaden, våra stickprov kommer från två olika populationer Bo Hedblad Biostatistik T10 Variabler Kvantitativa Kvalitativa Normalfördelade Snedfördelade Icke parametriska test mätdata mätdata Exempel: CHI-2 Parametriska test Exempel: t-test, F-test, Anova Linjär regression Icke parametriska test Exempel: Rangkorrelation Bo Hedblad Biostatistik T10 Parametriska och ickeparametriska test Parametriska test Icke-parametriska test • Bygger på antaganden hur data fördelar sig • Kan användas oberoende hur data fördelar sig • Baseras på observationernas faktiska värde • Baseras på observationernas ranger • Skattar en effekt för vilken man kan beräkna p-värde och CI (konfidensintervall) • Beräknar endast p-värde Bo Hedblad Biostatistik T10 Hypotesprövning: Gruppjämförselser Två grupper av observationer Tre eller fler grupper av observationer Skalnivå Oberoende Beroende Oberoende Beroende Kvalitativ (kategorisk) CHI-2, Fisher’s exact test McNemar CHI-2 Cochran Q Kvantitativ, ej normalfördelad Mann-Whitney Wilcoxon’s Signed Kruskal-Wallis Friedman’s Test Kvantitativ, Normalfördelad Student’s t-Test Paired t-Test ANOVA (ensidig indelning) ANOVA / Repeated Measures (tvåsidig) Bo Hedblad Biostatistik T10 Students t-test Testet kan användas då: • man jämför en kvantitativ variabel (dvs medelvärden) mellan 2 grupper • den kvantitativa variabeln bör vara normalfördelad Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Students t-test Group Statistics SBP 1969 mmHg CURRENT SMOKER 1969 NO YES N Mean 144,8315 134,9771 267 436 Std. Dev iation 22, 9061 21, 0063 Std. Error Mean 1, 4018 1, 0060 Independent Samples Test Lev ene's Test for Equality of Variances F SBP 1969 mmHg Equal variances assumed Equal variances not assumed 1,505 Sig. ,220 t-test f or Equality of Means t Mean Sig. (2-tailed) Dif f erence df Std. Error Dif f erence 95% Conf idence Interv al of the Dif f erence Lower Upper 5,831 701 ,000 9,8544 1,6899 6,5364 13,1724 5,711 525,337 ,000 9,8544 1,7255 6,4648 13,2440 Skilj på dessa p-värden!!! Bo Hedblad Biostatistik T10 Students t-test Ange skillnader mellan grupperna som: • Medeldifferens (95% CI) Obs: • Skilj på p-värdet mellan ”Levene’s Test for Equality of variances” och ”T-test for Equality of means” • Levene’s test anger statistiskt om det genomsnittliga avvikelsen (SD) från medelvärdet skiljer sig mellan grupperna. Bo Hedblad Biostatistik T10 H0: Pop rök P-värde Pop ej rök Urval HA: Pop rök Pop ej rök Urval Variabel Rökare Ej rökare SBP (mmHg) 135±21 145±22 DBP (mmHg) 81±14 88±14 436 267 Totalt (n) T- test 703 T = 5.8 , p < 0.001 Bo Hedblad Biostatistik T10 H0: Pop rök P-värde Pop ej rök Sannolikheten att de två stickproven kommer från två Urval Urval populationer med lika systoliskt blodtryck är < 1% Karakt HA: Pop rök Pop ej rök Rökare Ej rökare SBP (mmHg) 135±21 145±22 DBP (mmHg) 81±14 88±14 = αlfa-fel T- test Om p>0.05 och konklusionen är att skillnaden man Totalt (n) 436 267 703 observerat är slumpmässigt betingad finns möjlighten till beta-fel. T = 18.1 , p < 0.001 Risk för beta-fel kan beräknas via power-kalkylering Bo Hedblad Biostatistik T10 P-värde • P: probability, sannolikhet. Kan variera från ~0 till 1. • Beskriver hur stor sannolikheten är att resultatet beror på slumpen. • Om p<0.05 är resultatet ’signifikant’, dvs sannolikheten att resultatet beror på slumpen är <5%. • Noll-hypotesen kan då förkastas och vi anser att skillnaden inte kan förklaras av slumpen. Exempel på signifikanta p-värden: p<0.05, p=0.49, p=0.00001 Exempel på icke signifikanta p-värden: p>0.05; p=0.685;p=0.051 Bo Hedblad Biostatistik T10 Alfa och beta fel i en studie Results of the Study Reality Exposure shows An Effect Exposure shows No Effect Exposure shows An effect Correct Type I error (α) “False positive” Exposure shows NO effect Type II error (β) 1 – β (Power) “False negative” Correct Bo Hedblad Biostatistik T10 p = 0.049 ”VIVE LA DIFFERENCE”! p = 0.051 Bo Hedblad Biostatistik T10 P-värde: sammanfattning Om p < 0.05 • Vi förkastar nollhypotesen – alternativhypotesen gäller • Vi antar att det finns en faktisk skillnad Om p ≥ 0.05 • Vi kan inte förkasta nollhypotesen • Vi har inte kunnat påvisa några samband, skillnader, effekter eller olika fördelningar Bo Hedblad Biostatistik T10 Hypotesprövning för kvalitativa variabler Fråga: Skiljer sig högt blodtryck mellan rökare och ickerökare? •Hur stor är sannolikheten att denna skillnad beror på slumpen? Eller: •Hur ofta uppkommer en sådan skillnad om stickproven kommer från samma population? Bo Hedblad Biostatistik T10 Variabler Kvantitativa Kvalitativa Normalfördelade Snedfördelade Icke parametriska test mätdata mätdata Exempel: CHI-2 Parametriska test Exempel: t-test, F-test, Anova Linjär regression Icke parametriska test Exempel: Rangkorrelation Bo Hedblad Biostatistik T10 Hypotesprövning: Gruppjämförselser Två grupper av observationer Tre eller fler grupper av observationer Skalnivå Oberoende Beroende Oberoende Beroende Kvalitativ (kategorisk) CHI-2, Fisher’s exact test McNemar CHI-2 Cochran Q Kvantitativ, ej normalfördelad Mann-Whitney Wilcoxon’s Signed Kruskal-Wallis Friedman’s Test Kvantitativ, Normalfördelad Student t-Test Student t-Test ANOVA (ensidig indelning) ANOVA / Repeated Measures (tvåsidig) Bo Hedblad Biostatistik T10 Chi2-testet (= Pearsons’ chi-square) När man jämför kvalitativa variabler (dvs proportioner) i två eller fler grupper. Bo Hedblad Biostatistik T10 Chi2-testet HYP 1969 Q/HYPMED/BT>160/95 * CURRENT SMOKER 1969 Crosstabulation HYP 1969 Q/H YPMED/BT>160/95 no Count % within C URRENT SMOKER 1969 Count % within C URRENT SMOKER 1969 Count % within C URRENT SMOKER 1969 y es Total CURRENT SMOKER 1969 NO YES 157 331 Total 488 58,8% 75,9% 69,4% 110 105 215 41,2% 24,1% 30,6% 267 436 703 100,0% 100,0% 100,0% Ch i-Sq ua re Tes ts Pears on C hi-Square a Con tinuity C orre ction Like lih ood Ratio F isher's Exact Tes t Line ar-b y -Linear Assoc ia tion N o f Va lid Cas es Value 22, 851b 22, 051 22, 516 22, 818 1 1 1 Asy mp. Sig. (2 -sided ) ,0 00 ,0 00 ,0 00 1 ,0 00 df Exact Sig. (2 -sided ) Exact Sig. (1 -sided ) ,0 00 ,0 00 703 a. Com put ed o nly f or a 2x2 tab le b. 0 cells (,0%) h av e ex pecte d co unt less than 5. The min im um ex pect ed co unt is 81, 66. Bo Hedblad Biostatistik T10 Chi2-testet HYP 1969 Q/HYPMED/BT>160/95 * rökgrupper 1969 Crosstabulation HYP 1969 no Q/HYPMED/BT>160/95 y es Total nev er smoked ex-smoker Count 61 96 % wit hin rökgrupper 1969 56,5% 60,4% Count 47 63 % wit hin rökgrupper 1969 43,5% 39,6% Count 108 159 % wit hin rökgrupper 1969 100,0% 100,0% rökgrupper 1969 smoker 1-14 smoker 15-24 smoker >25 grs/day grs/day grs /day 195 109 27 76,2% 76,8% 71,1% 61 33 11 23,8% 23,2% 28,9% 256 142 38 100,0% 100,0% 100,0% Total 488 69,4% 215 30,6% 703 100,0% Ch i-Sq uare Tests Pears on Chi-Square Likelihood R atio Linear-by -Linear Assoc iation N of Valid Cases Value 23, 789a 23, 454 16, 128 4 4 Asy mp. Sig. (2-sided) ,000 ,000 1 ,000 df 703 a. 0 cells (,0%) hav e expected count less than 5. The m inimum ex pect ed c ount is 11,62. Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 PAUS Bo Hedblad Biostatistik T10 Hypotestestning • Den akuta effekten av rökning innebär bl.a. ökad puls och ökat blodtryck. • Emellertid har rökare lägre blodtryck än icke-rökare i de flesta befolkningsstudier. Frågor: • Hur ser sambandet kroppsvikt (BMI i tre klasser: normalviktiga/överviktiga/obesa) och blodtryck ut? • Har rökare lägre blodtryck pga lägre kroppsvikt? Bo Hedblad Biostatistik T10 Hypotesprövning: Gruppjämförselser Två grupper av observationer Tre eller fler grupper av observationer Skalnivå Oberoende Beroende Oberoende Beroende Kvalitativ (kategorisk) CHI-2, Fisher’s exact test McNemar CHI-2 Cochran Q Kvantitativ, Mann-Whitney Wilcoxon’s Signed Kruskal-Wallis Friedman’s Test Student t-Test Paired t-Test ANOVA (ensidig indelning) ANOVA / Repeated Measures (tvåsidig) Ej normalfördelad Kvantitativ, Normalfördelad Bo Hedblad Biostatistik T10 Hur ser sambandet ut mellan kroppsvikt och rökning? Analys av 2 kategoriska variabler: här passar Chi-2 testet BMI GROUPS 1969 * C URRENT SMOKER 1969 Crosstabulati on BMI GROUPS 1969 Tot al NORMAL(BMI <25) Count % wit hin C URRENT SMOKER 1969 OVER WEI GHT(BMI 25-29) Count % wit hin C URRENT SMOKER 1969 OBESE(BMI>=30) Count % wit hin C URRENT SMOKER 1969 Count % wit hin C URRENT SMOKER 1969 CURRENT SMOKER 1969 NO Y ES 127 265 Tot al 392 48, 1% 61, 3% 56, 3% 124 151 275 47, 0% 35, 0% 39, 5% 13 16 29 4, 9% 3, 7% 4, 2% 264 432 696 100,0% 100,0% 100,0% Ch i-Sq ua re Tes ts Pears on Ch i-Square Like lih ood R atio Line ar-b y -Linear Assoc ia tion N o f Va lid Case s Value 11, 671a 11, 650 10, 274 2 2 Asy mp. Sig . (2 -sided ) ,0 03 ,0 03 1 ,0 01 df 696 a. 0 cells (,0%) h av e exp ecte d co unt less than 5. The m in imum ex pect ed c ount is 11 ,00. Bo Hedblad Biostatistik T10 Hypotesprövning för icke normalfördelade kvantitativa variabler Frågeställning: • Är triglyceridnivån högre hos obesa än överviktiga och normalviktiga? Hur ser variabeln triglycerider ut? • Kontinuerliga eller kategoriska data? • Om kontinuerliga data, normalfördelade eller ej? Bo Hedblad Biostatistik T10 Testa normalfördelning: tex via histogram, kurtosis (’toppighet’), skewness (’skevhet’) 400 Statisti cs Positiv snedfördelning 300 trigly c 1969 mmol/ l N 200 100 Std. Dev = ,83 Mean = 1,2 Valid Missing Mean Median Std. Dev iation Skewness Std. Error of Skewness Kurt osis Std. Error of Kurtos is 691 12 1, 2233 1, 0169 ,8251 5, 512 ,093 52, 211 ,186 N = 691,00 0 ,0 11 ,0 10 0 9, 0 8, 0 7, 0 6, 0 5, 0 4, 0 3, 0 2, 0 1, 0 0, triglyc 1969 mmol/l A Variansanalys Logaritmera Tg 2 oberoende stickprov t.ex. Mann-Whitney B Icke parametriska test k oberoende stickprov t.ex. Kruskal-Wallis Bo Hedblad Biostatistik T10 Logaritmera Tg 200 Statisti cs 100 Std. Dev = ,48 Mean = ,07 N = 691,00 0 -1,50 -1,00 -,50 0,00 ,50 1,00 1,50 2,00 2,50 -1,25 -,75 -,25 ,25 ,75 1,25 1,75 2,25 LOG TRIGLY CERIDES 1969 N Valid Missing Mean Std. Error of Mean Median Std. Dev iation Skewness Std. Error of Skewness Kurt osis Std. Error of Kurtos is Minimum Max imum 691 12 7, 264E-02 1, 818E-02 1, 681E-02 ,4779 ,556 ,093 1, 722 ,186 -1,44 2, 46 LOG TRIGLYCERIDES 1969 ANOVA - Univariat Analys av Variansen Descriptive Statistics Between-Subj ects Factors BMI GROUPS 1969 1 2 3 Value Label NORMAL(B MI<25) OVERWEI G HT(BMI25-2 9) OBESE(BMI >=30) N Dependent Variable: LOG TRIGLYCERIDES 1969 386 274 28 BMI GROUPS 1969 Mean NORMAL(BMI<25) -4,51E-02 OVER WEI GHT(BMI 25-29) ,1980 OBESE(BMI>=30) ,4775 Tot al 7, 301E-02 Std. Dev iation ,4395 ,4647 ,5596 ,4765 N 386 274 28 688 Bo Hedblad Biostatistik T10 Hur ser sambandet ut mellan triglycerider och kroppsvikt? Analys av en kvantitativ logaritmerad normalfördelad variabel i olika grupper (kategorisk variabel): här passar ANOVAects (’variansanalys’) metoden Tests of Between-Subj Effects Dependent Variable: LOG TRIGLY CER IDES 1969 Sourc e Correct ed Model Interc ept BMI69_3 Error Tot al Correct ed Total Ty pe III Sum of Squares 14, 247a 9, 475 14, 247 141,769 159,683 156,016 df 2 1 2 685 688 687 Mean Square 7, 124 9, 475 7, 124 ,207 F 34, 420 45, 781 34, 420 Sig. ,000 ,000 ,000 a. R Squared = , 091 (Adjust ed R Squared = ,089) Contrast Results (K Matri x) BMI GROUPS 1969 a Simple Cont rast Lev el 2 v s. Lev el 1 Contras t Est im at e Hy pot hesized Value Dif f erence (Es timate - Hy pot hesized) Std. Error Sig. 95% Conf idence Interv al f or Dif f erence Lev el 3 v s. Lev el 1 Lower Bound Upper Bound Contras t Est im at e Hy pot hesized Value Dif f erence (Es timate - Hy pot hesized) Std. Error Sig. 95% Conf idence Interv al f or Dif f erence a. Ref erence cat egory = 1 Lower Bound Upper Bound Dependent Variable LOG TRI GLY CERI DES 1969 ,243 0 ,243 ,036 ,000 ,173 ,314 ,523 0 ,523 ,089 ,000 ,348 ,697 Test Results Dependent Variable: LOG TRIGLY CERIDES 1969 Sourc e Contras t Error Sum of Squares 14,247 141,769 df 2 685 Mean Square 7,124 ,207 F 34,420 Sig. ,000 BMI GROUPS 1969 Dependent Variable: LOG TRIGLYCERIDES 1969 BMI GROUPS 1969 Mean NORMAL(BMI<25) -4,51E-02 OVERWEIGHT(BMI25-29) ,198 OBESE(BMI>=30) ,478 Std. Error ,023 ,027 ,086 95% Conf idence Interval Lower Bound Upper Bound -9,055E-02 3,812E-04 ,144 ,252 ,309 ,646 Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Hypotesprövning för icke normalfördelade kvantitativa variabler Frågeställning: • Är triglyceridnivån högre hos obesa än överviktiga och normalviktiga? Hur ser variabeln triglycerider ut? • Kontinuerliga data • Ej normalfördelade Bo Hedblad Biostatistik T10 Hypotesprövning: Gruppjämförselser Två grupper av observationer Tre eller fler grupper av observationer Skalnivå Oberoende Beroende Oberoende Beroende Kvalitativ (kategorisk) CHI-2, Fisher’s exact test McNemar CHI-2 Cochran Q Kvantitativ, ej normalfördelad Mann-Whitney Wilcoxon’s Signed Kruskal-Wallis Friedman’s Test Kvantitativ, Normalfördelad Student t-Test Paired t-Test ANOVA (ensidig indelning) ANOVA / Repeated Measures (tvåsidig) Bo Hedblad Biostatistik T10 Icke parametriska test Kruskal-Wallis Test Test Statisticsa,b Ranks BMI GROUPS 1969 trigly c 1969 mmol/ l NORMAL(BMI <25) OVER WEI GHT(BMI 25-29) OBESE(BMI>=30) Tot al N 386 274 28 688 Mean Rank 293,86 398,98 509,48 trigly c 1969 m mol/ l Chi-Square 64, 940 df 2 Asy mp. Sig. ,000 a. Krus kal Wallis Test b. Grouping Variable: BMI GROUPS 1969 Mann-Whitney Test Test Statisticsa Ranks BMI GROUPS 1969 trigly c 1969 mmol/ l NORMAL(BMI <25) OBESE(BMI>=30) Tot al N 386 28 414 Mean Rank 199,30 320,52 Sum of Ranks 76930,50 8974,50 trigly c 1969 mmol/ l Mann-Whit ney U 2239,500 Wilcox on W 76930, 500 Z -5,176 Asy mp. Sig. (2-tailed) ,000 a. Grouping Variable: BMI GROUPS 1969 Test Statisticsa Ranks BMI GROUPS 1969 trigly c 1969 mmol/l OVER WEIGHT(BMI25-29) OBESE(BMI>=30) Total N 274 28 302 Mean Rank 146,19 203,46 Sum of Ranks 40056,00 5697,00 trigly c 1969 mmol/ l Mann-Whit ney U 2381,000 Wilcox on W 40056, 000 Z -3,306 Asy mp. Sig. (2-tailed) ,001 a. Grouping Variable: BMI GROUPS 1969 Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Bakgrund: • Den akuta effekten av rökning innebär bl.a. ökad puls och ökat blodtryck • Emellertid har rökare lägre blodtryck än icke-rökare i de flesta studier • Kan bero på att rökare har lägre kroppsvikt Frågeställning: • Är blodtrycket relaterat till kroppsvikt? Fundera alltid på: • Vilken typ av variabler ingår i analysen? • Vilken statistiskt test är lämplig? • Hur presentera data? Bo Hedblad Biostatistik T10 Frågeställning: • Är blodtrycket relaterat till kroppsvikt? • Vilken typ av variabler? Kontinuerliga, kategoriska • Hur presentera data? Figur, tabell • Vilken test? Korrelation, ANOVA, Chi-square Bo Hedblad Biostatistik T10 Hur ser sambandet ut mellan blodtryck och kroppsvikt? Analys av en kvantitativ normalfördelad variabel i olika grupper (kategorisk variabel): här passar ANOVA (’variansanalys’) metoden Descriptives SBP 1969 mmHg N NORMAL(BMI<25) OVERWEIGHT(BMI25-29) OBESE(BMI>=30) Total 392 275 29 696 Mean Std. Dev iation Std. Error 134,8724 21,0160 1,0615 142,6909 22,0822 1,3316 152,5862 26,0707 4,8412 138,6997 22,1521 ,8397 95% Conf idence Interval for Mean Lower Bound Upper Bound 132,7856 136,9593 140,0694 145,3124 142,6695 162,5030 137,0511 140,3483 Minimum 95,00 95,00 110,00 95,00 Maximum 225,00 220,00 215,00 225,00 ANOVA SBP 1969 mmHg Between Groups Within Groups Tot al Sum of Squares 15714,856 325333, 4 341048, 2 df 2 693 695 Mean Square 7857,428 469,457 F 16, 737 Sig. ,000 Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Frågeställning: • Är blodtrycket relaterat till kroppsvikt? • Vilken typ av variabler? Kontinuerliga, kategoriska • Hur presentera data? Figur, tabell • Vilken test? Korrelation, ANOVA, Chi-square Bo Hedblad Biostatistik T10 Correlations Föutsättning: Normalfördelade variabler! Co rrelati on s SBP 1969 mm Hg BMI 1969 kg/m 2 Pears on C orrelation Sig. (2-t ailed) N Pears on C orrelation Sig. (2-t ailed) N SBP 1969 BMI 1969 m mHg kg/ m2 1, 000 ,259* * , ,000 703 696 ,259* * 1, 000 ,000 , 696 696 **. Correlat ion is signif icant at t he 0.01 lev el (2-tailed). Nonparametric correlations Vid snedfördelade variabler! Correlati ons Spearman's rho SBP 1969 mmHg BMI 1969 kg/m2 SBP 1969 BMI 1969 mmHg kg/ m2 Correlat ion Coef f ic ient 1, 000 ,254** Sig. (2-t ailed) , ,000 N 703 696 Correlat ion Coef f ic ient ,254** 1, 000 Sig. (2-t ailed) ,000 , N 696 696 **. Correlat ion is signif icant at the . 01 lev el (2-t ailed). Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Hypotesprövning av 2 kvantitativa variabler Korrelationskoefficient (Pearsons’ correlation). Beskriver hur väl en scatterplot ansluter till en rät linje. Kan variera från –1 till +1. Fråga: Har blodtrycket ett samband med kroppsvikten? 240 220 200 180 160 140 120 100 80 10 20 30 40 50 body mass index Scatterplot (spridningsdiagram) för systoliskt blodtryck och BMI. Korrelationskoefficienten r=0.26 (r2=0.07), n=696 (7 missing), p=0.0000000000026 (p<0.001) Bo Hedblad Biostatistik T10 Hypotesprövning av 2 kvantitativa variabler: Fråga: Har triglyceridnivån ett samband med kroppsvikten? 12 10 8 6 4 2 0 10 20 30 40 50 BMI 1969 kg/m2 Scatterplot (spridningsdiagram) för triglycerider och BMI. r = 0.23, r2 = 0.05, p<0.001, n= 688 KORREKT???? Bo Hedblad Biostatistik T10 Statisti cs N Valid Missing Mean Median Std. Dev iation Skewnes s Std. Error of Skewness Kurt osis Std. Error of Kurtos is BMI 1969 kg/ m2 696 7 24, 5240 24, 5980 3, 0971 ,324 ,093 1, 012 ,185 trigly c 1969 m mol/ l 691 12 1, 2233 1, 0169 ,8251 5, 512 ,093 52, 211 ,186 Co r relatio ns BMI 1969 kg/ m2 Correlations trigly c 1969 m mol/ l Pears on Correlation Sig. (2-t ailed) N Pears on Correlation Sig. (2-t ailed) N BMI 1969 trigly c 1969 kg/ m2 m mol/ l 1, 000 ,230* * , ,000 696 688 ,230* * 1, 000 ,000 , 688 691 * * . Correlat ion is signif icant at t he 0.01 lev el (2-tailed). Correlati ons Nonparametric correlations Spearman's rho BMI 1969 trigly c 1969 kg/ m2 m mol/ l BMI 1969 kg/m 2 Correlat ion Coef f icient 1, 000 ,311** Sig. (2-t ailed) , ,000 N 696 688 trigly c 1969 m mol/ l Correlat ion Coef f icient ,311** 1, 000 Sig. (2-t ailed) ,000 , N 688 691 **. Correlat ion is signif icant at the .01 lev el (2-t ailed). Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Exempel på olika korrelationer (r) X X X X Exempel på r: X X X 1.0 X X X X X X X Beskrivnin Perfekt g av positivt relationen: samband X X Perfekt negativt samband -1.0 X X X Starkt positivt samband 0.75 Starkt negativt samband -0.75 X X X Inget samband 0 X X X Icke-linjärt samband Korrelation ej lämplig Bo Hedblad Biostatistik T10 Scatterbilder säger mer än siffror och tabeller 80 r= -0.40 p= 0.003 70 60 50 40 30 20 10 14 16 18 20 22 24 26 28 30 32 34 36 Bo Hedblad Biostatistik T10 80 70 60 r=0.53 p<0.0001 Samma r-värde men helt olika samband! 50 40 30 20 10 28 30 32 34 36 38 40 42 80 70 60 50 r=0.51 p=0.0001 40 30 20 10 -,05 0 ,05 ,1 ,15 ,2 ,25 ,3 ,35 ,4 Bo Hedblad Biostatistik T10 Hypotesprövning av 2 normalfördelade kvantitativa variabler Linjär regression Bo Hedblad Biostatistik T10 Enkel linjär regression Kopierat ifrån Björk J, Praktisk statistik för medicin och hälsa, s. 209, Studentlitteratur Bo Hedblad Biostatistik T10 Enkel linjär regressionsmodell Genomsnittsmodell vs. Individuell modell Genomsnittsmodell: • y = utfallsvariabel • x = förklarande variabel • (ekvationens konstant, eller skärning (intercept)), (ekvationens riktningskoefficient eller lutningskoefficient (slope)) är regressionsparametrar vilka uppskattas utifrån observerade data Individuell modell: y=+*x+ • = naturlig variation i data (felterm (residual), dvs. avvikelse från modellen) Avståndet från en observation till linjen kallas för observationens residual. Storleken ( ) blir ett mått på hur mycket av den naturliga variationen i y man kan förklara genom att känna till värdet på x. Bo Hedblad Biostatistik T10 Hypotesprövning: 2 kvantitativa variabler Påverkas lungfunktionen av kroppsvikten? Hur samvarierar FEV1.0 och BMI? Är sambandet oberoende av rökning? Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Förklaringsgrad (här justerat r2) anger hur mycket av variationen i y (här FEV1.0) som förklaras av ingående variabler x (BMI) och z (rökning) Bo Hedblad Biostatistik T10 Massignifikans • Om man gör ett statistiskt test är sannolikheten 5% att man får ett signifikant resultat även om nollhypotesen är sann (dvs om det inte finns någon skillnad mellan grupperna). • Om man gör ytterligare ett test har man även denna gång 5% chans att få signifikant resultat. • Om man gör 100 test kan 5 resultat förväntas bli signifikanta även om det inte finns någon skillnad mellan grupperna. • Med datorns hjälp är det lätt att göra många analyser. Man bör undvika att göra många analyser utan en bra hypotes och att övertolka enstaka signifikanta värden. Bo Hedblad Biostatistik T10 ”The multifactorial web of causation” Omgivning Livsstil Genetik Sjukdom = f (ax1 + bx2 + cx3 + ………) Bo Hedblad Biostatistik T10 Schematic description of mechanisms involved in the development of atherosclerosis Environmental factors Psychosocial Factors Diet -calories -fat Physical activity Stress Smoking Diabetes Glucose intolerance Insulin resistance Hypertriglyceridemia Low HDL Obesity Hypertension O2-radicals DNA-damage Genetic factors DNA-repair Increased LDL-receptor plasma lipids Diabetes type II? Homocysteinemia? -1-rec-polymorphism Endothelial damage Inflammation Lipid accumulation SMC proliferation Clinical manifestation Oxidized LDL Coronary heart disease Cerebrovascular disease Periphery artery disease Defect fibrinolysis and/or Activation of the coagulation system Intima media thickness (IMT) Plaque Bo Hedblad Biostatistik T10 BIAS och CONFOUNDING Bo Hedblad Biostatistik T10 Två huvudsakliga typer av bias • Selection bias och information bias Dessa kan sedan delas in i ett stort antal specifika typer • Confounding bias är en tredje typ som ofta hanteras separat Bo Hedblad Biostatistik T10 CONFOUNDING (“störfaktorer”) En störfaktor kan förklara ett skensamband Bo Hedblad Biostatistik T10 Confounding - Vad är en confounder? - Hur känner man igen en confounder? - Vilka metoder finns att ta hänsyn till confounding? - När och hur skall man justera för en confounder? Bo Hedblad Biostatistik T10 Confounding ’ En störfaktor (’CF’) som förklarar relationen mellan exponering (’E’) och utfall (’O’)’ O E CF Bo Hedblad Biostatistik T10 Exempel på confounding Ojusterad RR >> Sann RR=1 Hjärtinfarkt Gula fingrar Rökning Bo Hedblad Biostatistik T10 Exempel på confounding Ojusterad risk << sann risk Hjärtinfarkt Högt BMI Rökning Bo Hedblad Biostatistik T10 Confounder ”Störfaktor” E O CF En ”störfaktor” måste vara: 1. En kausal riskfaktor för utfallet 2. Samvariera med exponeringen 3. Ska inte vara en effekt av utfallet eller en intermediär faktor ”Störfaktorns” effekt beror på: 1. 2. Styrkan på sambandet mellan ”störfaktorer” och utfall bland exponerade och oexponerade Prevalens av ”störfaktorn” Inte svårt i teorin, men ofta mycket komplext i verkliga livet !! Bo Hedblad Biostatistik T10 Hur väljer man ’confounding factors’? O E • A priori ? CF • Datadriven strategi? • Kombination av båda? - Undvik justera för faktorer i orsakskedjan eller faktorer som inte är riktiga confounders! - Antal events som ingår i analysen? Inte svårt i teorin, men ofta mycket komplext i verkliga livet !! Bo Hedblad Biostatistik T10 Confounding – 2 senarios A) CF = confounder B) CF = sannolikt ej confounder utan en mediator Bo Hedblad Biostatistik T10 Reverse confounding Exponeringsvariabeln påverkas av utfallet (som vid tidpunkten kan vara odiagnosticerat), och en del av orsakskedjan. • Exempel: Är låg fysisk aktivitet (E) en risk faktor för övervikt (O) ? Eller är den fysiska aktiviteten låg eftersom individen är överviktig? • Exempel: Hypertoni är en risk faktor för kranskärlssjukdom. Men antihypertensiv behandling är oftast indicerad för patienter med kranskärlssjukdom, dessa kommer att bli hypertensiva per definition. Bo Hedblad Biostatistik T10 Residual Confounding Confounding p.g.a. omätta eller dåligt mätta variabler De variabler vi justerar för korrigerar inte för confounding fullt ut Orsak: • Variabeln har dålig precision • Multivariatmodellen passar dåligt • Frånvaro (“missing”) av data Bo Hedblad Biostatistik T10 Confounding by Indication När ett symtom eller tecken på sjukdom kan ses som en indikation (eller kontraindikation) för en viss terapi och därför både är associaterad med terapi och sannolikhet för utfallet. • Exempel – de effektivaste astmaläkemedlen skrivs ut till de svårast sjuka patienterna. Dessa läkemedel kan därför vara associerade med ökat insjuknande i astmaexacerbationer. • Exempel – Statiner förskrivs till patienter med hög kardiovaskulär risk. Incidensen kan därför vara högre bland patienter med statiner. Bo Hedblad Biostatistik T10 Vilka metoder finns att ta hänsyn till confounding (’störfaktorer’)? Bo Hedblad Biostatistik T10 Metoder att hantera confounding Confounding (“störfaktorer”) Mätta confounders Design •Restriktion •Matchning Omätta confounders •Standardisering Omätta, men kan mätas i en substudie •Stratifiering •2-stegs insamling •Regression •Imputering Analys •Propensity scores •Marginal Structural Models Från Schneeweiss, PDS 2006 Omätbara Design Analys •Fall-baserad design •Instrumental variabel •Aktiv jämförelsegrupp (restriktion) •Proxy analys •Sensitivitets analys Bo Hedblad Biostatistik T10 Sammanfattning: Vilka metoder finns att ta hänsyn till confounding? • Stratifiera (tex på en eller flera exponeringsvariabler) • Randomisera (skapa jämföra grupper, tex RCT) • Matcha (tex på ålder, kön, us-tid. Obs! övermatchning) • Statistisk justering: tex, multivariat analys, imputering, Prop Sc Bo Hedblad Biostatistik T10 Statistisk metod att ta hänsyn till confounding (’störfaktorer’)? Multivariat analys Bo Hedblad Biostatistik T10 Vilka metoder finns för statistisk justering av ’confounders’ • Multipel linjär regression eller partiell korrelation (när vi studerar sambandet mellan 2 kvantitativa variabler) • ANCOVA m.m. när vi jämför medelvärdet av kvantitativa normalfördelade variabler i olika grupper (kategorisk variabel) • Logistisk regression (när vi studerar en ja / nej variabel) • Cox proportional hazard regression vid en prospektiv studie av insjuknande (’incidens’) eller överlevnad (’mortalitet’) av sjukdom i olika grupper (tex kliniska försök, RCT) Bo Hedblad Biostatistik T10 Vilka metoder finns för statistisk justering av ’confounders’ • Multipel linjär regression eller partiell korrelation (när vi studerar sambandet mellan 2 kvantitativa variabler) • ANCOVA m.m. när vi jämför medelvärdet av kvantitativa normalfördelade variabler i olika grupper (kategorisk variabel) • Logistisk regression (när vi studerar en ja / nej variabel) • Cox proportional hazard regression vid en prospektiv studie av insjuknande (’incidens’) eller överlevnad (’mortalitet’) av sjukdom i olika grupper (tex kliniska försök, RCT) Bo Hedblad Biostatistik T10 Frågeställning: Är högt blodtryck (>=160/95 mm Hg eller BT-behandling) relaterat till rökning oberoende av kroppsvikt (BMI) och fysisk aktivitet (fys_akt) Bo Hedblad Biostatistik T10 Logistisk regression Variables in the Equation Step a 1 NUROK69(1) FYS_69 FYS_69(1) FYS_69(2) BMI69_3 BMI69_3(1) BMI69_3(2) Constant B -,760 S.E. ,173 ,040 ,082 ,246 ,272 ,484 ,956 -,663 ,176 ,398 ,245 Wald 19,280 ,097 ,026 ,091 11,140 7,585 5,763 7,323 df 1 2 1 1 2 1 1 1 Sig. ,000 ,953 ,871 ,763 ,004 ,006 ,016 ,007 Exp(B) ,468 95,0% C.I.f or EXP(B) Lower Upper ,333 ,657 1,041 1,085 ,642 ,637 1,686 1,848 1,622 2,602 ,515 1,150 1,192 2,289 5,679 a. Variable(s) entered on step 1: NUROK69, FYS_69, BMI69_3. Jämfört med normalviktiga (BMI <25) har överviktiga (BMI 25-29) och obesa (BMI>=30) en statistiskt högre Odds kvot (OR) att ha högt blodtryck (>=160/95 mmHg), OR: 1.6; 95% CI: 1.2 – 2.3 och 2.6; 95% CI: 1.2 – 5.7. Sambandet är oberoende av fysisk aktivitet, kroppsvikt och rökning. OR är signifikant lägre för rökare (0.5; 95% CI: 0.3 – 0.7), oberoende av övriga Bo Hedblad faktorer. Biostatistik T10 Bo Hedblad Biostatistik T10 Vilka metoder finns för statistisk justering av ’confounders’ • Multipel linjär regression eller partiell korrelation (när vi studerar sambandet mellan 2 kvantitativa variabler) • ANCOVA m.m. när vi jämför medelvärdet av kvantitativa normalfördelade variabler i olika grupper (kategorisk variabel) • Logistisk regression (när vi studerar en ja / nej variabel) • Cox proportional hazard regression vid en prospektiv studie av insjuknande (’incidens’) eller överlevnad (’mortalitet’) av sjukdom i olika grupper (tex i kliniska försök, RCT) Bo Hedblad Biostatistik T10 Fråga: Dör rökare tidigare än icke-rökare? dead 1969-83 * CURR ENT SMOKER 1969 Crosstabulation dead 1969-83 aliv e y es, dead Tot al Count % wit hin C URREN T SMOKER 1969 Count % wit hin C URREN T SMOKER 1969 Count % wit hin C URREN T SMOKER 1969 CURRENT SMOKER 1969 NO Y ES 223 324 Tot al 547 83, 5% 74, 3% 77, 8% 44 112 156 16, 5% 25, 7% 22, 2% 267 436 703 100,0% 100,0% 100,0% Asy mp. Sig. (2-sided) ,004 ,006 ,004 Exact Sig. (2-sided) Exact Sig. (1-sided) ,005 ,003 Ch i-Sq uare Tests Pears on C hi-Square a Continuity C orrection Likelihood Ratio F isher's Exact Tes t Linear-by -Linear Assoc iation N of Valid Cas es Value 8, 133b 7, 608 8, 388 8, 121 df 1 1 1 1 ,004 703 a. Com put ed only f or a 2x2 table b. 0 cells (,0%) hav e ex pected count less than 5. The minim um ex pect ed count is Bo Hedblad 59, 25. Biostatistik T10 Effektmått – Risk Skillnader mellan riskmåtten Absolut risk • Utrycks i händelser per personår Relativ risk • Utrycks som en kvot där man jämför med en referensgrupp Bo Hedblad Biostatistik T10 • Sannolikhetsfunktionen f(t) (”sannolikheten att överleva en viss tid”) • Överlevnadsfunktionen s(t) • Kaplan-Meier • Hazardfunktionen k(t) (”sannolikheten att dö precis innan Du lever”) • Cox regression • Prop. Hazards Bo Hedblad Biostatistik T10 100 90 80 70 sannolikhetsfunktionen 60 hazardsfunktionen överlevnadsfunktionen 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 Follow-up (years) Bo Hedblad Biostatistik T10 Överlevnadskurvor – Personår av observation Ind. # 0 1 2 3 4 5 6 7 8 MI = 4.5 personår 9 10 S=Screening S 1 † S 2 3 = 2 personår Em = 4.5 personår S S 4 = 7.5 personår etc 1000 S CABG = 7.2 personår Bo Hedblad Biostatistik T10 Överlevnadskurvor 1, 0 ICKE RÖKARE ,9 ,8 RÖKARE ,7 0 2 4 6 8 10 Uppföljning stid (år) 12 14 16 Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Cox regression h(t) = h0(t)e–a+b1x1+b2x2+b3x3 100 90 80 70 60 50 40 h0(x) b1x1 (tex kön) 30 20 10 0 0 2 4 6 8 10 Follow-up (years) Bo Hedblad Biostatistik T10 Bo Hedblad Biostatistik T10 Överlevnadsanalys Risken att dö per person-år hos rökare och icke-rökare: Icke-rökarna: De 267 icke-rökarna levde sammanlagt i 3591 år mellan 55 och 68 års ålder. 44 dog. Antal döda per person-år var: 44 / 3591 = 0.012 Rökarna: De 436 rökarna levde sammanlagt i 5567 år mellan 55 och 68 års ålder. 112 dog. Antal döda per person-år var: 112 / 5567 = 0.020 Bo Hedblad Biostatistik T10 Överlevnadsanalys Icke-rökarna: Incidensen är: 44 / 3591 = 0.012 Rökarna: Incidensen är: 112 / 5567 = 0.020 Relativ risk (RR, HR): 0.02 / 0.012 = 1.67 Om risken är 1 hos icke-rökaren så är den 1.67 (67% högre) hos rökaren Bo Hedblad Biostatistik T10 Konfidensintervall Är detta signifikant? Relativ risk: 1.67, 95% konfidensintervall (CI): 1.17 - 2.34. CI = x±c·sd/√n Konfidensintervall: Vid upprepade stickprov från samma population kommer 95% av konfidensintervallen att innefatta det sanna värdet (medelvärde, proportion eller sjuklighet). 1.17 – 2.34 utgör en skattning på osäkerheten i vårt punktestimat. OBS!!! En relativ risk (eller odds kvot) är signifikant om 95% konfidensintervallet inte innefattar 1. Bo Hedblad Biostatistik T10 Absolut risk Icke-rökarna: Incidensen är: 44 / 3591 = 0.012 *1000 = 12 per 1000 personår Rökarna: Incidensen är: 112 / 5567 = 0.020 *1000 = 20 per 1000 personår Absolut risk: 20 - 12 = 8 per 1000 personår Relativ risk: 1.67 = 67% Bo Hedblad Biostatistik T10 BIAS “systematiskt fel” Bo Hedblad Biostatistik T10 Bias – ett systematiskt fel • Ger ett felaktigt estimat eller en felaktig uppskattning av sambandet - Kan visa ett samband där det inte finns något - Kan dölja ett samband där det finns ett • Bias uppträder i design och genomförandefasen av en studie - Kan ofta inte åtgärdas i analysfasen - Finns i alla typer av studier - experimentella & observationsstudier Bo Hedblad Biostatistik T10 Två huvudsakliga typer av bias • Selection bias och information bias. Dessa kan sedan delas in i ett stort antal specifika typer • Confounding bias är en tredje typ som ofta hanteras separat Bo Hedblad Biostatistik T10 Typer av bias. Del 1 J Epidemiol Community Health 2004;58:635–641. Bo Hedblad Biostatistik T10 Typer av bias. Del 2 Bo Hedblad Biostatistik T10 Types of bias part 3 J Epidemiol Community Health 2004;58:635–641. Bo Hedblad Biostatistik T10 Selection bias Exempel: • • • • • • • Felaktigt val av fall och kontroller Frivillig-bias Healthy worker effect Exklusioner pga missing data Immortal time bias Incidence-prevalence bias (selektiv överlevnad) Health care access bias Bo Hedblad Biostatistik T10 Information bias Exempel • • • • • • • Missklassificering av exponering Missklassificering av utfall Recall bias Reporting bias Protopathic bias Ecological fallacy Numerator-denominator bias Bo Hedblad Biostatistik T10 Orsaker till bias ? • Vilken är studiebasen? Har alla haft samma sannolikhet att komma med i studien? • Har alla exponerade haft samma sannolikhet att bli identifierade som exponerade? Valida och enhetliga mätmetoder? Kan exponeringen ha påverkats av subklinisk sjukdom? • Är alla endpoints med? Har alla utfall haft samma chans att bli identifierade och inkluderade i studien? • Vid överlevnadsanalyser – när startar och när stoppar klockan? Finns det konkurrerande utfall? Bo Hedblad Biostatistik T10 Standardisering Bo Hedblad Biostatistik T10 Standardisering • En metod att ta hänsyn till skillnader mellan grupper. • Oftast standardiserar man för skillnader i ålder och / eller kön, men det kan också gälla andra skillnader. DIREKT STANDARDISERING, exempel I två städer är befolkningen ungefär lika stor (79600 respektive 85000). Dödligheten är 14 respektive 11 per 1000 person-år. Det finns emellertid skillnader i ålder - i STAD 1 finns fler unga invånare medan STAD 2 utgör en äldre befolkning. Finns det någon skillnad i dödlighet om man tar hänsyn till åldersskillnaden? Räkna ut incidensen i varje åldersgrupp för sig (6 åldersgrupper). I detta fall låter vi alla åldersgrupper få samma vikt genom att multiplicera alla incidenser med 0.1666 (1 / 6). Bo Hedblad Biostatistik T10 Standardisering STAD 1 STAD 2 Ålder (år) Vikt (andel) Antal döda Befolkning Incidens per 1000 person-år Antal döda Befolkning Incidens per 1000 person-år 25-34 0.166 70 14000 5 9 10000 0,9 35-44 0.166 150 23000 6,5 15 19000 0,79 45-54 0.166 190 18000 10,6 30 16000 1,9 55-64 0.166 200 13000 15,4 100 15000 6,7 65-74 0.166 300 8600 34,8 250 14000 17,9 75-84 0.166 200 3000 66,7 500 11000 45,5 Totalt 1.00 1110 79600 14 904 85000 11 Standardiserad incidens: STAD 1: (5+6.5+10.6+15.4+34.8+66.7)*0.1666 = 24 per 1000 personår STAD 2. (0.9+0.79+1.9+6.7+17.9+45.5)*0.1666 = 12.3 per 1000 personår Bo Hedblad Biostatistik T10 I detta exempel har alla åldersgrupper fått samma vikt (en sjättedel). Det är också möjligt att ge yngre åldersgrupper större betydelse genom att vikta på annat sätt. Standardisering STAD 1 STAD 2 Ålder (år) Vikt (andel) Antal döda Befolkning Incidens per 1000 person-år Antal döda Befolkning Incidens per 1000 person-år 25-34 0.166 70 14000 5 9 10000 0,9 35-44 0.166 150 23000 6,5 15 19000 0,79 45-54 0.166 190 18000 10,6 30 16000 1,9 55-64 0.166 200 13000 15,4 100 15000 6,7 65-74 0.166 300 8600 34,8 250 14000 17,9 75-84 0.166 200 3000 66,7 500 11000 45,5 Totalt 1.00 1110 79600 14 904 85000 11 Standardiserad incidens: RR: 24 / 12.3 = 1.95 STAD 1: (5+6.5+10.6+15.4+34.8+66.7)*0.1666 = 24 per 1000 personår STAD 2. (0.9+0.79+1.9+6.7+17.9+45.5)*0.1666 = 12.3 per 1000 personår I detta exempel har alla åldersgrupper fått samma vikt (en sjättedel). Det är också möjligt att ge yngre åldersgrupper större betydelse genom att vikta på annat sätt. Indirekt standardisering SMR (standardized mortality rate) •Anger dödlighet som observerats om det förväntade antalet är 100. •Ofta jämför man med en stor population, tex Sveriges befolkning 1990, som alltså får talet SMR = 100. Bo Hedblad Biostatistik T10 Litet schema för val av statistisk metod • Två kvalitativa variabler (ex. kön, rökare, hypertoniker). Gör 4-fältstabell och Chi-2 test. • Jämföra medelvärde i två grupper. (ex. vikt eller blodtryck hos rökareickerökare). Använd t-test, ANOVA • Samband (”grad av rätlinjighet”) mellan två kvantitativa variabler. Använd Pearsons’ korrelation coefficient. • Vid små material (<30 individer) och icke normalfördelade material: Använd icke-parametriska test. t-test ersätts med Mann-Whitney U-test eller Pearsons korrelation med Spearman. • Om Du gjort upprepat test på samma individer, t.ex. blodtryck före och efter vårdtillfället. Använd parade tester, tex parat t-test. Bo Hedblad Biostatistik T10 Likabedömning Gör läkare samma bedömning av en grupp patienter? 2 läkare möter samma pat och oberoende av varandra föreslås beh A, B eller C. Läkarna föreslår beh på 25 patienter. Fråga: Gör läkarna samma bedömning i gruppen? läkB * l äkA Crosstabulation Count Kappa (κ) test: läkB Met od A Met od B Met od C Tot al Met od A 7 3 0 10 läkA Met od B 3 7 2 12 Met od C 0 0 3 3 Tot al 10 10 5 25 Enligt Robert Altman: Symmetri c Measures Measure of Agreement Kappa N of Valid Cas es Value ,487 25 Asy mp. a Std. Error ,153 < 0.2 = slumpen b Approx. T 3, 296 Approx. Sig. ,001 0.21-0.4 = svag överenstämmelse 0.41-0.60 = måttlig överenstämmelse a. Not ass uming t he null hy pot hesis. b. Using the as y mptotic standard error assuming the null hy pothesis. 0.61-0.80 = god överenstämmelse 0.81-1.00 = stark överenstämmelse Bo Hedblad Biostatistik T10 Likabedömning Gör läkare samma bedömning av en grupp patienter? 2 läkare möter samma pat och oberoende av varandra föreslås beh A, B eller C. Läkarna föreslår beh på 25 patienter. Fråga: Gör läkarna samma bedömning i gruppen? läkB * l äkA Crosstabulation Count Kappa (κ) test: läkB Met od A Met od B Met od C Tot al Met od A 7 3 0 10 läkA Met od B 3 7 2 12 Met od C 0 0 3 3 Tot al 10 10 5 25 Enligt Robert Altman: Symmetri c Measures Measure of Agreement Kappa N of Valid Cas es Value ,487 25 Asy mp. a Std. Error ,153 < 0.2 = slumpen b Approx. T 3, 296 Approx. Sig. ,001 0.21-0.4 = svag överenstämmelse 0.41-0.60 = måttlig överenstämmelse a. Not ass uming t he null hy pot hesis. b. Using the as y mptotic standard error assuming the null hy pothesis. 0.61-0.80 = god överenstämmelse 0.81-1.00 = stark överenstämmelse Bo Hedblad Biostatistik T10 Mättillfälle 2 (DBP mmHg) MEDELVÄRDESREGRESSION 125 Mättillfälle 1 (M1, svart prick): 115 500 patienter: x= 95 ± 8 mmHg 105 95 Mättillfälle 2 (M2, vit prick): 85 75 500 patienter: x = 95 mm Hg Korrelation (r) mellan mättillfälle 1 och 2 = 0.6 65 65 75 85 95 105 115 125 Mättillfälle 1 (DBP mmHg) Om mäter bara patienter med DBP ≥ 95 mm Hg M1: 101.4 mm Hg -2.6 mmHg M2: 98.8 mm Hg ”Fenomenet” orsakas av mätosäkerhet och inom patientvariation Bo Hedblad Biostatistik T10 MEDELVÄRDESREGRESSION KAN FÖRORSAKA MISSVISANDE RESULTAT SOM: • Relaterande av förändring mot ingångsvärdet Tex r = - 0.45 (M1 vs M2-M1) • Undersökning av effekter i subgrupper Tex av grupper med ”extrema” värden • Publikationsbias Tex många ”fynd” uppvisar påtaglig regression mot medelvärdet i senare jämförbara studier (t.ex. hsCRP och CV risk) Bo Hedblad Biostatistik T10 POWER BERÄKNING – några Web adresser http://www.dssresearch.com/toolkit/default.asp • PS Power and Sample Size Calculation – Enkelt, lätt att använda – Kan laddas ned gratis via http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/ PowerSampleSize • G*Power 3 – Mer avancerat, något svårare att använda – Kan laddas ned gratis via http:// www.psycho.uni-duesseldorf.de/abteilungen/gpower3 • Episheet – Epidemiologiska dimensioneringsberäkningar http:// www.epidemiolog.net/studymat/ Bo Hedblad Biostatistik T10 ADRESS TILL KORT REDOVISNING AV STATISTISKA METODER •http://www.jerrydallal.com/LHSP/bmj.htm Bo Hedblad Biostatistik T10 OBSERVERAT SAMBAND Kan det bero på selektions eller mätningsbias? NEJ Kan det bero på confounding? NEJ Kan det bero slumpen? SANNOLIKT NEJ Kan det vara kausalt? Bo Hedblad Biostatistik T10 En guideline för kausalitet Tidsamband: Kommer orsak före effekten? Rimlighet: Är observerade samband i linje med annan kunskap? Mekanismer, djurförsök Konsistens: Har liknande resultat visats tidigare? Styrka: Vilken styrka finns mellan orsak och verkan? Relativ risk Dos-respons samband: Ger ökad exponering en ökad effekt? Reversibilitet: Ger minskad exponering en minskad risk? Studiedesign: Är resultaten baserade på en stark studiedesign? Bevisbedömning: Hur många olika typer av Bo Hedblad evidens leder till konklusionen?Biostatistik T10 Värdering av samband Nej Statistiskt samband Samband saknas Ja Bias Påverkan på samband Ja Confounding Orsakssamband Konsistens Styrka Tidsamband Rimlighet Dos-respons samband Bidra till orsaks samband Studiedesign Kausalitet I. Andersson. Studentlitteratur 2006 Reversibilitet Bo Hedblad Biostatistik T10 Värdering av samband STUDIETYP Styrkan att påvisa kausalitet • Ekologisk studie Mycket låg • Tvärsnittsstudie Låg • Fall-kontroll studie Måttlig • Kohort studie Stor • RCT • Samhällsintervention I. Andersson. Studentlitteratur 2006 Stor – mycket stor Låg – Måttlig Bo Hedblad Biostatistik T10
© Copyright 2024