university of copenhagen Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 1. september 2015 1 / 84 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Indhold I Planlægning af undersøgelse, protokol I Grafik I Basale begreber I Parrede sammenligninger I Limits of agreement I Præsentation af resultater Home pages: http://biostat.ku.dk/~lts/basal15_2 E-mail: [email protected] 2 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Ide, Problemstilling Har “folk” et tilstrækkeligt højt niveau af vitamin D? I Hvad menes med “folk”? Her mener vi måske danskere, eller danske kvinder.... I Hvor højt bør niveauet være? Sammenlignet med anbefalet standard? Eller med andre lande? I Er der lavet studier tidligere? Her? I andre lande? I Kan vi identificere/beskrive kvinder med for lavt niveau? Studie af kvinder fra 4 lande Danmark, Polen, Finland og Irland 3 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Planlægning af undersøgelse I Formulering af de(t) centrale spøgsmål I I I Udvælgelse af personer? I I I Hvem? Inklusionskriterier kontra repræsentativitet. Hvor mange? Dimensionering. Hvilke oplysninger skal registreres? Kovariater = Forklarende variable I I I I I 4 / 84 Er der forskel på landene? I givet fald, hvorfor? spisevaner sol eksponering fedme rygning alkohol university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Skriv en protokol Dette er en vigtig del af processen!! I Man får tænkt sig om på forhånd I Der bliver udarbejdet information til brug for kolleger mv. I Det tjener som “ekstra hukommelse” - man glemmer en del hvis dataindsamling eller andet trækker ud I Det er en nødvendig del af dokumentation i forbindelse med f.eks. etisk komite, ansøgning om midler, anmeldelse af trial etc. I I forbindelse med den statistiske analyse dokumenterer det, hvad der var den oprindelige strategi og hvad der bør betegnes som tilfældige fund 5 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempel på data Obs country category vitd age bmi 1 2 3 4 5 6 Ireland Ireland Ireland Ireland Ireland Ireland Woman Woman Woman Woman Woman Woman 37.6 53.0 66.7 62.7 89.1 24.3 71.153 70.233 70.301 70.203 69.932 70.652 26.391 20.540 23.500 20.800 21.800 36.000 Sometimes in sun Sometimes in sun Sometimes in sun Avoid sun Avoid sun Prefer sun sunexp vitdintake 5.430 9.257 30.040 3.005 4.068 3.443 38 39 40 41 Ireland Ireland Ireland Ireland Woman Woman Woman Woman 26.2 43.7 35.2 17.0 71.518 70.326 70.638 72.049 26.950 25.723 21.107 30.978 Sometimes in sun Prefer sun Sometimes in sun Prefer sun 2.158 3.205 7.753 2.906 Det oprindelige datasæt i tekstformat, samt SAS-programmet til indlæsning fremgår af appendix bagest i disse slides (s. 73-75). 6 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Datastruktur, terminologi I Rækkerne kaldes observationer (typisk 1 pr. person) I Søjlerne kaldes variable (en bestemt type oplysning). De kan være I Kvantitative variable (Numeriske variable) , dvs. tal, som man kan regne på I I I I Kategoriske variable (Class-variable), som kun kan antage nogle få bestemte værdier, her repræsenteret ved tekst=string I I 7 / 84 Vitamin D koncentration (vitd) Alder (age) Body mass index (bmi) Personens hjemland (country) Personens solvaner (sunexp) university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Anbefalet rækkefølge af aktiviteter 1. Tegn I I I Histogram Boxplot (typisk for at sammenligne grupper) Scatter plot 2. Regn I I Tabeller Summary statistics 3. Analyser I I I 8 / 84 Model Estimation Test university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Histogram for Irske kvinder overlejret med fittet normalfordeling (kode s. 76) 9 / 84 university of copenhagen Normalfordelingstætheder Middelværdi = mean, ofte benævnt µ, α el.lign. Spredning, ofte benævnt σ N(µ,σ 2 ) 10 / 84 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Box-plot for alle kvinder I Box: 25% - 75% fraktil I Streg: Median I : Gennemsnit I Whiskers: definitionsafhængig kode s. 76 ...noget med variansanalyse 11 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Scatter-plot af Vitamin D niveau mod BMI Er der en afhængighed af BMI? Måske lineær? ... noget med regressionsanalyse (kode s. 77) 12 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Regn: Summary statistics Numeriske størrelser til beskrivelse af kvantitative variable, med observationer y1 , . . . , yn I Location, centrum I I I Gennemsnit: ȳ = n1 (y1 + · · · + yn ) Median: midterste observation, efter størrelsesorden Variation I Varians: s 2 = 1 n−1 Σ(yi − ȳ)2 Spredning = Standardafvigelse= Standard Deviation = √ varians I 13 / 84 Fraktiler Medianen er 50% fraktilen university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Gennemsnit Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage. Repræsentativt for hvad?? På den anden side, hvis omkostninger er I I kan opfattes som ligevægtspunkt påvirkes kraftigt af yderlige observationer 14 / 84 proportionale med indlæggelsestiden, så er det måske gennemsnittet, der er interessant for hospitalsledelsen. university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s “Should we scare the opposition by announcing our mean height, or lull them by announcing our median height?” 15 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Summary statistics i SAS proc means N mean median min max stddev data=vitamind; class country; var vitd; run; Analysis Variable : vitd country N Mean Median Minimum Maximum Std Dev ---------------------------------------------------------------------------Denmark 53 47.1660377 47.8000000 11.4000000 93.6000000 22.7829216 Finland 54 47.9907407 46.6000000 5.2000000 96.6000000 18.7247114 Ireland 41 48.0073171 44.8000000 17.0000000 110.4000000 20.2221214 Poland 65 32.5615385 32.5000000 5.4000000 60.3000000 12.4644832 ---------------------------------------------------------------------------- 16 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Fortolkning af spredningen, s=Std.Dev. Hovedparten af observationerne ligger inden for ȳ ± ca.2 × s dvs. sandsynligheden for at en tilfældig udtrukket person fra populationen har en værdi i dette interval er stor... For Vitamin D for irske kvinder finder vi 48.0 ± 2 × 20.2 = (7.6, 88.4) Hvis data er normalfordelt, vil dette interval indeholde ca. 95% af fremtidige observationer. Hvis ikke, tja.... 17 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Fraktiler for vitamin D Sorter data med den mindste først, tæl: 5% fraktil: 5% er mindre end dette, 95% er større 25% fraktil: 25% er mindre, 75% er større kaldes også nedre kvartil 50% fraktil: 50% er mindre, 50% er større Midterste observation, kaldes også median 75% fraktil: 75% er mindre, 25% er større kaldes også øvre kvartil 2 21 % og 97 21 % er vigtige, fordi 95% af observationerne ligger imellem disse 18 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Normalområde / Referenceområde Område, der omslutter de centrale 95% af observationerne: I nedre grænse: 2 12 % fraktil (her 18 nmol/l) I øvre grænse: 97 21 % fraktil (her 89.1 nmol/l) Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ), kan de sande fraktiler udtrykkes som 2 12 % fraktil: µ − 1.96σ ≈ ȳ − 1.96s 97 21 % fraktil: µ + 1.96σ ≈ ȳ + 1.96s og normalområdet udregnes derfor som ȳ ± ca.2 × s ≈ (ȳ − 2 × s, 19 / 84 ȳ + 2 × s) university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Praktisk konstruktion af referenceområde I Store datasæt: Brug fraktiler I Mellemstore datasæt: Brug en rimelig fordelingsantagelse, typisk normalfordelingen, evt. efter transformation I Små datasæt: Lad være med det!! 20 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hvad er en rimelig fordelingsantagelse? Her: passer normalfordelingen nogenlunde? I Tegn histogram, er det symmetrisk? I Fraktildiagram, er det lineært? (kræver tilvænning) I Er gennemsnit og median tæt på hinanden? I Er fraktilerne (f.eks. 25% og 75%) symmetriske omkring medianen? Bemærk: Et stort antal observationer sikrer ikke, at der er tale om en normalfordeling. – og et lille materiale kan sagtens være et sample fra en Normalfordeling. 21 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Fraktildiagram, “qqplot” Sammenlign empiriske (udregnede) fraktiler (Y-aksen) med de tilsvarende teoretiske, baseret på en fittet normalfordeling (X-aksen) Dette bør se lineært ud, hvis der er tale om en normalfordeling 22 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hvorfor normalfordelingen? I Det er ofte en rimelig approksimation I I Central grænseværdisætning: I I Evt. efter transformation med logaritme, kvadratrod, invers,... Sum (eller gennemsnit) af et stort antal variable får en fordeling, der efterhånden kommer til at ligne en normalfordeling (sum af normalfordelinger er igen en normalfordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for normalfordelingen. 23 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Eksempler på pæne normalfordelinger 24 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Typisk afvigelse fra normalfordelingen som regel når der er tale om ret lave værdier, f.eks. hormonmålinger: I Histogrammet er skævt, med en hale mod de høje værdier I Gennemsnittet er en del større end medianen Løsning: Transformer med en logaritme I ligegyldig hvilken: naturlig, 10-tals, 2-tals I bare man transformerer tilbage med den samme anti-logaritme... I ofte vil 2-tals logaritmen være at foretrække af fortolkningsmæssige årsager 25 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Histogram for logaritmerede værdier af vitamin D her 2-tals logaritmen igen med fittet overlejret normalfordeling Her har vi lidt bedre symmetri 26 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Referenceområde, baseret på logaritmer Analysis Variable : log2vitd N Mean Median Std Dev -------------------------------------------------41 5.4564121 5.4854268 0.6327180 -------------------------------------------------- For logaritmen til Vitamin D for irske kvinder finder vi 5.456 ± 2 × 0.633 = (4.19, 6.72) Dette interval skal tilbagetransformeres med anti-logaritmen: (24.19 , 26.72 ) = (18.3, 105.6) Sammenlign med (7.6, 88.4) fra før.... 27 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Skæve fordelinger: Immunoglobulin (n=298) Tydeligt ikke-normalfordelt 28 / 84 Tydeligt ikke-lineært university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Immunoglobulin, log2-transformeret Næsten lineært Væsentlig bedre normalfordelingstilpasning 29 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Referenceområde for immunoglobulin Data utransformeret log2-transformeret tilbagetransformeret empiriske fraktiler gennemsnit (median) 0.803 -0.524 (0.695) (0.700) spredning Referenceområde 0.469 0.789 - (-0.135, 1.741) (-2.102, 1.054) (0.233, 2.076) (0.2, 2.0) Sådan foregår tilbagetransfomationen: Referenceområde for logaritmer: (-2.102, 1.054) Tilbagetransformeret: (2−2.102 , 21.054 ) = (0.23, 2.08) Lad være med at tilbagetransformere spredningerne 30 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Hvis fordelingen er tydeligt skæv eller på anden måde afviger tydeligt fra normalfordelingen, bør man ikke engang angive gennemsnit og spredning, men snarere: I fraktiler: I I median inter-quartile range, IQR: intervallet mellem 25% og 75% fraktil For helt små materialer angives evt. I median og range ..og så laver man ikke statistik, men kasuistik 31 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Vigtigheden af normalfordelingen afhænger af formålet med undersøgelsen I vigtig I I I ikke så vigtig I I I ved beskrivelser ved konstruktion af referenceområder ved sammenligninger hvor det kun er residualerne, der antages normalfordelte ved vurdering af effekter hvor antallet af observationer kan redde situationen ikke på nogen måde påkrævet for kovariater! — som I ikke ved så meget om endnu... 32 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Parrede sammenligninger Vi skal se på en situation, hvor vi ønsker at sammenligne to fordelinger, men hvor observationer fra den ene fordeling “er parret med” observationer fra den anden fordeling. Eksempler: I To målemetoder, der benyttes på samme person/dyr/blodprøve I Målinger på samme person før og efter en behandling I Sammenligning af to grupper, hvor individerne er individuelt matchet på f.eks. køn, alder, bopæl etc. Vi ønsker typisk at undersøge, om de to fordelinger er ens, eller i hvert fald om de har samme middelværdi. 33 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Sammenligning af målemetoder Ubrugelig tabel: To metoder til bestemmelse af flow (stroke volume): I MF: bestemt ved Doppler ekkokardiografi I SV: bestemt ved cross-sectional ekkokardiografi Måler de to målemetoder “det samme”? 34 / 84 person 1 2 3 4 5 . . . . 17 18 19 20 21 gennemsnit SD SEM MF 47 66 68 69 70 . . . . 104 105 112 120 132 86.05 20.32 4.43 SV 43 70 72 81 60 . . . . 94 98 108 131 131 85.81 21.19 4.62 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Scatter plot af MF vs. SV Er der en pæn lineær sammenhæng mellem de to målemetoder? Er de måske endda rimeligt ens? 35 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Man skal kunne se parringen! Forkert tegning Kode s. 82 36 / 84 Rigtig tegning university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Analyse af parrede data I Personen er sin egen kontrol Det giver stor styrke til at opdage evt. forskelle. I Se på individuelle differenser – men på hvilken skala? I I I Er differensernes størrelse nogenlunde uafhængig af niveauet? Eller er der snarere tale om relative (procentuelle) forskelle: I så fald skal der tages differenser på en logaritmisk skala. Undersøg om differenserne har middelværdi 0 parret T-test 37 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Et andet eksempel Forkert tegning Her bør man se på logaritmer 38 / 84 Rigtig tegning university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Bland-Altman plot Scatter plot af differenser dif=mf-sv mod gennemsnit average=(mf+sv)/2 for den enkelte person: Ligger differenserne omkring 0? Er der ca. den samme fordeling for alle x-værdier? 39 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Statistisk model for parrede data Xi : flowmålingen MF for den i’te person Yi : flowmålingen SV for den i’te person Differenser Di = Xi − Yi (i = 1, · · · , 21) uafhængige, normalfordelte med middelværdi δ og spredning σd Bemærk: I Intet krav om fordeling af selve flowmålingerne! I Kun antagelser om differenser – fordi det er et parret design 40 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Inferens, Statistisk analyse Med udgangspunkt i indsamlede data, hvad kan vi så sige om den sandsynlighedsmekanisme (model, f.eks. de ukendte parametre), der har frembragt disse data? I Estimation: Når vi ser disse 21 differenser, hvad kan vi så sige om de to ukendte parametre, δ og σd ? I Test: Ser der ud til at være systematisk forskel på de to metoder? I Prædiktion: Hvor store forskelle kan vi forvente i praksis? 41 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Gangen i en statistisk analyse I Modelkontrol: Er forudsætningerne opfyldt? Burde komme først, men kommer af praktiske grunde efter estimationen. I Estimation: Hvilke parameterværdier passer bedst med observationerne? Og hvor sikkert er de bestemt? I Modelreduktion (test af hypoteser): Er simplere beskrivelser tilladelige? Passer en simplere model næsten lige så godt? 42 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Antagelser for det parrede t-test: Differenserne Di = Xi − Yi : I er uafhængige: personerne har ikke noget med hinanden at gøre I har samme spredning (varians): vurderes ved det såkaldte Bland-Altman plot af differenser mod gennemsnit I er normalfordelte: vurderes grafisk eller numerisk I I I 43 / 84 histogram og fraktildiagram, hmm....kun 21 observationer formelt test?? nix... somme tider vigtig, andre gange ikke university of copenhagen Fordeling af differenser Passer normalfordelingen nogenlunde? 44 / 84 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Estimation: Hvilke modelparametre passer med data? Maximum likelihood princippet, for simpelheds skyld for en enkelt parameter, som vi vil kalde µ: I Likelihood: Hver parameterværdi µ giver en (normalfordelings)tæthed Tæthedens værdi for de observerede data kaldes likelihood værdien for µ, L(µ) Den angiver sandsynligheden for at observere netop disse data med denne parameterværdi. I Parameteren µ er ukendt: Likelihood funktionen L(µ) maksimeres, og den dertil hørende parameter kaldes Maximum likelihood estimatet 45 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Estimation af “forskellen” dvs. af middelværdien δ af differenserne Di Vi har et “en-stikprøve problem” (one sample problem): 21 uafhængige målinger af samme (normalfordelte) variabel, D: Di ∼ N (δ, σd2 ) Maximum likelihood princippet giver her, at parametrene δ og σ estimeres ved henholdsvis gennemsnittet D̄ og den tidligere omtalte spredning s (s. 13). 46 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Estimat for δ δ̂ = D̄, gennemsnittet af differenserne. proc means N mean std stderr t probt data=mf_sv; var dif; run; Variable N Mean Std Dev Std Error t Value Pr > |t| ------------------------------------------------------------------------dif 21 0.2380952 6.9635103 1.5195625 0.16 0.8771 ------------------------------------------------------------------------- Altså: δ̂ = 0.238 Estimater skal angives med tilhørende usikkerheder! – gerne i form af et konfidensinterval 47 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Usikkerhed på et estimat Hvad betyder det? F.eks. (som her) usikkerhed på et gennemsnit, som estimat for (skøn over) en ukendt middelværdi. Vi kan tænke på gentagelser af undersøgelsen: I Hver gang får vi et nyt estimat (for middelværdien) I Vi kan studere fordelingen af sådanne estimater I Spredningen i denne fordeling angiver usikkerheden. Den kaldes som regel standard error of the estimate Hvis det er en middelværdi, kaldes den standard error of the mean 48 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Altså: Spredning på gennemsnittet kaldes Standard error (of the mean), SEM Hermed angives usikkerheden på gennemsnittet, og der gælder SD SEM = √ n SEM bliver således mindre, når n bliver større Den bruges til at konstruere konfidensintervaller, som kommer nu... 49 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Konfidensinterval = Sikkerhedsinterval Interval, der “fanger” den ukendte parameter (her middelværdien δ) med stor (typisk 95%) sandsynlighed. Hvor kan vi tro på at den faktiske middelværdi δ ligger? (Approksimativt) 95% konfidensinterval for middelværdi x̄ ± 2 × SEM Eksakt for normalfordelingen (bortset fra “ca. 2”) 50 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Konfidensinterval for δ med 95% dækningsgrad, dvs. et 95% konfidensinterval: D̄ ± ’ca. 2’ × SEM eller med et “mere præcist 2-tal”: t97.5% (20) = 2.086 proc means N mean stderr clm; var dif; run; Analysis Variable : dif Lower 95% Upper 95% N Mean Std Error CL for Mean CL for Mean -----------------------------------------------------------------21 0.2380952 1.5195625 -2.9316567 3.4078471 -----------------------------------------------------------------51 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Fortolkning af konfidensinterval (sikkerhedsinterval) Konfidensinterval for middelværdien af forskellen δ mellem MF og SV blev estimeret til (−2.93, 3.41) Det betyder: I Der kan ikke påvises nogen systematisk forskel (bias) mellem de to typer målinger I Vi kan dog heller ikke afvise, at der kan være forskel I En evt. bias vil med stor sikkerhed (her 95%) være mindre end. ca. 3 − 3.5 (til hver side) 52 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Test af hypotese (ofte kaldet nulhypotese Kan vi nøjes med en simplere model? Kunne en eller flere parametre i en model være en kendt værdi (ofte 0, deraf navnet)? Modelreduktion: Model −→ (nul)hypotese (H0 ). Kan den forenklede model tænkes at være den rigtige? Eksempelvis: I Er der systematisk forskel på de to målemetoder? (δ = 0) I Har mænd og kvinder samme middelværdi af blodtrykket? (µ1 = µ2 eller µ1 − µ2 = 0) I Er blodtrykket uafhængig af alderen? (hældning β = 0) I Er der samme sandsynlighed for farveblindhed hos piger og drenge? (p1 = p2 eller p1 − p2 = 0) 53 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Test af hypotese, II Ofte ønsker vi at forkaste hypotesen, fordi vi så har fundet en effekt, f.eks. en forskel på to grupper. Andre gange ønsker man at vise, at der ingen forskel er, og så skal man bruge konfidensintervaller i stedet for! Teststørrelse: En størrelse, der måler diskrepans mellem observation og hypotese I Stor diskrepans: Forkast hypotesen, fordi den passer dårligt sammen med data. Men hvor stor?? I Undersøg om teststørrelsen (diskrepansen) er værre / mere ekstrem end hvad der kan forventes ved tilfældighedernes spil. 54 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Teststørrelsens fordeling Teststørrelsen måler diskrepansen mellem observationerne og hypotesen. Selv når hypotesen H0 er fuldstændig sand, vil vi aldrig opnå fuldstændig overensstemmelse mellem model og observationer (f.eks. ikke nøjagtigt samme gennemsnit for MF og SV). I Hvor store vil afvigelserne typisk være, når H0 er sand? I Hvilke værdier af teststørrelsen vil vi typisk få, og med hvilken hyppighed (sandsynlighed)? I Det kaldes fordelingen af teststørrelsen, og den kan beregnes, så vi ved, hvad der er normalt og hvad der er unormalt/ekstremt 55 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Test af “ingen bias” mellem MF og SV dvs. H0 : δ = 0 Her finder vi teststørrelsen: δ̂ − 0 0.24 − 0 = = 0.158 ∼ t(20) SEM 1.52 Passer værdien 0.158 godt med en t-fordeling med 20 frihedsgrader? t= Ja, den ligger ret centralt i fordelingen, og vi kan derfor ikke se noget galt med vores hypotese. I Lille (numerisk) t: God tilpasning I Stor (numerisk) t: Dårlig tilpasning 56 / 84 university of copenhagen Teknisk note t-fordelingen (Student fordelingen) har en parameter df , der kaldes antallet af frihedsgrader (her: 5, 10, 100). I Mange frihedsgrader: Fordelingen ligner normalfordeling I Få frihedsgrader: Tungere haler. 57 / 84 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Teknisk note, II Hvor kom t-fordelingen fra? I Gennemsnittet er normalfordelt (hvis forudsætningerne holder) I Hvis spredningen var en kendt størrelse, ville teststørrelsen også være normalfordelt I I stedet estimerer vi spredningen, og denne ekstra usikkerhed må vi bøde for ved at bruge (den noget bredere) t-fordeling 58 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Parret t-test i SAS: proc ttest data=mf_sv; paired mf*sv; run; giver outputtet The TTEST Procedure Difference: mf - sv N 21 Mean 0.2381 Mean 0.2381 DF 20 59 / 84 Std Dev 6.9635 95% CL Mean -2.9317 3.4078 t Value 0.16 Pr > |t| 0.8771 Std Err 1.5196 Std Dev 6.9635 Minimum -13.0000 Maximum 10.0000 95% CL Std Dev 5.3275 10.0558 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Alternative veje til et parret t-test I Test af middelværdi 0 for differenser: proc ttest data=mf_sv; var dif; run; giver samme output som på forrige side I Direkte, vha. proc means; proc means N mean std stderr t probt; var dif; run; Variable N Mean Std Dev Std Error t Value Pr > |t| -----------------------------------------------------------------dif 21 0.2380952 6.9635103 1.5195625 0.16 0.8771 ------------------------------------------------------------------ 60 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s P-værdi = halesandsynlighed P-værdien defineres som sandsynlighed for “dette eller værre”, altså endnu større diskrepans end den observerede, under nulhypotesen (dvs. hvis nulhypotesen er sand). Hvis der kun er en ganske lille sandsynlighed for at få noget, der er værre end det vi har, så må det være ret slemt, og vi må forkaste. Her finder vi P = 0.88, Og hvad så?? 61 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Signifikans Hvis P-værdien er under 0.05, siger man at testet er signifikant på 5% niveau. Man forkaster hypotesen. Signifikansniveauet α vælges sædvanligvis til 5% (α = 0.05), men der er tale om et arbitrært valg. Man bør derfor angive selve P-værdien, og allervigtigst: Angiv estimat med konfidensinterval! Her blev det udregnet til (-2.93, 3.41), – så vi kunne med det samme have set, at 0 var en rimelig værdi for middelværdien Men var det alt, hvad vi gerne ville vide? 62 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Test vs. konfidensintervaller Der er ækvivalens, i den forstand, at: I Hvis sikkerhedsintervallet indeholder 0, er testet ikke signifikant I Hvis sikkerhedsintervallet ikke indeholder 0, er testet signifikant 63 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Limits-of-agreement Hvor store afvigelser vil man typisk se mellem de to metoder for individuelle personer Limits of agreement er en speciel betegnelse for normalområdet for differenser, dvs. D̄ ± ’ca. 2’ × SD = 0.24 ± 2 × 6.96 = (−13.68, 14.16) Disse grænser er vigtige for at afgøre om to målemetoder kan erstatte hinanden. Det er nemlig ikke nok, at der ikke er nogen systematisk forskel!! Og her er normalfordelingen vigtig! 64 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Repetition: De to slags spredninger Standard error of the mean SD(x) SEM = SD(x̄) = √ n (eller mere generelt blot standard error) SD bruges til beskrivelser SEM bruges til sammenligninger 65 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s SD til beskrivelser Variable Alder Immunoglobulin Antal Gennemsnit X̄ Spredning SD 100 100 45 0.80 10 0.47 Her tænker man: I Patienterne er nok ca. 25-65 år I og har immunoglobulinværdier på ca. .... UPS: De kan være negative!! så der burde være transformeret! Her er normalfordelingen vigtig! fordi vi udtaler os om enkeltobservationer 66 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s SEM til sammenligninger Variable Alder Immunoglobulin Gruppe 1 (n=35) Gennemsnit X̄1 SEM1 43 0.63 1.7 0.08 Gruppe 2 (n=65) Gennemsnit X̄2 SEM2 46 0.89 1.2 0.06 Her tænker man: I De to grupper ser ens ud rent aldersmæssigt I men har måske nok forskellige niveauer af immunoglobulin Her er normalfordelingen ikke så vigtig, fordi det er gennemsnit, vi udtaler os om 67 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Central grænseværdisætning Fordelingen af et gennemsnit er pænere end fordelingen af de individuelle observationer (mere normalfordelt) Jo flere observationer, der indgår i gennemsnittet I des mere normalfordelt ser det ud I des mindre spredning har dets fordeling, dvs. jo mere præcist fanger vi den sande middelværdi Vi kan “simulere” denne situation ved at I “udtage med tilbagelægning” f.eks. 16 observationer I udregne gennemsnittet et stort antal gange, og tegne histogram: 68 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Gennemsnit af flere og flere - immunoglobulin 69 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Nonparametriske test Test, der ikke bygger på en normalfordelingsantagelse – Ikke forudsætningsfri Ulemper I tab af efficiens (sædvanligvis lille) I uklar problemformulering - manglende model, og dermed ingen fortolkelige parametre I ofte ingen estimater! – og ingen sikkerhedsintervaller I kan kun anvendes i simple problemstillinger – med mindre man har godt med computerkraft 70 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Nonparametrisk one-sample test af middelværdi 0 (parret two-sample test) I Sign test, fortegnstest I I I I udnytter kun observationernes fortegn, ikke deres størrelse ikke særligt stærkt invariant ved transformation Wilcoxon signed rank test I I I I udnytter observationernes fortegn, kombineret med rangordenen af de numeriske værdier stærkere end sign-testet kræver at man kan tale om ’store’ og ’små’ forskelle kan påvirkes af transformation Og det giver hverken estimat, konfidensinterval eller limits of agreement... 71 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Nonparametriske parrede tests i SAS Disse kan kun foretages på de udregnede differenser! proc univariate data=mf_sv; var dif; run; Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student’s t Sign Signed Rank t M S Pr > |t| Pr >= |M| Pr >= |S| 0.156687 2.5 8 0.8771 0.3593 0.7603 Forskellige programmer benytter lidt forskellige teststørrelser! (approksimation for n > 25) 72 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s APPENDIX med programbidder svarende til diverse slides I Indlæsning af vitamin D datasæt, s. 74-76 I Tegninger vedrørende vitamin D, s. 77-78 I Udregning af 2 21 % og 97 12 % fraktil, s. 79-80 I Indlæsning af MF-SV data, s. 81 I Tegninger vedrørende MF-SV, s. 82-84 73 / 84 university of copenhagen SAS-kode til indlæsning Slide 6 FILENAME vitamind "VitaminD.csv"; PROC FORMAT; VALUE categoryf 1 = "Girl" 2 = "Woman"; VALUE sunf 1 = "Avoid sun" 2 = "Sometimes in sun" 3 = "Prefer sun"; VALUE countryf 1 = "Denmark" 2 = "Finland" 4 = "Ireland" 6 = "Poland"; RUN; 74 / 84 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s SAS-kode til indlæsning, II DATA vitamind; INFILE vitamind DLM=’;’ FIRSTOBS=2; INPUT country category vitd age bmi sunexp vitdintake; FORMAT category categoryf. ; FORMAT country countryf. ; FORMAT sunexp sunf. ; RUN; DATA irlwomen; SET vitamind; WHERE country=4 and category=2; proc print data=irlwomen; run; 75 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Det oprindelige datasæt De første 5 linier (4 observationer): country;category;vitd;age;bmi;sunexp;vitdintake 1;1;22.400;11.888;19.254;2;7.188 1;1;37.000;12.441;17.567;3;1.186 1;1;12.900;13.025;17.700;3;1.480 1;1;13.600;13.501;16.953;3;1.612 I Sværere indlæsning end normalt pga format-sætninger. I Datasættet vitamind.txt ligger på hjemmesiden 76 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s SAS-kodning af histogram og Box-plot Slides 9 og 11 proc sgplot data=irlwomen; histogram vitd; density vitd; run; proc sgplot data=women; vbox vitd / category=country; run; eller med “almindelig kodning”: proc univariate normal data=irlwomen; var vitd; histogram / cfill=yellow height=3 normal; run; proc boxplot data=women; plot vitd*country / boxstyle=schematic cboxfill=yellow height=4; run; 77 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s SAS-kodning af Scatter plot med linier Slide 12 proc sgplot data=women; reg X=bmi Y=vitd / group=country; run; eller med “normal” kodning: proc gplot normal data=women; plot vitd*bmi=country / haxis=axis1 vaxis=axis2 frame; axis1 value=(H=2) minor=NONE label=(H=3); axis2 value=(H=2) minor=NONE label=(A=90 R=0 H=3); symbol1 v=circle i=sm99s c=BLACK h=2 l=1 w=2; symbol2 v=star i=sm99s c=blue h=2 l=1 w=2; symbol3 v=triangle i=sm99s c=red h=2 l=1 w=2; symbol4 v=dot i=sm99s c=green h=2 l=1 w=2; run; 78 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Udregning af specielle fraktiler Slide 19 proc univariate data=irlwomen; var vitd; output out=regn pctlpre=P_ pctlpts=2.5,97.5; run; proc print data=regn; run; 79 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Output fra Proc Univariate Quantiles (Definition 5) Quantile 100% Max 99% 95% 90% 75% Q3 50% Median 25% Q1 10% 5% 1% 0% Min 80 / 84 Estimate 110.4 110.4 75.7 72.0 62.7 44.8 34.4 24.5 18.5 17.0 17.0 Den ekstra Output-sætning giver: Obs P_2_5 P_97_5 1 18 89.1 Disse er specielt interessante i forbindelse med konstruktion af Reference områder university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Datafilen vedr. MF og SV Slide 35 Data-filen ’mf_sv.txt’, (f.eks. beliggende i mappen C:\Basalstatistik\,) er en tekstfil med 2 kolonner a 21 linier, en for hver person, med variabelnavne i første linie. Vi indlæser og definerer derefter to nye variable: data mf_sv; infile ’C:\Basalstatistik\mf_sv.txt’ firstobs=2; input mf sv; /* definition af nye variable */ dif=mf-sv; average=(mf+sv)/2; run; 81 / 84 university of copenhagen Scatter plot og Bland-Altman plot Slides 35 og 39 /* Scatter plot */ proc sgplot data=mf_sv; scatter X=sv Y=mf; run; /* Bland-Altman plot */ proc sgplot data=mf_sv; scatter X=average Y=dif; run; 82 / 84 d e pa rt m e n t o f b i o s tat i s t i c s university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Box-plot og Spaghetti-plot Slide 36 data lang; set mf_sv; flow=mf; flow=sv; run; metode=’mf’; metode=’sv’; output; output; /* Forkert Boxplot */ proc sgplot data=lang; vbox flow / category=metode; run; /* Korrekt Spaghetti-plot */ proc sgplot data=lang; series X=metode Y=flow / group=person; run; 83 / 84 university of copenhagen d e pa rt m e n t o f b i o s tat i s t i c s Fraktildiagram Slide 44 proc univariate normal data=mf_sv; var dif; probplot / height=3 normal(mu=EST sigma=EST l=33); run; 84 / 84
© Copyright 2024