Hvordan får man data og modell til å passe sammen? Faget statistikk • Ikke tørre tall, men essensen i dem. • Modell vs data – tilpasning av interesse-parametre Eks på parametre: gjennomsnittelig årsnedbør, en vannføringsseries forklaringsverdi på en annen slik serie, magasinering som funksjon av nedbørsareal. Parametre er i utgangspunktet ukjent, men dataene gi oss et estimat samt en antydning om hvor usikre disse estimatene er. • Modellvalg – gir svar på spørsmål Eks: Er årsnedbøren lik i to nabofelt? Kan vi si noe som helt om en vannføringsserie på bakgrunn i en annen? Svarene er ikke absolutte, men gis med en viss sikkerhet. Datausikkerhet Perfekte målinger + perfekte modeller = Null usikkerhet verken angående parameter-verdier eller modellvalg. Usikkerhets-kilder: Reelle målinger er beheftet med usikkerhet. Modellene kan ikke ta alt med i betraktningen. Umålte ”confounders” (lokal topografi og jordsmonn i en hydrologisk modell, for eksempel.) Begge delere håndteres ved å se på måten målingene sprer seg på, i.e. sannsynlighetsfordelingen. Skal man lage fornuftige modeller, må man ha et forhold til på forhånd usikre data. Man må altså ha et forhold til sannsynlighet. Desto mer man kan om sannsynlighets-fordelinger, desto bedre gjør man sin modellering. Modellusikkerhet Datausikkerhet => Flere modeller eller parameterverdier er i stand til å produsere det samme datasettet, bare med ulike sannsynligheter. Får dermed usikkerhet i hvilken modell som er best (modellusikkerhet) og hvilken parameter som er best gitt modellen. Håndtering av modellusikkerhet: I. Usikkerhet i parameterverdier og modellvalg kan håndteres likt som data: ved sannsynlighetsfordelinger. Bayesiansk statistikk. II. Parameterverdier og modeller kan håndteres som fikserte men ukjente – Frekventistisk statistikk (klassisk). Statistisk inferens I realiteten kan det være usikkerhet om hvilken fordeling (modell) som passer til å beskrive hvordan dataene har blitt produsert. Gitt modellen, vil likevel parameterverdiene være ukjent. Naturen vil ikke bare dumpe dette i hendene våre. Statistisk inferens dreier seg om å bruke data til å si noe om: Estimering av parameterverdier i en modell ii. Usikkerheten til parameterverdiene iii. Modellvalg iv. Usikkerhet rundt modellvalget v. Andre typer avgjørelser som tas på bakgrunn av modellog parameter-usikkerhet. (Risikoanalyse) i. Statistisk skoler- Frekventistisk Klassisk/frekventistisk: Kun data tilordnes en sannsynlighetsfordeling. Ofte basert på likelihood, f(D|θ). D=data, θ=parametersett. Fokus på estimering ved kun å bruke data og modell. Modellvalg og usikkerhetsanslag fra sannsynligheten for å reprodusere noe som ligner på de data man fikk. Mens parameterne selv ikke kan ha sannsynlighetsfordeling, kan man tilordne en til estimatorer. En estimator er en metode for å lage et parameter-estimat fra data. Før data kommer, vil dermed en estimator ha en sannsynlighetsfordeling. Frekventistisk statistikk: Moment-estimering Som nevnt, kan en stokastisk variabels forventingsverdi estimeres via gjennomsnittet og variansen kan estimeres via observert kvadratavvik (datamomenter). Hvis fordelingsfunksjonen til en stokastisk variabel har en spesifikk parametrisk form, er momentene en funksjon av parameterverdiene. En kan derfor estimere parametrene ved å sette de teoretiske momentene lik datamomentene. Eks: For normalfordelingen, sett µ=gjennomsnitt og σ2=kvadratavviket til data. For lognormalfordelingen, sett µ=gjennomsnittet av logaritmiske verdier og σ2=kvadratavvik for logaritmiske verdier, tilsvarende. For GEV-fordelingen, som har tre parametre, trenges ett moment til (skjevhet). Anvendbar mest når man har uavhengige identisk fordelte variable. Ingen standardmetoder for å få usikkerheten til estimatene. PS: For enkelte fordelinger kan det være ganske kompliserte sammenhenger mellom parametre og momenter. PSS: I hydrologisk forbindelse er det gjerne kultur for å bruke noe som heter L-momenter i stedet. De skal gi bedre estimering, men er definert og estimeres noe mer komplisert enn vanlige momenter. Frekventistisk statistikk: Max likelihood (ML)-estimering Poenget med ML-estimering er å finne de parameterverdiene som gjør data mest mulig sannsynlige. Likelihood er sannsynlighetstettheten for data gitt parameterverdiene, sett på som en funksjon av parameterne. L(θ)=f(D|θ). ML-estimering er altså å finne θ slik at L(θ) får sin maksimale verdi. Siden log() er en monotont økende funksjon, vil optimering over L(θ) og l(θ)=log(L(θ)) gi samme resultater. Dette kan være hensiktsmessig, siden uttrykkene kan være enklere etter en log-transformasjon. Frekventistisk statistikk: MLoptimering for normalfordelingen Skal her gjøre en ML-optimering for normalfordelingen som et eksempel på dette. Anta vi har et datasett (X1,..,Xn), slik at Xi~N(µ,σ) uavhengig. Skal estimere µ og σ. n l ( µ , σ ) = log( f ( D | µ , σ )) = log(∏ i =1 ( xi − µ ) 2 1 1 n π σ exp − ) log( 2 ) log( ) n = − − − 2σ 2 2 2σ 2 2π σ n ∑ (x − µ) i =1 i For at et sett estimat av µ og σ skal optimere l(µ,σ), må begge deriverte være null: 1 ∂l = 2 ∂µ σ n ∑ ( xi − µ ) = i =1 nx − nµ σ2 n 1 n ∂l = − + 3 ∑ ( x − µ )2 = 0 σ σ i =1 ∂σ = n σ2 (x − µ) = 0 ⇒ µˆ = x 1 n ( x − µˆ ) 2 ⇒ σˆ = ∑ n i =1 Ganske så likt med moment-estimering! 2 Frekventistisk statistikk: MLoptimering når ting blir vanskelige Ikke alle modeller gir en likelihood som lar seg analytisk optimere. Da blir man avhengig av å kjøre en numerisk optimering. Her finnes det mye rart, men det meste kan deles i to kategorier: 1. Hill-climbing/lokal klatring: Disse metodene starter i et punkt i parameter-rommet og bruker den lokale ”topografien” til likelihoodfunksjonen til å finne den nærmeste toppen. Eksempel: Newton’s algoritme, Nelder-Mead. 2. Globale metoder: Disse er mye mer sofistikerte/kompliserte. De trenger lang kjøringstid og ofte mye finjustering. Eksempel: simulated annealing, genetiske algoritmer. Frekventistisk statistikk: Parameter-usikkerhet Et estimat er ikke sannheten. Det kan være mange mulige parameter-verdier som er tilnærmet like rimelige, gitt de dataene du har. Frekventistisk statistikk opererer med konfidens-intervaller. Et 95% konfidensinterval er en lagd fra en metode for å lage intervaller som før data har 95% sannsynlighet for å omslutte den riktige parameterverdien. (Et Bayesiansk troverdighetsintervall har 95% sannsynlighet for å omslutte riktig parameterverdi, gitt data). Konfidensintervaller dannes gjerne ved å se på fordelingen til estimatorene. Frekventistisk statistikk: Parameter-usikkerhet - teknikker • Eksakte teknikker. Dette får man til når man eksakt kan regne ut fordelingen til estimatorene. Eks. 95% konfidensintervall for normalfordelingen fås som ( x − t n −1 (0.975) s / • • n , x + t n −1 (0.975) s / n) der s er roten av estimert kvadratavvik og tn-1 er den såkalte t-fordelingen med n-1 frihetsgrader. Asymptotisk teori. Når antall data går mot uendelig, gjelder følgende for ML-estimat: 2 ∂ l (θ ) 1 er Fisher' s informasjonsmatrise. θˆ ~ N(θ , I(θ ) ) der I (θ ) = − E 2 ∂θ Dermed vil (θˆ − 1.96 I −1 (θˆ) ,θˆ + 1.96 I −1 (θˆ) ) være et 95% konfidensintervall. Bootstrap. Her forsøker man å gjenskape fordelingen man har trukket fra, enten ved å trekke data på ny med tilbaketrekning eller ved å bruke parametriske anslag og trekke fra modellen. Man ser på spredningen av nye parameter-estimater. Frekventistisk statistikk: Modell-testing Iblant er vi ikke sikre på hvilken modell vi skal bruke. Hvis det er snakk om vi trenger en spesifikk parameter eller ikke, kjører vi modelltesting. Klassisk hypotesetesting foregår ved: 1. 2. 3. 4. 5. Formuler en null-hypotese og en alternativ hypotese. Sett en smerteterskel for sannsynlig det skal være å forkaste en ok nullhypotese. Typisk blir dette satt til 5%, som jeg skal anta her. Fokuser på en funksjon av data, test-statistikken, som typisk en estimator eller likelihood’en. Finn et uttrykk for sannsynlighetstettheten til denne. Ved å sammenligne null-hypotese og alternativ hypotese, får man et innblikk i hva som er ekstreme test-statistikk verdier. Finn fra fordelingen til test-statistikken intervallet av de 5% mest ekstreme verdiene. Hvis den faktiske test-statistikken er i det intervallet, forkastes nullhypotesen med 95% konfidens. (Generelt:100%-signifikansnivå). Det er et en-til-en-forhold mellom at konfidensintervallet til en parameter ikke omslutter verdi vi er ute etter, og at null-hypotesen definert ut i fra at parameteren antar den verdien forkastes. Frekventistisk statistikk: Modell-testing (2) P-verdi: Sannsynligheten for å få en like ekstrem verdi som den vi fikk (der den alternative hypotesen bestemmer hva som er ekstremt å få under nullhypotesen), gitt at nullhypotesen (den spesifikke parameterverdien) stemmer. P-verdier kan bruke trinnløst til å angi hvor sterk/svak nullhypotesen er. Hvis p-verdi<signifikansnivå, forkaster vi en null-hypotese. 100%-(pverdien) angir altså den maksimale konfidensen vi kan forkaste en hypotese med. Test-styrke: Angir sannsynligheten for å forkaste en null-hypotese for ulike varianter av den alternative hypotesen, typisk for andre parameter-verdier enn det null-hypotesen angir. Dette er en funksjon av parameter-verdien. Typisk er man ute etter de testene som har størst test-styrke. Frekventistisk statistikk: Modell-testing (3) Eks på test: t-testen. Sjekker om to datasett som antas være normalfordelt med samme (ukjente) varians har den samme forventningen. Kan i praksis gjøres ved å se om 95% konfidensintervall for forskjellen i forventning omslutter null. ( x − t n −1 (0.975) s / n , x + t n −1 (0.975) s / n ) Generell metodikk: 2 • Likelihood-ratio-testen. Under en nullhypotese er 2(l A − l0 ) ~ χ k der k er forskjellen i antall parametre og lA og l0 er max likelihood for alternativ hypotese og null-hypotese, henholdsvis. (Gjelder kun asymptotisk, når antall uavhengige data går mot uendelig.) 2 ∂ l (θ ) ˆ ~ N( , I( ) ) der ( ) er Fisher' s informasjonsmatrise. θ θ θ I θ = − E Score-test. Bruker ∂θ 2 -1 • til å sjekke om et parameter-estimat er langt nok unna en spesifikk verdi til at −1 denne verdien kan forkastes. (Se om konfidensintervallet som går fra θˆ − 1.96 I (θˆ) til θˆ + 1.96 I −1 (θˆ) omslutter verdien du vil teste. Frekventistisk statistikk: Modell-testing (4) Et alternativ til vanlig klassisk hypotesetesting, typisk brukt når vi ikke har såkalte ”nøstede” modeller, er informasjonskriterer (AIC,BIC), der − 2l (θˆML ) + straffeledd (k ) (der k=antall parametre) blir minimert. Har man masse data, kan man også dele de inn i trenings-data, validerings-data og evaluerings-data. Parametertilpasning på de ulike modeller kjøres på treningsdata. Den beste modellen velges så ved likelihood eller kvadratavvik på test-data. Til slutt kjører man en evaluering av den beste modellen på evaluerings-data. Kryssvalidering: Man utelater en eller flere datapunkt av gangen, bruker disse som valideringssett og resten som treningssett. I stedet for å velge nå gjør man det masse ganger (slik at alle data etter hvert har fungert som valideringssett) og bruker midlere likelihood/kvadratavvik til å evaluere modellene. Når modell krasjer med virkeligheten Ønsker å lage konfidensintervall for gjennomsnittelig mammut-masse Datasett: x=(5000kg,6000kg,11000kg) Modell 1: xi~N(µ,σ2) i.i.d. Tillater mammuter å ha negativ masse! Resulterer i 95% konfidens-intervall, C(µ)=(-650kg,15300kg) inneholder verdier som bare ikke kan stemme. Modell 2: log(xi) ~ N(µ,σ2) u.i.f. (xi ~ logN(µ,σ2) ) Kun positive målinger for forventninger tillatt, E(xi)=exp(µ+σ2/2). Resulterer i 95% bootstrappet konfidens-intervall: (2500kg,10400kg). Enda bedre hvis vi kan legge til førkunnskap. ( Å få et forventningsrett estimat er dog vanskeligere . Hvis kun dette er ønsket, kan modell 1 være bedre.) Når modell+metodikk krasjer med virkeligheten Ønsker å finne sammenhengen mellom vannstand (h) og vannføring (Q). Antar formen: C h Q=C(h-h0)b h0 er bunnvannstanden, b har å gjøre med formen på elveprofilen og C har å gjøre med bredden på elva. Tilpasser med et sett vannføringsmålinger (dette er regresjon, mer om det senere). Q b h0 Datum, h=0 Med likelihoods-tilpasning gir enkelte Hva som utgjør rimelige og urimelige målesett uendelige parametre! Tilpasningen blir bra, men med komplett parameter-verdier, er ikke noe frekventistisk metodikk i utgangspunket tar høyde for. urimelige parameter-verdier. Statistisk skoler- Bayesiansk Bayesiansk statistikk: Her oppsummerer man alt man vet om parametrene via en fordeling (siden de er usikre). Først angir man en såkalt a’ priorifordeling som beskriver førkunnskap om parameterverdiene, θ, og evt. også modellene, M. Dette oppdateres så med data, D, via Bayes formel: f ( D | θ , M ) f (θ | M ) for parameter - inferens gitt modell f (θ | D, M ) = Førkunnskap f (D | M ) f (D | M) Pr(M) Likelihood Pr(M | D) = for modell - inferens f (D) Uformell versjon av Bayes formel: posterior=prior*likelihood/marginal Fra førkunnskap + data får man en såkalt a’posteriori-fordeling for parameterne gitt modell. Dette oppsummerer all kunnskap man har om parameterne etter å ha håndtert data. All inferens gjøres altså med sannsynlighetsberegninger. Bayesiansk statistikk – paralleller og forskjeller Parallelt/ligner • Troverdighetsintervall: Et 95% • troverdighetsintervall til en parameter er • et intervall som omslutter 95% av sannsynlighetsfordeligen til • parameteren, gitt den informasjonen du har. • • Modelltesting: Kan beregne sannsynligheten for en modell gitt data, • tilsvarende som man regner ut sannsynlighetstettheten til en parameter gitt data. • • Estimasjon: Man kan estimere parametre. Men dette gjøres etter at a’ posteriori-fordelingen er beregnet. Typisk tar man gjennomsnitt, median eller modus over fordelingen. Forskjellig Fordeling på selve parametrene. Man trenger en førkunnskap, en fordeling over parametrene før data: f(θ). All informasjon etter data ligger i a’ posteriori-fordelingen, f(θ|D). All oppdatering skjer via likelihood (ingen inferens gjort på counter-factuals). Det er mulig å skaffe evidens for enklere modeller. Man kan altså gradvis føle seg tryggere på en null-hypotese. Har vi håndtert ett datasett, bruker vi det som førkunnskap hvis vi skal håndtere ett til. Førkunnskap – a’ priori-fordeling A’ priori-fordelingen skal oppsummere den kunnskapen vi har om modellen(e) før data. Man velger gjerne fordelingsfamilie først, gjerne ut ifra egenskapene til parameterne (kan de ta verdier over hele tallinjen, er de strengt positive eller i intervallet 0-1?) samt matematiske behagelighetshensyn. Tviler man på utfallet av slike valg, bør man prøve flere (robusthetsanalyse). Man tilpasser så dette til mer konkret førkunnskap, som for eksempel ”i hvilket intervall ville jeg ikke bli overrasket over å finne parameteren” for deretter å justere et (f.eks) 95% troverdighetsintervall i forhold til dette. Vanlig feil: Se på de data man skal analysere for å si noe om a’ priori- fordelingen. Da går man i sirkler, og får helt urimelige anslag på usikkerhet og modellvalg. Førkunnskap – a’ priori-fordeling (2) I utgangspunktet rent subjektivt, men kan gjøres mer godtabart for andre ved: a. Inkorporere fagkunnskap som et fagfelt har blitt enig om (intersubjektivitet) b. Se hva slags variasjoner som ligger i naturen. For eksempel for hydrologiske stasjoner, hva er typiske variasjoner i vannføringskurve-parametre? Kan tenke på dette som ”naturens a’ priori-fordeling”. c. Bruke såkalt ikke-informative a’ priori-fordelinger. NB: Disse er ofte ikke propre fordelinger. F.eks. finnes det ingen ekte sannsynlighetsfordeling som trekker med lik sannsynlighet over hele tallinjen. Likevel kan ikke-propre fordelinger ofte resultere i propre a’ posteriori-fordelinger. PS: Ikke bruk slike i modellsammenligning! Bayesiansk statistikk – fordelinger f ( D | θ ) f (θ ) f (θ | D) = f ( D) Man starter analysen med to ting: 1. En modell som sier hvordan data produseres, og som omhandler parametre man er interessert i. Dette er likelihood’en: f(D|θ). 2. En a’ priorifordeling, f(θ). Oppsummerer vår førkunnskap om parametrene. Fra dette får man følgende fordelinger av interesse: • A’ posteriori-fordeling: f(θ|D). Dette oppsummerer alt vi vet om parametrene etter at vi har håndtert våre data. • Fordelingen til avledede størrelser: h(θ ) ~ f ( h(θ ) | D ) = f ( h(θ ) | θ ) f (θ | D ) dθ Eks: vannføring på en gitt vannstand når Q=C(h-h0)b • Marginal-fordelingen: f(D). Dette gir sannsynligheten (likelihood’en) til data gitt kun modellen (likelihood og prior). Kan brukes til å sammenligne modeller. Matematisk: f ( D) = ∫ f ( D | θ ) f (θ )dθ ∫ Prediksjonsfordeling, f(Dnew|D), sannsynligheten for å få nye data gitt de gamle (Dette er et eksempel på fordelingen til en avledet størrelse). Tar altså hensyn til usikkerheten i parametrene etter data-håndtering. Marginal-fordelingen er altså prediksjonsfordelingen til data, kun gitt førkunnskap. PS: A’ posteriorifordelingen vil være a’ priorifordeling når vi skal håndtere nye data. Prediksjonsfordelingen vil være den nye marginalfordelingen. • Bayesiansk statistikk – ukjent forventing på normalfordelte data med kjent standardavvik 2 2 1. Likelihood: f ( x | µ , σ ) ~ N ( µ , σ / n) Førkunnskap: µ~N(µ0=0, τ=3) (All informasjon om µ ligger i gjennomsnittet i dette tilfellet). 2. A’ priorifordeling, velger: f ( µ ) ~ N ( µ 0 ,τ 2 ) • A’ posteriori-fordeling: x τ 2 + µ 0σ 2 / n τ 2σ 2 / n ≡ , 2 f ( µ | x ) ~ N 2 2 2 τ +σ / n τ +σ / n N ( µ ( x ),τ 2 ( x )) Etter-kunnskap: µ~N(µ(x)=2.15, τ(x)=0.44) For n=5, x=2.2, σ=1 Bayesiansk statistikk – ukjent forventing på normalfordelte data med kjent standardavvik 2 2 1. Likelihood: f ( x | µ , σ ) ~ N ( µ , σ / n) (All informasjon fra data ligger i gjennomsnittet i dette tilfellet). 2. A’ priorifordeling, velger: Egentlig samplingsfordeling for gjennomsnitt (ukjent for oss), µ=2,σ=1,n=5 f ( µ ) ~ N ( µ 0 ,τ 2 ) • Marginal-fordelingen: Marginalfordelig til gjennomsnitt for oss. • Prediksjonsfordeling: Prediksjonsfordeling, n=m=5, x=2.2, σ=1 f ( x ) ~ N ( µ 0 ,τ 2 + σ 2 / n) f ( xnew | x ) ~ N ( µ ( x ),τ 2 ( x ) + σ 2 / m) (Bayesianske) hierarkiske modeller Av og til kan det være flere nivåer i en modell enn bare parameter->data . Eks: Regionale likheter. Ekstremverdiene for stasjonene i et område kan ha mye til felles, siden de er utsatt for de samme værfenomenene. Ofte blir dette håndtert ved å la en parameter være felles for alle stasjoner, mens resten er globale. Alternativet er å la alle parametre være lokale. Men det finnes en mellomløsning: Globale parametre som angir fordelingen av regionale parametre Region: 1 2 Regionale parametre som angir spredningen i lokale ekstremverdifordelings -parametre i region 1 Regionale parametre som angir spredningen i lokale ekstremverdifordelings -parametre i region 2 Lokale (1,1) ekstremverdi -parametre Lokale (1,2) ekstremverdi -parametre Lokale (2,1) ekstremverdi -parametre ….. Lokale (2,2) ekstremverdi -parametre K Regionale parametre som angir spredningen i lokale ekstremverdifordelings -parametre i region K Lokale (K,1) ekstremverdi -parametre Lokale (K,2) ekstremverdi -parametre (Bayesianske) hierarkiske modeller (2) Fordeler: Hver stasjon og hver region låner styrke fra hverandre. Variasjonen i ekstremverdiparametre for stasjon 1, …., n-1 i en region sier noe om hva vi kan forvente av stasjon n. variasjonen i regionalparametre for region 1, …, K-1 forteller noe om hva vi kan forvente i region K. Ulempe: Det finnes sjeldent ferdigløsninger. Man er nesten nødt til å foreta analysen Bayesiansk, siden mellomnivåene har en fordeling og dermed må håndteres Bayesiansk uansett. Unntak: Såkalte mixture models i GLM Bayesiansk statistikk – når parameter-inferens blir vanskelig (MCMC) Minner om Bayes formel (når vi ser på kun en modell): f ( D | θ ) f (θ ) Marginalfordelingen: f ( D) = ∫ f ( D | θ ) f (θ )dθ f (θ | D) = f ( D) Denne rakkeren kan være problematisk. Ikke alle integral har analytisk løsning. Men, det finnes måter å sample (trekke) fra en fordeling, uten å kjenne til konstantene (normaliseringen) i fordelingen, kun hvordan fordelingen avhenger av det den er en fordeling av. f(D) er i dette tilfelle den ukjente normaliseringskonstanten. En Markov-kjede er en tidsserie der verdien ”nå” avhenger (kun) av forrige verdi. Enkelte tidsserier stabiliserer seg slik at de har en fordeling som ikke forandrer seg over tid, den såkalte stasjonærfordelingen. Det er mulig å lage en tidsserie som er slik at den stasjonære fordelingen er lik den fordelingen du er ute etter selv om du ikke har normaliseringskonstanten. Dette kalles MCMC (Markov chain Monte Carlo). WinBUGS er et system som muliggjør automatisk MCMC-sampling gitt modell, a’ prior-fordeling og data. (Alt: Egen MCMC-modul i R). Bayesiansk statistikk – mer MCMC Generelt går en MCMC rutine slik: 1. Lag et startforslag for parameterne, θgammel. 2. Finn en måte (en forslagsfordeling*) å trekke ny parameterverdi gitt gammel og bruk den: θny~g(θny| θgammel) f (θ ny | D) g (θ ny | θ gammel ) / 3. Aksepter ny trekning med sannsynlighet f (θ gammel | D) g (θ gammel | θ ny ) og bruk gammel trekning hvis ikke. Merk: Normaliseringer 4. Gå tilbake til 2 så mange ganger du vil. bortfaller spacing Burn-in * Forslagsfordelingen bestemmer hvor effektiv algoritmen er. Viktige begreper: Burn-in: antall trekninger før tidsserien nærmer seg stasjonær fordeling Spacing: antall trekninger mellom hver du kan beholde som ca. uavhengig trekning. Har her fått ca 5 uavhengige trekninger Bayesiansk statistikk – modellsammenligning Teknisk sett gjør vi modellsammenligning med Bayes formel: Pr(M | D) = f (D | M) Pr(M) f (D) Drivkraften her er marginalfordelingene til data, f(D|M). Sammenligner vi de, kan vi se om vi får evidens for den ene eller andre modellen. Eks: Eksperiment på ekstrasensoriske sanser gav 18 av 30 korrekte utfall på enten-eller-spørsmål hos en forsøksperson. Er det noe i det? Bruker binomialfordeling med enten kjent, p=0.5 (nei), eller ukjent (ja) uniformt fordelt suksessrate. Kan vise at marginalfordelingen med uniformt fordelt suksessrate gir lik sannsynlighet for alle utfall. Ser fra plottet at utfall mellom 11 og 19 er evidens for p=0.5, mens andre utfall er evidens mot. 18 riktige er mer sannsynlig på tilfeldig gjetting enn hvis det er ekstrasensoriske sanser i spill. Marginalfordeling for p=0.5 (rød ) og p ukjent (blå) Bayesiansk estimering – en advarsel Tar man forventnings- eller median-estimat, kan man regne med at verdien man får er representativ for a’ posteriori-verdien til hver parameter, men ikke nødvendigvis at kombinasjonen er representativ. Urepresentative parameter-kombinasjoner kan gjøre en mye dårligere jobb med å beskrive data enn en god en. Har sett eksempel på dette i multi-segment vannføringskurve-tilpasning, som i slike tilfeller underestimerte vannføringen konsekvent. Beste løsning; estimer direkte det du skal fra a’ posteriori-fordelingen, i stedet for å gå via parameter-estimat. Nest beste løsning: Bruk modus. NB: Betyr optimering! Forventning Modus Parameter 1 Bayesiansk modell-gjennomsnitt Man kan lage prediksjons-fordelinger kun betinget på modell, ikke modellparametre, ved å ta hensyn til usikkerheten i disse: f ( Dny | D, M ) = ∫ f ( Dny | θ , M ) f (θ | D, M )dθ (Fra loven om total sannsynlighet) Tilsvarende kan man finne prediksjons-fordelingen *ubetinget* på modell: f ( Dny | D) = ∑ f ( Dny | M ) Pr( M | D) Bayesiansk vs frekventistisk Bayesiansk statistikk Fordeler Ulemper Faglig kunnskap kan tas i bruk. Siden du må oppgi en førkunnskap, tvinges du til å lage meningsfulle modeller. Resultatene er ofte lett å forstå og henger sammen med dagligdags bruk av sannsynlighet. Svært kompliserte modeller kan bygges og analyseres. Du trenger ikke ta stilling til om noe er fundamentalt stokastisk eller ikke. Du får parameterusikkerhet ”gratis”. Du blir tvunget til å oppgi en førkunnskap. Ingen førkunnskap nødvendig, betyr en mer ”objektiv” metode. Frekventistisk statistikk Mange ferdigmetoder klare til å tas ibruk. Med andre ord en stor ”verktøykasse” som kan anvendes med en gang. Enklere beregninger betyr at det er enklere å komme i gang med bruken. Siden førkunnskapen gjerne har en subjektiv karakter, blir resultatet å anse som subjektivt også. Ofte ikke så mange ferdigmetoder tilgjengelig. Utregningen før du får resultater er oftere vanskelig. Vanskelig å benytte relevant faglig førkunnskap. Vanskelig å forstå hva resultatene faktisk betyr! Kompliserte modeller kan være nærmest umulig å analysere med frekventistiske metoder. Du må ta stilling til om noe er fundamentalt stokastisk eller ikke. Parameterusikkerhet er en separat oppgave du må gjøre etter estimering. Frekventistisk estimering kan inneholde ”bugs”, sett i vannføringskurve-estimering. Bayesiansk vs frekventistisk – det pragmatiske aspektet Når modellkompleksiteten er under en hvis terskel, er frekventistisk metodikk enklest. Over terskelen blir det enklere med Bayesiansk metodikk. Arbeid Frekventistisk Bayesiansk Kompleksitet
© Copyright 2024