null

Hvordan får man data og modell til å passe sammen?
Faget statistikk
• Ikke tørre tall, men essensen i dem.
• Modell vs data – tilpasning av interesse-parametre
 Eks på parametre: gjennomsnittelig årsnedbør, en
vannføringsseries forklaringsverdi på en annen slik
serie, magasinering som funksjon av nedbørsareal.
 Parametre er i utgangspunktet ukjent, men dataene gi
oss et estimat samt en antydning om hvor usikre disse
estimatene er.
• Modellvalg – gir svar på spørsmål
 Eks: Er årsnedbøren lik i to nabofelt? Kan vi si noe
som helt om en vannføringsserie på bakgrunn i en
annen?
 Svarene er ikke absolutte, men gis med en viss
sikkerhet.
Datausikkerhet
 Perfekte målinger + perfekte modeller = Null usikkerhet
verken angående parameter-verdier eller modellvalg.
Usikkerhets-kilder:
 Reelle målinger er beheftet med usikkerhet.
 Modellene kan ikke ta alt med i betraktningen. Umålte
”confounders” (lokal topografi og jordsmonn i en hydrologisk
modell, for eksempel.)
Begge delere håndteres ved å se på måten målingene sprer seg på,
i.e. sannsynlighetsfordelingen.
Skal man lage fornuftige modeller, må man ha et forhold til på
forhånd usikre data. Man må altså ha et forhold til sannsynlighet.
Desto mer man kan om sannsynlighets-fordelinger, desto bedre
gjør man sin modellering.
Modellusikkerhet
 Datausikkerhet => Flere modeller eller parameterverdier
er i stand til å produsere det samme datasettet, bare med
ulike sannsynligheter. Får dermed usikkerhet i hvilken
modell som er best (modellusikkerhet) og hvilken
parameter som er best gitt modellen.
Håndtering av modellusikkerhet:
I. Usikkerhet i parameterverdier og modellvalg kan
håndteres likt som data: ved sannsynlighetsfordelinger.
Bayesiansk statistikk.
II. Parameterverdier og modeller kan håndteres som
fikserte men ukjente – Frekventistisk statistikk
(klassisk).
Statistisk inferens
 I realiteten kan det være usikkerhet om hvilken fordeling
(modell) som passer til å beskrive hvordan dataene har blitt
produsert.
 Gitt modellen, vil likevel parameterverdiene være ukjent.
Naturen vil ikke bare dumpe dette i hendene våre.
 Statistisk inferens dreier seg om å bruke data til å si noe om:
Estimering av parameterverdier i en modell
ii. Usikkerheten til parameterverdiene
iii. Modellvalg
iv. Usikkerhet rundt modellvalget
v. Andre typer avgjørelser som tas på bakgrunn av modellog parameter-usikkerhet. (Risikoanalyse)
i.
Statistisk skoler- Frekventistisk
Klassisk/frekventistisk: Kun data tilordnes en sannsynlighetsfordeling. Ofte basert på likelihood, f(D|θ). D=data,
θ=parametersett. Fokus på estimering ved kun å bruke
data og modell. Modellvalg og usikkerhetsanslag fra
sannsynligheten for å reprodusere noe som ligner på de
data man fikk.
Mens parameterne selv ikke kan ha sannsynlighetsfordeling,
kan man tilordne en til estimatorer. En estimator er en
metode for å lage et parameter-estimat fra data. Før data
kommer, vil dermed en estimator ha en sannsynlighetsfordeling.
Frekventistisk statistikk:
Moment-estimering
Som nevnt, kan en stokastisk variabels forventingsverdi estimeres via
gjennomsnittet og variansen kan estimeres via observert kvadratavvik (datamomenter).
Hvis fordelingsfunksjonen til en stokastisk variabel har en spesifikk parametrisk
form, er momentene en funksjon av parameterverdiene. En kan derfor
estimere parametrene ved å sette de teoretiske momentene lik datamomentene.
Eks: For normalfordelingen, sett µ=gjennomsnitt og σ2=kvadratavviket til data.
For lognormalfordelingen, sett µ=gjennomsnittet av logaritmiske verdier og
σ2=kvadratavvik for logaritmiske verdier, tilsvarende.
For GEV-fordelingen, som har tre parametre, trenges ett moment til
(skjevhet).
Anvendbar mest når man har uavhengige identisk fordelte variable.
Ingen standardmetoder for å få usikkerheten til estimatene.
PS: For enkelte fordelinger kan det være ganske kompliserte sammenhenger mellom parametre og momenter.
PSS: I hydrologisk forbindelse er det gjerne kultur for å bruke noe som heter L-momenter i stedet. De skal gi
bedre estimering, men er definert og estimeres noe mer komplisert enn vanlige momenter.
Frekventistisk statistikk:
Max likelihood (ML)-estimering
Poenget med ML-estimering er å finne de parameterverdiene
som gjør data mest mulig sannsynlige.
Likelihood er sannsynlighetstettheten for data gitt
parameterverdiene, sett på som en funksjon av parameterne.
L(θ)=f(D|θ).
ML-estimering er altså å finne θ slik at L(θ) får sin maksimale
verdi.
Siden log() er en monotont økende funksjon, vil optimering
over L(θ) og l(θ)=log(L(θ)) gi samme resultater. Dette kan
være hensiktsmessig, siden uttrykkene kan være enklere
etter en log-transformasjon.
Frekventistisk statistikk: MLoptimering for normalfordelingen
Skal her gjøre en ML-optimering for normalfordelingen
som et eksempel på dette.
Anta vi har et datasett (X1,..,Xn), slik at Xi~N(µ,σ)
uavhengig. Skal estimere µ og σ.
n
l ( µ , σ ) = log( f ( D | µ , σ )) = log(∏
i =1
 ( xi − µ ) 2 
1
1
n

π
σ
exp −
)
log(
2
)
log(
)
n
=
−
−
−
2σ 2 
2
2σ 2
2π σ

n
∑ (x − µ)
i =1
i
For at et sett estimat av µ og σ skal optimere l(µ,σ),
må begge deriverte være null:
1
∂l
= 2
∂µ σ
n
∑ ( xi − µ ) =
i =1
nx − nµ
σ2
n 1 n
∂l
= − + 3 ∑ ( x − µ )2 = 0
σ σ i =1
∂σ
=
n
σ2
(x − µ) = 0
⇒ µˆ = x
1 n
( x − µˆ ) 2
⇒ σˆ =
∑
n i =1
Ganske så likt med
moment-estimering!
2
Frekventistisk statistikk: MLoptimering når ting blir vanskelige
Ikke alle modeller gir en likelihood som lar seg
analytisk optimere.
Da blir man avhengig av å kjøre en numerisk
optimering. Her finnes det mye rart, men det
meste kan deles i to kategorier:
1. Hill-climbing/lokal klatring: Disse metodene
starter i et punkt i parameter-rommet og
bruker den lokale ”topografien” til likelihoodfunksjonen til å finne den nærmeste toppen.
Eksempel: Newton’s algoritme, Nelder-Mead.
2.
Globale metoder: Disse er mye mer
sofistikerte/kompliserte. De trenger lang
kjøringstid og ofte mye finjustering.
Eksempel: simulated annealing, genetiske
algoritmer.
Frekventistisk statistikk:
Parameter-usikkerhet
Et estimat er ikke sannheten. Det kan være mange mulige
parameter-verdier som er tilnærmet like rimelige, gitt de
dataene du har.
Frekventistisk statistikk opererer med konfidens-intervaller.
Et 95% konfidensinterval er en lagd fra en metode for å
lage intervaller som før data har 95% sannsynlighet for å
omslutte den riktige parameterverdien.
(Et Bayesiansk troverdighetsintervall har 95% sannsynlighet for å
omslutte riktig parameterverdi, gitt data).
Konfidensintervaller dannes gjerne ved å se på fordelingen til
estimatorene.
Frekventistisk statistikk:
Parameter-usikkerhet - teknikker
•
Eksakte teknikker. Dette får man til når man eksakt kan regne ut
fordelingen til estimatorene. Eks. 95% konfidensintervall for
normalfordelingen fås som
( x − t n −1 (0.975) s /
•
•
n , x + t n −1 (0.975) s /
n)
der s er roten av estimert kvadratavvik og tn-1 er den såkalte
t-fordelingen med n-1 frihetsgrader.
Asymptotisk teori. Når antall data går mot uendelig, gjelder følgende for
ML-estimat:
2
∂
l (θ )
1
er Fisher' s informasjonsmatrise.
θˆ ~ N(θ , I(θ ) ) der I (θ ) = − E
2
∂θ
Dermed vil (θˆ − 1.96 I −1 (θˆ) ,θˆ + 1.96 I −1 (θˆ) ) være et 95% konfidensintervall.
Bootstrap. Her forsøker man å gjenskape fordelingen man har trukket
fra, enten ved å trekke data på ny med tilbaketrekning eller ved å bruke
parametriske anslag og trekke fra modellen. Man ser på spredningen
av nye parameter-estimater.
Frekventistisk statistikk:
Modell-testing
Iblant er vi ikke sikre på hvilken modell vi skal bruke.
Hvis det er snakk om vi trenger en spesifikk parameter eller ikke, kjører vi
modelltesting. Klassisk hypotesetesting foregår ved:
1.
2.
3.
4.
5.
Formuler en null-hypotese og en alternativ hypotese.
Sett en smerteterskel for sannsynlig det skal være å forkaste en ok
nullhypotese. Typisk blir dette satt til 5%, som jeg skal anta her.
Fokuser på en funksjon av data, test-statistikken, som typisk en estimator
eller likelihood’en. Finn et uttrykk for sannsynlighetstettheten til denne.
Ved å sammenligne null-hypotese og alternativ hypotese, får man et
innblikk i hva som er ekstreme test-statistikk verdier. Finn fra fordelingen til
test-statistikken intervallet av de 5% mest ekstreme verdiene.
Hvis den faktiske test-statistikken er i det intervallet, forkastes
nullhypotesen med 95% konfidens. (Generelt:100%-signifikansnivå).
Det er et en-til-en-forhold mellom at konfidensintervallet til en parameter
ikke omslutter verdi vi er ute etter, og at null-hypotesen definert ut i fra at
parameteren antar den verdien forkastes.
Frekventistisk statistikk:
Modell-testing (2)
P-verdi:
Sannsynligheten for å få en like ekstrem verdi som den vi fikk (der den
alternative hypotesen bestemmer hva som er ekstremt å få under nullhypotesen), gitt at nullhypotesen (den spesifikke parameterverdien)
stemmer.
P-verdier kan bruke trinnløst til å angi hvor sterk/svak nullhypotesen er.
Hvis p-verdi<signifikansnivå, forkaster vi en null-hypotese. 100%-(pverdien) angir altså den maksimale konfidensen vi kan forkaste en
hypotese med.
Test-styrke:
Angir sannsynligheten for å forkaste en null-hypotese for ulike varianter av den
alternative hypotesen, typisk for andre parameter-verdier enn det null-hypotesen
angir. Dette er en funksjon av parameter-verdien. Typisk er man ute etter de
testene som har størst test-styrke.
Frekventistisk statistikk:
Modell-testing (3)
Eks på test: t-testen. Sjekker om to datasett som antas være normalfordelt
med samme (ukjente) varians har den samme forventningen. Kan i praksis
gjøres ved å se om 95% konfidensintervall for forskjellen i forventning
omslutter null. ( x − t n −1 (0.975) s / n , x + t n −1 (0.975) s / n )
Generell metodikk:
2
•
Likelihood-ratio-testen. Under en nullhypotese er 2(l A − l0 ) ~ χ k
der k er forskjellen i antall parametre og lA og l0 er max likelihood for alternativ
hypotese og null-hypotese, henholdsvis. (Gjelder kun asymptotisk, når antall
uavhengige data går mot uendelig.)
2
∂
l (θ )
ˆ
~
N(
,
I(
)
)
der
(
)
er Fisher' s informasjonsmatrise.
θ
θ
θ
I
θ
=
−
E
Score-test. Bruker
∂θ 2
-1
•
til å sjekke om et parameter-estimat er langt nok unna en spesifikk verdi til at
−1
denne verdien kan forkastes. (Se om konfidensintervallet som går fra θˆ − 1.96 I (θˆ)
til θˆ + 1.96 I −1 (θˆ) omslutter verdien du vil teste.
Frekventistisk statistikk:
Modell-testing (4)
Et alternativ til vanlig klassisk hypotesetesting, typisk brukt når vi ikke har såkalte
”nøstede” modeller, er informasjonskriterer (AIC,BIC), der − 2l (θˆML ) + straffeledd (k )
(der k=antall parametre) blir minimert.
Har man masse data, kan man også dele de inn i trenings-data, validerings-data
og evaluerings-data. Parametertilpasning på de ulike modeller kjøres på
treningsdata. Den beste modellen velges så ved likelihood eller
kvadratavvik på test-data. Til slutt kjører man en evaluering av den beste
modellen på evaluerings-data.
Kryssvalidering: Man utelater en eller flere datapunkt av gangen, bruker disse
som valideringssett og resten som treningssett. I stedet for å velge nå gjør
man det masse ganger (slik at alle data etter hvert har fungert som
valideringssett) og bruker midlere likelihood/kvadratavvik til å evaluere
modellene.
Når modell krasjer med virkeligheten
Ønsker å lage konfidensintervall for
gjennomsnittelig mammut-masse
Datasett: x=(5000kg,6000kg,11000kg)
Modell 1: xi~N(µ,σ2) i.i.d.
 Tillater mammuter å ha negativ masse!
 Resulterer i 95% konfidens-intervall, C(µ)=(-650kg,15300kg) inneholder
verdier som bare ikke kan stemme.
Modell 2: log(xi) ~ N(µ,σ2) u.i.f. (xi ~ logN(µ,σ2) )
 Kun positive målinger for forventninger tillatt, E(xi)=exp(µ+σ2/2).
 Resulterer i 95% bootstrappet konfidens-intervall: (2500kg,10400kg).
 Enda bedre hvis vi kan legge til førkunnskap.
( Å få et forventningsrett estimat er dog vanskeligere . Hvis kun dette er ønsket, kan modell 1 være bedre.)
Når modell+metodikk krasjer med
virkeligheten
Ønsker å finne sammenhengen mellom
vannstand (h) og vannføring (Q). Antar
formen:
C
h
Q=C(h-h0)b
h0 er bunnvannstanden, b har å gjøre
med formen på elveprofilen og C har å
gjøre med bredden på elva.
Tilpasser med et sett
vannføringsmålinger (dette er regresjon, mer
om det senere).
Q
b
h0
Datum, h=0
Med likelihoods-tilpasning gir enkelte
Hva som utgjør rimelige og urimelige
målesett uendelige parametre!
Tilpasningen blir bra, men med komplett parameter-verdier, er ikke noe frekventistisk
metodikk i utgangspunket tar høyde for.
urimelige parameter-verdier.
Statistisk skoler- Bayesiansk
Bayesiansk statistikk: Her oppsummerer man alt man vet om parametrene
via en fordeling (siden de er usikre). Først angir man en såkalt a’ priorifordeling som beskriver førkunnskap om parameterverdiene, θ, og evt.
også modellene, M. Dette oppdateres så med data, D, via Bayes
formel:
f ( D | θ , M ) f (θ | M )
for parameter - inferens gitt modell
f (θ | D, M ) =
Førkunnskap
f (D | M )
f (D | M) Pr(M)
Likelihood
Pr(M | D) =
for modell - inferens
f (D)
Uformell versjon av Bayes formel: posterior=prior*likelihood/marginal
Fra førkunnskap + data får man en såkalt a’posteriori-fordeling for
parameterne gitt modell. Dette oppsummerer all kunnskap man har om
parameterne etter å ha håndtert data.
All inferens gjøres altså med sannsynlighetsberegninger.
Bayesiansk statistikk – paralleller
og forskjeller
Parallelt/ligner
• Troverdighetsintervall: Et 95%
•
troverdighetsintervall til en parameter er •
et intervall som omslutter 95% av
sannsynlighetsfordeligen til
•
parameteren, gitt den informasjonen du
har.
•
• Modelltesting: Kan beregne
sannsynligheten for en modell gitt data,
•
tilsvarende som man regner ut
sannsynlighetstettheten til en parameter
gitt data.
•
• Estimasjon: Man kan estimere
parametre. Men dette gjøres etter at a’
posteriori-fordelingen er beregnet. Typisk
tar man gjennomsnitt, median eller
modus over fordelingen.
Forskjellig
Fordeling på selve parametrene.
Man trenger en førkunnskap, en
fordeling over parametrene før data: f(θ).
All informasjon etter data ligger i a’
posteriori-fordelingen, f(θ|D).
All oppdatering skjer via likelihood (ingen
inferens gjort på counter-factuals).
Det er mulig å skaffe evidens for enklere
modeller. Man kan altså gradvis føle seg
tryggere på en null-hypotese.
Har vi håndtert ett datasett, bruker vi det
som førkunnskap hvis vi skal håndtere
ett til.
Førkunnskap – a’ priori-fordeling
 A’ priori-fordelingen skal oppsummere den kunnskapen vi har om
modellen(e) før data.
 Man velger gjerne fordelingsfamilie først, gjerne ut ifra egenskapene til
parameterne (kan de ta verdier over hele tallinjen, er de strengt positive eller i intervallet
0-1?) samt matematiske behagelighetshensyn. Tviler man på utfallet av
slike valg, bør man prøve flere (robusthetsanalyse).
 Man tilpasser så dette til mer konkret førkunnskap, som for eksempel ”i
hvilket intervall ville jeg ikke bli overrasket over å finne parameteren” for
deretter å justere et (f.eks) 95% troverdighetsintervall i forhold til dette.
 Vanlig feil: Se på de data man skal analysere for å si noe om a’ priori-
fordelingen. Da går man i sirkler, og får helt urimelige anslag på
usikkerhet og modellvalg.
Førkunnskap – a’ priori-fordeling (2)
I utgangspunktet rent subjektivt, men kan gjøres mer godtabart for andre
ved:
a. Inkorporere fagkunnskap som et fagfelt har blitt enig om
(intersubjektivitet)
b.
Se hva slags variasjoner som ligger i naturen. For eksempel for
hydrologiske stasjoner, hva er typiske variasjoner i
vannføringskurve-parametre? Kan tenke på dette som ”naturens a’
priori-fordeling”.
c.
Bruke såkalt ikke-informative a’ priori-fordelinger. NB: Disse er ofte
ikke propre fordelinger. F.eks. finnes det ingen ekte
sannsynlighetsfordeling som trekker med lik sannsynlighet over
hele tallinjen. Likevel kan ikke-propre fordelinger ofte resultere i
propre a’ posteriori-fordelinger. PS: Ikke bruk slike i modellsammenligning!
Bayesiansk statistikk – fordelinger
f ( D | θ ) f (θ )
f (θ | D) =
f ( D)
Man starter analysen med to ting:
1. En modell som sier hvordan data produseres, og som omhandler parametre man er
interessert i. Dette er likelihood’en: f(D|θ).
2. En a’ priorifordeling, f(θ). Oppsummerer vår førkunnskap om parametrene.
Fra dette får man følgende fordelinger av interesse:
• A’ posteriori-fordeling: f(θ|D). Dette oppsummerer alt vi vet om parametrene etter at
vi har håndtert våre data.
• Fordelingen til avledede størrelser: h(θ ) ~ f ( h(θ ) | D ) = f ( h(θ ) | θ ) f (θ | D ) dθ
Eks: vannføring på en gitt vannstand når Q=C(h-h0)b
• Marginal-fordelingen: f(D). Dette gir sannsynligheten (likelihood’en) til data gitt kun
modellen (likelihood og prior). Kan brukes til å sammenligne modeller.
Matematisk: f ( D) = ∫ f ( D | θ ) f (θ )dθ
∫
Prediksjonsfordeling, f(Dnew|D), sannsynligheten for å få nye data gitt de gamle
(Dette er et eksempel på fordelingen til en avledet størrelse). Tar altså hensyn til
usikkerheten i parametrene etter data-håndtering. Marginal-fordelingen er altså
prediksjonsfordelingen til data, kun gitt førkunnskap.
PS: A’ posteriorifordelingen vil være a’ priorifordeling når vi skal håndtere nye data.
Prediksjonsfordelingen vil være den nye marginalfordelingen.
•
Bayesiansk statistikk – ukjent forventing på
normalfordelte data med kjent standardavvik
2
2
1. Likelihood: f ( x | µ , σ ) ~ N ( µ , σ / n)
Førkunnskap: µ~N(µ0=0, τ=3)
(All informasjon om µ ligger i gjennomsnittet i dette
tilfellet).
2. A’ priorifordeling, velger:
f ( µ ) ~ N ( µ 0 ,τ 2 )
•
A’ posteriori-fordeling:
 x τ 2 + µ 0σ 2 / n τ 2σ 2 / n 
 ≡
, 2
f ( µ | x ) ~ N 
2
2
2
 τ +σ / n τ +σ / n 
N ( µ ( x ),τ 2 ( x ))
Etter-kunnskap: µ~N(µ(x)=2.15, τ(x)=0.44)
For n=5, x=2.2, σ=1
Bayesiansk statistikk – ukjent forventing på
normalfordelte data med kjent standardavvik
2
2
1. Likelihood: f ( x | µ , σ ) ~ N ( µ , σ / n)
(All informasjon fra data ligger i gjennomsnittet i
dette tilfellet).
2. A’ priorifordeling, velger:
Egentlig
samplingsfordeling
for gjennomsnitt
(ukjent for oss),
µ=2,σ=1,n=5
f ( µ ) ~ N ( µ 0 ,τ 2 )
•
Marginal-fordelingen:
Marginalfordelig
til gjennomsnitt
for oss.
•
Prediksjonsfordeling:
Prediksjonsfordeling,
n=m=5,
x=2.2, σ=1
f ( x ) ~ N ( µ 0 ,τ 2 + σ 2 / n)
f ( xnew | x ) ~ N ( µ ( x ),τ 2 ( x ) + σ 2 / m)
(Bayesianske) hierarkiske modeller
Av og til kan det være flere nivåer i en modell enn bare parameter->data .
Eks: Regionale likheter.
Ekstremverdiene for stasjonene i et område kan ha mye til felles, siden de er utsatt
for de samme værfenomenene. Ofte blir dette håndtert ved å la en parameter være
felles for alle stasjoner, mens resten er globale. Alternativet er å la alle parametre
være lokale. Men det finnes en mellomløsning:
Globale parametre som
angir fordelingen av
regionale parametre
Region:
1
2
Regionale parametre
som angir spredningen
i lokale
ekstremverdifordelings
-parametre i region 1
Regionale parametre
som angir spredningen
i lokale
ekstremverdifordelings
-parametre i region 2
Lokale (1,1)
ekstremverdi
-parametre
Lokale (1,2)
ekstremverdi
-parametre
Lokale (2,1)
ekstremverdi
-parametre
…..
Lokale (2,2)
ekstremverdi
-parametre
K
Regionale parametre
som angir spredningen
i lokale
ekstremverdifordelings
-parametre i region K
Lokale (K,1)
ekstremverdi
-parametre
Lokale (K,2)
ekstremverdi
-parametre
(Bayesianske) hierarkiske modeller (2)
Fordeler: Hver stasjon og hver region låner styrke fra hverandre. Variasjonen
i ekstremverdiparametre for stasjon 1, …., n-1 i en region sier noe om hva
vi kan forvente av stasjon n. variasjonen i regionalparametre for region
1, …, K-1 forteller noe om hva vi kan forvente i region K.
Ulempe: Det finnes sjeldent ferdigløsninger. Man er nesten nødt til å foreta
analysen Bayesiansk, siden mellomnivåene har en fordeling og dermed
må håndteres Bayesiansk uansett.
Unntak: Såkalte mixture models i GLM
Bayesiansk statistikk – når parameter-inferens blir
vanskelig (MCMC)
Minner om Bayes formel (når vi ser på kun en modell):
f ( D | θ ) f (θ )
Marginalfordelingen: f ( D) = ∫ f ( D | θ ) f (θ )dθ
f (θ | D) =
f ( D)
Denne rakkeren kan være problematisk. Ikke alle
integral har analytisk løsning.
Men, det finnes måter å sample (trekke) fra en fordeling, uten å kjenne til
konstantene (normaliseringen) i fordelingen, kun hvordan fordelingen
avhenger av det den er en fordeling av. f(D) er i dette tilfelle den ukjente
normaliseringskonstanten.
En Markov-kjede er en tidsserie der verdien ”nå” avhenger (kun) av forrige
verdi. Enkelte tidsserier stabiliserer seg slik at de har en fordeling som ikke
forandrer seg over tid, den såkalte stasjonærfordelingen.
Det er mulig å lage en tidsserie som er slik at den stasjonære fordelingen
er lik den fordelingen du er ute etter selv om du ikke har
normaliseringskonstanten. Dette kalles MCMC (Markov chain Monte Carlo).
WinBUGS er et system som muliggjør automatisk MCMC-sampling gitt
modell, a’ prior-fordeling og data. (Alt: Egen MCMC-modul i R).
Bayesiansk statistikk – mer MCMC
Generelt går en MCMC rutine slik:
1. Lag et startforslag for parameterne, θgammel.
2. Finn en måte (en forslagsfordeling*) å trekke ny parameterverdi gitt
gammel og bruk den: θny~g(θny| θgammel)
f (θ ny | D) g (θ ny | θ gammel )
/
3. Aksepter ny trekning med sannsynlighet
f (θ gammel | D) g (θ gammel | θ ny )
og bruk gammel trekning hvis ikke.
Merk: Normaliseringer
4. Gå tilbake til 2 så mange ganger du vil.
bortfaller
spacing
Burn-in
* Forslagsfordelingen bestemmer hvor effektiv algoritmen er.
Viktige begreper:
Burn-in: antall
trekninger før tidsserien
nærmer seg stasjonær
fordeling
Spacing: antall
trekninger mellom hver
du kan beholde som ca.
uavhengig trekning. Har
her fått ca 5 uavhengige
trekninger
Bayesiansk statistikk – modellsammenligning
Teknisk sett gjør vi modellsammenligning med Bayes formel:
Pr(M | D) =
f (D | M) Pr(M)
f (D)
Drivkraften her er marginalfordelingene til data, f(D|M). Sammenligner vi de, kan
vi se om vi får evidens for den ene eller andre modellen.
Eks: Eksperiment på ekstrasensoriske sanser gav 18 av 30 korrekte utfall på
enten-eller-spørsmål hos en forsøksperson. Er det noe i det? Bruker
binomialfordeling med enten kjent, p=0.5 (nei), eller ukjent (ja) uniformt fordelt
suksessrate.
Kan vise at marginalfordelingen med
uniformt fordelt suksessrate gir lik
sannsynlighet for alle utfall.
Ser fra plottet at utfall mellom 11 og
19 er evidens for p=0.5, mens andre
utfall er evidens mot. 18 riktige er mer
sannsynlig på tilfeldig gjetting enn hvis
det er ekstrasensoriske sanser i spill.
Marginalfordeling for p=0.5 (rød ) og p
ukjent (blå)
Bayesiansk estimering –
en advarsel
Tar man forventnings- eller median-estimat,
kan man regne med at verdien man får er
representativ for a’ posteriori-verdien til
hver parameter, men ikke nødvendigvis at
kombinasjonen er representativ.
Urepresentative parameter-kombinasjoner
kan gjøre en mye dårligere jobb med å
beskrive data enn en god en.
Har sett eksempel på dette i multi-segment
vannføringskurve-tilpasning, som i slike
tilfeller underestimerte vannføringen
konsekvent.
Beste løsning; estimer direkte det du skal fra
a’ posteriori-fordelingen, i stedet for å gå
via parameter-estimat.
Nest beste løsning: Bruk modus. NB: Betyr
optimering!
Forventning
Modus
Parameter 1
Bayesiansk modell-gjennomsnitt
Man kan lage prediksjons-fordelinger kun betinget på
modell, ikke modellparametre, ved å ta hensyn til
usikkerheten i disse:
f ( Dny | D, M ) = ∫ f ( Dny | θ , M ) f (θ | D, M )dθ
(Fra loven om total sannsynlighet)
Tilsvarende kan man finne prediksjons-fordelingen
*ubetinget* på modell:
f ( Dny | D) = ∑ f ( Dny | M ) Pr( M | D)
Bayesiansk vs frekventistisk
Bayesiansk
statistikk
Fordeler
Ulemper
Faglig kunnskap kan tas i bruk.
Siden du må oppgi en førkunnskap, tvinges
du til å lage meningsfulle modeller.
Resultatene er ofte lett å forstå og henger
sammen med dagligdags bruk av
sannsynlighet.
Svært kompliserte modeller kan bygges og
analyseres.
Du trenger ikke ta stilling til om noe er
fundamentalt stokastisk eller ikke.
Du får parameterusikkerhet ”gratis”.
Du blir tvunget til å oppgi en førkunnskap.
Ingen førkunnskap nødvendig, betyr en
mer ”objektiv” metode.
Frekventistisk
statistikk
Mange ferdigmetoder klare til å tas ibruk.
Med andre ord en stor ”verktøykasse”
som kan anvendes med en gang.
Enklere beregninger betyr at det er enklere
å komme i gang med bruken.
Siden førkunnskapen gjerne har en subjektiv
karakter, blir resultatet å anse som
subjektivt også.
Ofte ikke så mange ferdigmetoder
tilgjengelig.
Utregningen før du får resultater er oftere
vanskelig.
Vanskelig å benytte relevant faglig
førkunnskap.
Vanskelig å forstå hva resultatene faktisk betyr!
Kompliserte modeller kan være nærmest
umulig å analysere med frekventistiske
metoder.
Du må ta stilling til om noe er fundamentalt
stokastisk eller ikke.
Parameterusikkerhet er en separat oppgave du
må gjøre etter estimering.
Frekventistisk estimering kan inneholde ”bugs”,
sett i vannføringskurve-estimering.
Bayesiansk vs frekventistisk –
det pragmatiske aspektet
Når modellkompleksiteten er under en hvis terskel, er frekventistisk
metodikk enklest. Over terskelen blir det enklere med Bayesiansk
metodikk.
Arbeid
Frekventistisk
Bayesiansk
Kompleksitet