Statistical Concepts and Methods

Kap. 6.1: Fordelingen til en observator og stok. simulering
• Data, observatorer og relaterte fordelinger.
• Stokastisk simulering.
• Illustrasjon:
- Sammenligning av jury bedømmelser i idrett.
Fra data til observator.
• La x1 , . . . , xn representere n observasjoner/målinger (data) av et
fenomen vi ønsker å studerer, f.eks. terningkast, temperatur målinger,
leveringstid til pakker, luftforurensning, antall skidager, . . ..
• I mange sammenhenger nyttig og også mer riktig å tenke på data som
realisajoner fra et stokasisk ekspriment, i.e. X1 , . . . , Xn .
- Usikkerhet i måleapparatet.
- Utvalget.
- En underliggende egenskap i det vi observerer.
• Ofte er ikke de inviduelle observasjonene vårt hovedfokus, vi ønsker
f.eks. å si noe om:
- Hvor sannsynlig er det å få ‘yatzy’ i tre kast?
- Er det en ønkning i den globale gjennomsnittstemperaturen på jorda?
- Hva er sannsynligheten for minst 100 skidager på Bjørnholt i 2017?
• Håpet er at vi kan bruke data, eller funksjoner av data, til å svare på
denne typen spørsmål.
Fra data til observator.
Eksemple 1: La x1950 , . . . , x2014 være antall skidager på Bjørnholt siden
1950. Vi kan da prøve å beregne Pr{X2017 ≥ 100} med
antall år xi med mer enn 100 skidager
64
Example 2: Andre klassiske statistiske observatorer er
n
x̄n =
1X
xi
n i=1
n
og
s2 =
1 X
(xi − x̄n )2
n − 1 i=1
som sikter på forventning og varians i fordelingen.
• Generelle kan vi tenke på en observator som en funksjon
Hn = h(x1 , . . . , xn ) av data (med en konkret tolkning/betydning).
• De sikter på, eller estimerer, en underliggende egenskaper vi ønsker å
studerer.
• Slike størrelser er i seg selv også stokastiske variable og har derfor
sin egen sannsynlighetsfordeling (utvalgsfordelingen).
Fra data til observator.
• Egenskapene (f.eks. presisjonen) til en observator (f.eks. gjennomsnittet
x̄n ) avhenger av utvalgsstørrelsen og den underliggende (antatte)
fordelignen til observasjonene, i.e. den simultane tetthetsfunksjoenen
(X1 , . . . , Xn ) ∼ f (x1 , . . . , xn ).
• I prinsippet trenger vi ‘hele’ f (·) for å svare på alle typer spørsmål,
f.eks. for å beregne
Pr{|X̄n − µ| > },
hvor µ er ‘sann’ forventning og er et lite tall.
• Vi sier at observasjonene er uavhengig og identisk fordelt (uif.) hvis
1) Hvis alle Xi -ene er uavhengige og
2) har alle samme fordeling/tetthetsfunksjon.
Fra data til observator.
• Hvis vi kan anta at sekvensen X1 , . . . , Xn er uif. forenkler dette f.eks.
f (x1 , . . . , xn ) =
n
Y
fi (xi )
i=1
• Dette betyr ikke nødvendigvis at fordelingen til h(x1 , . . . , xn ) er enkel.
Eksempel 3: Anta at X1 , . . . , Xn er uif. og at Xi ∼ N(µ, σ 2 ), hva er da
fordelingen til
n
1X
X̄n =
Xi .
n i=1
Eksempel 4: Under samme antagelser, er
n
1X
I(Xi ≥ X̄n + 2s)
n i=1
en god estimator for Pr{X0 ≥ µ + 2σ}? (hvor I(·) er en indikator
funksjon).
Stokastisk simulering
• Hva er det stokastisk simulering.
- Generering (ofte kunstig) av tilfeldige variable.
- Representasjon av virkelige og abstrakte (stokastiske) fenomener
(f.eks. fly, klima, økonomi, . . ..).
• Hvorfor bruke stokastisk simulering.
- Et verktøy for å modellere og tolke den virkelige verden.
- Et tilleggsverktøy/alternativt for statistisk inferens.
- Tilfeldighet løser noen problemer som er vanskelig (umulig) å løse
deterministisk.
• Hvordan lage kunstig tilfeldighet?
- Pseudotilfeldiget (pseudorandomness).
Hva er tilfeldighet?
• Anta vi kaster en mynt, hvilken sekvens (hvor 0 = kron og 1 = mynt)
er mest sannsynlig?
1) 001001110101010010100111000101000011100110100101100010
2) 111111111111111111111111111111111111111111111111111111
• Hva er stokastisk/tilfeldig i et myntkast?
• Pseudorandomness: deterministiske sekvenser som noen felles
egenskaper med (ekte) tilfeldige sekvenser.
• Er fordelingen av desimalene i π tilfeldig?
3, 141592653589793238462643383279502884197169399375105820 . . ..
• Et reelt tall sies å være et normalt tall hvis (den uendelige) sekvensen
av desimaler (i enhver base) er uniformt fordelt.
Noen illustrasjoner
• Spørreundersøkelse.
• ‘Random walk’ og Riemann hypotesen.
Generelle fordelinger fra enklere eksprimenter
• Delvis repetisjon av kap. 4.7.
Sammenligning av to jury regler
• Mange olympiske idrettsarrangementer blir avgjort av en bedømmelses
jury.
• Anta at det er 7 dommere i en jury, normalt gir hver av disse en
poengsum på en skala.
• Disse pongene blir transformert (f.eks. gjennomsnittet) til en endelig
eller felles poengsum.
• Hva med juks?
• Det var en sak i vinter OL i 2002 om gullmedaljen i kunstløp. Et russisk
lag ble anklaget for å ha bestukket en franskmann i juryen som førte til
at Russland slo Cannada i kampen om topplasseringen.
• Vi skal her undersøke robustheten til to ulike transformasjoner for å
lage en felles poengsum.
Sammenligning av to jury regler
• Vi skal i hovedsak se på to typer transformasjoner.
1) Største og minste poengsum fjernet før man tar snittet eller
2) middelverdien (medianen).
• Hvilken metode er best?
- Robusthet i forhold til juks.
- Presisjon under normal omstendigheter er også viktig.
Eksempel: Ved kun å bruke den minste poengsummen får vi nok noe som
er robust mot bestikkelser, men kan vi forvente at dette gir en retferdig
eller presis poengsum for utøverne generelt?
• Vi skal først undersøke egenskapene til de to reglene/transformasjonene
over ved bruk av stokastisk simulering.
A statistisk/probabilistisk modell
• Vi vil anta at det er en sann, eller riktig, poengsum g og at hver
dommer i juryen sikter på denne med en stokastisk feil, i.e.
Yi = g + Ui
for i = 1, . . . , 7,
hvor Ui -ene er uif. og hver Ui er uniform på [−0.5, 0.5].
Merk: Vi kan tenke på Ui som støy/feil i en dommers forsøk på å treffe
den ukjente g, eller vi kan tenke at Ui representerer en underliggende
uenighet i tolkning blant dommere.
• Er dette en rimelig modell og hvordan kan vi validere den?
• En matematisk beskrivelse av transformasjonene er:
6
1) h1 (Y1 , . . . , Y7 ) =
1X
Y[i]
5 i=2
og
2) h2 (Y1 , . . . , Y7 ) = Y[4]
hvor Y[1] , . . . , Y[7] er de sorterte Y1 , . . . , Y7 .
A statistisk/probabilistisk modell
• Vi har nå en (stokastisk) modell som simulerer juryavgjørelser.
• Vi skal her studere
T = h1 (Y1 , . . . , Y7 ) − g
og
M = h2 (Y1 , . . . , Y7 ) − g
• Vi skal undersøke hvilken modell som gir minst avvik, altså, hvilken
metode som oftest gir en verdi nærme 0.
• Hvorfor kan anta at g = 0?
• Vi skal derfor analysere (for g = 0)
T = h1 (y1 , . . . , y7 )
og
M = h2 (y1 , . . . , y7 ).
• Dette kan gjøres ‘teoretisk’, men her skal vi heller bruke ‘datamaskinen’
til å lage inferense (trekke konklusjoner)
Hvordan analysere denne modellen?
• Under er 5 realisasjoner fra denne modellen:
i
1
2
3
4
5
Y1
-0.45
-0.37
0.08
0.24
0.10
Y2
-0.08
-0.18
0.07
0.08
0.18
Y3
-0.38
0.05
0.47
-0.11
-0.39
Y4
0.11
-0.10
-0.21
0.19
-0.24
Y5
-0.42
0.01
-0.33
-0.03
-0.36
Y6
0.48
0.28
-0.22
0.02
-0.25
Y7
0.02
0.31
-0.48
0.44
0.20
T
-0.15
0.01
-0.12
0.10
-0.11
M
-0.08
0.01
-0.21
0.08
-0.24
• Hvilken metode er å foretrekke?
• Siden modellen vår har med tilfeldighet (simulert usikkerhet) forventer
vi at det vil være endel (kanskje mye) variasjon.
• Håpet er at det vil være mulig å trekke en konklusjon hvis vi simulerer
nok tilfeller. Hvorfor?
Simulerte dommeravvik
• Over er n = 1000 simulerte avvik for første dommer.
Oppsummering av T og M
• Er det stor forskjell på transformasjonsregel M og T ?
• Hvilken metode ser ut til å være best?
Realisasjoner fra simultanfordeling til T og M
Hvordan studere forskjellen mellom T og M ?
• Hvor ofte gir regel M en større feil enn T , et mulig svar er
Pr{|M | − |T | > 0} ≈ 0.70.
Hva med vår venn gjennomsnittet?
• La m =
1
7
P7
i=1
Yi , er denne bedre eller dårligere enn T og M ?
• Videre er
Pr{|T | − |m| > 0} ≈ 0.74
og
Pr{|M | − |m| > 0} ≈ 0.76.
Hva med juks og bestikkelser?
• Anta at en dommer er betalt for å gi en for høy poengsum.
• En måte å modellere dette på er å anta at f.eks.
Y1 = 1 + g + U1 ,
hvor U1 fremdeles er uniform på [−0.5, 0.5].
• Hvilke konsekvenser har dette for resultatene over?