Regler i statistikk

TORIL FJELDAAS RYGG - VÅREN 2010
Regler i statistikk
STAT 100
Innhold
side
Sannsynlighetsregning
3
- Uttrykk
- Betinget sannsynlighet
- Regler for sannsynlighet
- Bayes teorem
- Uavhengige begivenheter
- Telleregler: Kombinatorikk
3
4
4
4
5
5
Summenotasjon
6
Stokastiske(tilfeldige) variabler
7
- Varians og standardavvik
- Kontinuerlige sannsynlighetsmodeller
- Flere variable: Lineærkombinasjoner
- Uavhengighet
7
7
8
8
Vanlige sannsynlighetsmodeller
9
- Binomisk fordeling
- Normalfordeling
- Standardnormalfordeling
- Normaltilnærming av binomisk fordeling
- Gjennomsnitt som en tilfeldig variabel
- Sentralgrenseteoremet
- Kjikvadratfordelingen
- Student t-fordeling
- Fisher F-fordeling
- Frihetsgrader
9
9
10
10
11
11
11
12
12
12
Beskrive et utvalg
13
- Gjennomsnitt
- Varians og standardavvik
13
13
Estimering og hypotesetesting
14
- Parametere
- Forventningsrette estimatorer
- Standardavvik til estimatorene
- Estimatoren sin standardfeil
- Konfidensintervall for en parameter
- Hypotesetesting
- Statistisk signifikans
- p-verdi generelt
- Tosidige tester
- Test av p i binomisk fordeling
- Oppsummering av hypotesetest av p
14
14
15
16
16
18
20
20
21
22
23
Sammenligning av grupper
24
- Parvis sammenligning
- To uavhengige utvalg
- Variansanalyse
- Enveis variansanalyse
- Kontraster og enveis variansanalyse
- Analyse av kategoriske krysstabeller
24
25
27
27
30
32
Analyse av sammenhenger
35
- Generelt
- Første møte med data
- Vurdere spredningsplott
- Tallfeste spredning
- Korrelasjon
- Lineær regresjon
- Prediksjon innen lineær regresjon
- Modellkritikk av lineær regresjon
35
35
35
36
36
38
42
43
Generelt
44
- Konfidensintervall
- p-verdi
- Ulike navn for estimert standardavvik
- Forkastningsområde ved ulike tester
- Skrivemåter ved utregning
44
44
44
45
45
Programmet “R”
46
- Ord og uttrykk
46
Tabeller
47
- Kumulativ binomisk sannsynlighet
- Kumulativ poissonfordeling
- Kumulativ standardnormalfordeling
- Standardnormalfordelingens kvantiltabell
- t-fordelingens kvantiltabell
- Kjikvadratfordelingens kvantiltabell
- Fisher F-fordeling
47
48
49
50
51
52
53
~2~
SANNSYNLIGHETSREGNING
Tilfeldighet: Individuelle hendelser som ikke kan forutsies. Allikevel et system som
beskriver hvor ofte de opptrer i det lange løp.
Sannsynlighet: Andel ganger en hendelse opptrer i det lange løp.
Utfall: Resultat av et enkelt forsøk.
Utfallsrom(S): Alle mulige utfall et forsøk kan ha. (S – Sample space)
Begivenhet/hendelse: Ett eller flere utfall som tilfredsstiller visse karakteristika.
En hendelse inntreffer hvis resultatet av forsøkene blir ett av de karakteristiske
utfallene. Eks: ”Minst 3”, ”Partall”
Diskrete utfallsrom: Utfall som kan nummereres.
Kontinuerlige utfallsrom: Inkluderer alle verdier i et intervall på tallinjen.
P(A): Sannsynligheten for en hendelse A. (Probability)
Relativ frekvens: A etter n forsøk.
Antall ganger A har inntruffet
Totalt antall forsøk(n)
Dersom n blir stor  nærmer seg relativ frekvens
Uniform sannsynlighet: Alle utfall har like stor sjanse for å inntreffe.
P(A) = Antall gunstige utfall for hendelsen A
Antall mulige utfall
A
B
AUB = A og/eller B
- Union
A
B
A∩B = A og B
- Snitt
A
B
̅ = Ikke A
- Komplement
A
B
Begge kan ikke
- Disjunkte
inntre samtidig
A∩B = Ø (Den tomme mengde)
~3~
Betinget sannsynlighet
A|B betyr
- A dersom B allerede har skjedd/
- A dersom vi kjenner B/
- A gitt B
P(A|B) betyr
- sannsynligheten for A når vi vet at B har inntruffet
- sannsynligheten for A gitt B
Regler for sannsynligheter
0 ≤ P(A) ≤ 1
Dersom S er hele utfallsrommet er P(S) = 1
P(Ø) = O, der Ø er tom mengde og ikke kan skje
P(A) = Antall gunstige utfall for hendelsen A
Antall mulige utfall
P(A) + P(̅ ) = 1
A
P(AUB) = P(A) + P(B) – P(A∩B)
B
Telt to ganger
P(A|B) =
P(A∩B) = P(A|B)∙P(B) = P(B|A)∙P(A)
P(A1∩A2∩A3) = P(A1)∙P(A2|A1)∙P(A3|A1∩A2)
P(̅ |B) = 1 – P(A|B)
(Gitt B. Enten A eller ̅)
A
̅
B
P(A∩B)
P(̅ ∩B)
̅
P(A∩̅)
P(̅ ∩̅)
Antall A
Antall ̅
Antall B
Antall ̅
1
Finne sannsynlighet:
P(A) = P(A|B)∙P(B) + P(A|̅)∙P(̅)
(1-P(B))
Bayes teorem: Finne P(A|B) når vi vet P(B|A)
P(A|B) =
̅
̅
Fordi:
P(A|B) =
=
=
̅
̅
~4~
Uavhengige begivenheter
A og B er uavhengige hvis P(A|B) = P(A)
Kunnskap om at B har inntruffet endrer ikke sannsynligheten for A:
P(A|B) =
= P(A)
Får man mynt 1 gang, påvirker det ikke neste kast.
P(A∩B) = P(A)∙P(B)
Disjunkthet er ikke det samme som uavhengighet.
Telleregler – kombinatorikk
Potensregelen: Vi trekker ut k enheter, med tilbakelegging, fra en samling med n
merkede enheter. Totalt antall mulige ordnede utfall er nk.
Antall permutasjoner: Vi velger ut k enheter, uten tilbakelegging, fra en samling
med n merkede enheter. Totalt antall mulige ordnede utfall kalles antall
permutasjoner av k fra n, og er lik:
Pn,k = n∙(n-1)∙…∙(n-k + 1) =
Fakultet: Symbolet n! uttales ”n-fakultet” og er definert slik at 0! = 1 og at
n! = n∙(n-1)∙…∙3∙2∙1
Antall rekkefølger: n forskjellige enheter kan organiseres i n! forskjellige
rekkefølger.
Antall kombinasjoner: Vi velger ut k enheter, uten tilbakelegging, fra en samling
med n merkede enheter. Totalt antall ikke-ordnede kombinasjoner av k fra n skrives
Cn,k =( ) =
Tilfeldig utvalg: Vi trekker ut k enheter, uten tilbakelegging, fre en samling med n
merkede enheter. I hver trekning sørger vi for at alle gjenverende enheter har like
stor sannsynlighet for å bli trukket ut. Da får vi et tilfeldig utvalg. Ved tilfeldig
utvalg av k blant n gjelder:
1. Sannsynligheten for at en bestemt enhet blir trukket ut, er lik .
2. Sannsynligheten for at en bestemt enhet trekkes i rekning nummer i, er lik .
3. Alle enhetene har samme sannsynlighet for å bli trukket ut.
~5~
SUMMENOTASJON
x1 = 1
y1 = 1
x2 = 2
y2 = 2
x3 = 3
y3 = 4
∑
∑
(∑ )
(∑ ) (∑
)
∑
~6~
STOKASTISKE(TILFELDIGE) VARIABLER
Stokastisk variabel: En stokastisk variabel X knytter
en bestemt tallverdi til ethvert utfall i utfallsrommet S.
De følger lovmessigheter. De følger en viss
sannsynlighet.
En tilfeldig variabel er diskret dersom den bare kan ta ett endelig eller tellbart
antall verdier. Ofte heltall.
Kontinuerlig hvis den kan ta alle verdier i et intervall.
Forventningsverdi: Forventningen til en diskret variabel X defineres som:
Forventningsverdi = Sum av (verdi ∙ sannsynlighet)
∑
E(a) = a
E(bX) = b E(X)
E(a + bX) = a + b E(X)
E(a + bX + cX2) = a + b E(X) + c E(X2)
Varians og standardavvik
Standardavviket er lik kvadratroten av variansen
[
som defineres lik:
]
∑
X er en stokastisk variabel, mens a og b er konstanter. Da gjelder:
Var(X) er aldri negativ
Var(X + a) = Var(X)
Var(bX) = b2 Var(X)
Var(bX + a) = b2 Var(X)
Kontinuerlige sannsynlighetsmodeller
En kontinuerlig tilfeldig variabel kan ta alle mulige verdier i et intervall.
Sannsynlighetstettheten f(x) beskriver fordelingen til en kontinuerlig variabel, og
har følgende egenskaper:
~7~



Det totale arealet under kurven er lik 1.
P(a ≤ X ≤ b) er lik arealet under kurven fra a til b.
Kurven er aldri negativ, dvs. at f(x) ≥ 0
FORVENTNING OG VARIANS: En kontinuerlig stokastisk variabel X har
forventningsverdi og varians lik
∫
∫
Flere variable – Lineærkombinasjoner
∑
Ai-ene og b er kjente konstanter, og Xi-ene er tilfeldige uavhengige variable(Diskrete
eller kontinuerlige)
FORVENTNING OG VARIANS:
∑
∑
√
Fordelingsfunksjon:
Den kumulative fordelingsfunksjonen F er definert for alle verdier av x, slik:
F(x) = P(X≤x)
Uavhengighet
To diskrete stokastiske variabler X og Y er uavhengige hvis og bare hvis følgende
likning er tilfredstilt for alle mulige verdipar (x, y) i simultanfordelingen til X og Y.
~8~
VANLIGE SANNSYNLIGHETSMODELLER
Binomisk fordeling:
Vi har en binomisk forsøksrekke med n delforsøk dersom:
1.
2.
3.
4.
Hvert delforsøk bare har to interessante utfall: A eller ikke A.
Sannsynligheten p = P(A) er den samme i alle n delforsøkene.
Delforsøkene er statistisk uavhengige av hverandre.
X = antall ganger A inntrer i de n forsøkene.
I løpet av hele forsøksrekken vil hendelsen A inntreffe totalt X ganger. Da er X en
binomisk fordelt variabel:
Punktsannsynligheten til X er gitt ved:
( )
for x = 0, 1, 2, 3, …, n
Der antall kombinasjoner er:
( )
Her er n! = n∙(n-1)∙…∙3∙2∙1
Vi definerer 0! = 1
FORVENTNING OG VARIANS dersom X er binomisk fordelt (n,p)
√
KUMULATIV BINOMISK SANNSYNLIGHET(SE TABELL):
P(X ≤ k) for forskjellige valg av k, n og p.
OBS! P(X ≥ k) = 1 - P(X ≤ k-1),
f.eks. P(X ≥ 12) = 1 – P (X ≤ 11)
Normalfordeling:
En variabel X er normalfordelt med forventningsverdi
sannsynlighetstettheten er lik:
√
~9~
og standardavvik
hvis
er populasjonsgjennmsnittet og
populasjonsstandardavviket.
En normalfordelt variabel er
kontinuerlig og fordelinga er
symmetrisk om
er
HVIS DATA ER NORMALFORDELTE/NÆR NORMALFORDELTE, VIL FØLGENDE VÆRE OPPFYLT:



Ca 68% av observasjonene vil ligge i en avstand mindre enn fra .
Ca 95% av observasjonene vil ligge i en avstand mindre enn 2 fra .
Ca 99.7% av observasjonene vil ligge i en avstand mindre enn 3 fra .
Standardnormalfordeling:
La X være en observasjon fra en normalfordeling med forventning
standardavvik . Den standardiserte verdien av X er:
og
KVANTILER – Invers tabellbruk
Normaltilnærming av binomisk fordeling:
La X være binomisk fordelt med n og p, der n er stor og p ikke for nære 0 eller 1.
Da har vi følgende tilnærming:
√
Når er n stor?

np ≥ 5

n(1-p) ≥ 5
~ 10 ~
Gjennomsnitt som en tilfeldig variabel:
Anta at du har n uavhengige observasjoner(X1, X2,…, Xn) fra samme populasjon
(tilfeldig utvalg). Dvs. av X-ene er uavhengige, med samme og .
Gjennomsnittet er definert som:
∑
̅
̅
̅
̅
√
Sentralgrenseteoremet:
La X1, X2,…, Xn være et tilfeldig utvalg fra normalfordeling med forventning
standardavvik . Da er gjennomsnittet normalfordelt
og
√
Hvis de ikke er normalfordelt, men hvis n er stor nok, vil gjennomsnittet være
tilnærmet normalfordelt
√
Kjikvadratfordelingen
Kjikvadratfordelingen har bare en
parameter, som kalles
fordelingens antall frihetsgrader.
Jo ferre frihetsgrader, jo mer
venstreskjev blir den. Med over 20
frihetsgrader blir den derimot
tilnermet normalfordelt.
La x1, x2, ..., xn være uavhengige
standardnormalfordelte variabler.
Da er summen
α
2
kjikvadratfordelt med n frihetsgrader.Hvis x-ene er delvis avhengige av hverandre,
vil Y være kjikvadratfordelt med et lavere antall frihetsgrader.
OBS: Ikke viktig å kunne mye om fordelinga i seg selv, men man bruker den i analyse
av kategoriske krysstabeller. Da har Q en tilnærmet kjikvadratfordeling med
(r-1)∙(k-1) frihetsgrader, der r er antall rader og k antall kolonner.
Se boka for mer informasjon om kjikvadratfordeling i seg selv.
~ 11 ~
Student t-fordeling
En metode som passer bedre enn standardnormalfordeling når man har forsøk med
små utvalg, men ellers ganske lik. Får derimot bredere spredningsintervall for T enn
for Z. Begge har forventning 0, men variansen er større en 1 i t-fordelingen. Den er
(n – 1)/(n – 3), men går mot 1 når n vokser. Har man mer enn 30 observasjoner kan
man ikke se forskjell på de to fordelingene.
Hvis vi har n observasjoner i et tilfeldig utvalg fra en populasjon som er
er:
̅
√
hvor
betyt t-fordelt med n-1 frihetsgrader.
Fisher F-fordeling
Brukes i f.eks. enveis
variansanalyse
(kommer senere).
Den sammenligner to
varianser ved å lage en
brøk mellom
utvalgsvariansene.
OBS: Denne fordelingen er heller ikke så viktig i seg selv, men den brukes i enveis
variansanalyse, som er et viktig emne.
Frihetsgrader(df = degrees of freedom)
Går ut på hvor mange ulike verdier de observerte dataene har mulighet til å ha når
man f.eks. vet gjennomsnittet. Er ofte n-1 frihetsgrader, siden den siste verdien må
stemme overens med de andre for å gi det riktige snittet. n er antall observasjoner.
Man kan derfor regne seg frem til den siste verdien. I modeller hvor man får en linje
som verdiene sprer seg rundt har man n-2 frihetsgrader. Det er fordi man bruker
opp en i hver ende av linjen, mens resten av verdiene kan fordele seg rundt den.
ILLUSTRASJON AV n-1 FRIHETSGRADER:
̅
̅
( ̅
̅
̅
)
x2 er ikke uavhengig. Den er låst siden vi vet at snittet skal være 85 og vet hva x1 er.
Det er derfor ikke frihet igjen til x2. Her er det derfor n-1 = 2-1 = 1 frihetsgrader.
~ 12 ~
BESKRIVE ET UTVALG
Et utvalg bør være representativt og uavhengig av hverandre.
Du har en samling uavhengige observasjoner, alle trukket fra en ferdig definert
populasjon.
Da har vi observasjonene: x1, x2, …, xn, alle er realisasjoner av tilfeldige variable
med samme fordeling og dermed samme forventning og samme standardavvik.
Gjennomsnitt i utvalget:
Gå ut i fra at vi har gjort n observasjoner eller målinger av en variabel, x1, x2, …, xn
̅
∑
VARIANS OG STANDARDAVVIK
̅
√
∑
̅
̅
∑
̅
Summetegn: Først subtrahere,
så kvadrere, så summere, så
dividere, så ta kvadratrot
̅
~ 13 ~
ESTIMERING OG HYPOTESETESTING
Parameter: En konstant som er med på å beskrive sannsynlighetsfordelingen.
F.eks. forventning (populasjonsgjennomsnitt)
Normalfordelinga lar seg beskrive av to parametre, forventning og standardavvik.
Kjenner man disse parametrene, kjenner man verden. Det er derimot ofte umulig i
praksis å finne den eksakte verdien til en parameter. I så fall må man undersøke
hele populasjonen.
Vi nøyer oss med å estimere (anslå) verdien av parameteren. Dette blir gjort ved å ta
et tilfeldig utvalg frå populasjonen og la en funksjon av utvalget være estimatoren
(den som anslår) til parameteren. Dermed vil estimatoren være en tilfeldig variabel,
slik at to personer som estimerer samme parameter, vil få forskjellig estimat
(anslag) hvis de har hvert sitt utvalg.
Vi bruker ofte betegnelsen ^ (hatt) for estimatoren, slik at ̂ blir tolket som
estimatoren for .
̅
̂
Gjetter på at utvalget representerer virkeligheten.
̂
̅
̂
̅
̂
̂
̂
( )
(
)
Forventningsrette estimatorer:
Anta at man skal estimere en eller annen parameter, t.d. , ved hjelp av
estimatoren .
Siden ̂ er en funksjon av utvalget, er den selv en tilfeldig variabel, og dermed har
den også en forventning.
Dersom E( ̂) = , sier vi at estimatoren er forventningsrett. Denne egenskapen betyr
at i det lange løp vil du verken underestimere eller overestimere dersom du bruker
̂. Du gjør med andre ord ingen systematiske feil.
Eks:
̅
Dersom man velger ̅
̂ får man et forventningsrett estimat av .
~ 14 ~
Standardavvik til estimatorene
Estimatorene har en usikkerhet, representert ved deres standardavvik. Er dette
stort, er estimatoren usikker og dermed dårlig.
̅
̅
̂
̂
√
Tre krav til estimatorer



Estimatoren skal være forventningsrett,
Estimatoren skal ha minst mulig varians (evt. standardavvik)
Estimatoren sin varians (evt. standardavvik) skal gå mot null når størrelsen
på utvalget øker.
ESTIMAT FOR (POPULASJONS)STANDARDAVVIKET;
Siden (populasjons)variansen
er variasjonen i hele populasjonen, er variansen i
utvalget vår beste gjetting på populasjonens varians.
̂
∑
̅
(Viktig å dividere på n-1 og ikke n. Hvis man dividerer på n, blir forventningen
(
)
), altså en underestimering)
PUNKTESTIMERING FOR SANNSYNLIGHETEN (p) I DEN BINOMISKE FORDELINGEN
Vi gjør n forsøk der en aktuell hendelse A inntreffer X ganger. Da er X binomisk
fordelt. Vi ønsker å estimere sannsynligheten: p = P(A). Vårt beste anslag på denne
er den relative frekvensen siden p er andelen av A i populasjon.
̂
̂
̂
̂
√
Estimatoren er forventningsrett, med varians som minker når tallet på forsøk (n)
øker. For å halvere usikkerheten, må utvalget firedobles.
̂ har størst usikkerhet ved p=0,5.
p=0 gir ingen usikkerhet  Ingen man kan velge ut.
p=1 gir ingen usikkerhet  Alle like. Likt utvalg uansett.
~ 15 ~
Estimatoren sin standardfeil(SE):
Ofte er standardavviket til estimatoren ukjent.
̅
̂
√
er ukjent når
√
er ukjent.
er ukjent når
er ukjent.
Men standardavviket kan igjen estimeres ved henholdsvis:
̂
̂
√
√
̂̂
̂
√
̂
̂
Disse kan regnes ut på bakgrunn av innsamlede data. Det er altså estimert
usikkerhet til estimatet.
Konfidensintervall(KI) for en parameter
(Parameter er en ukjent størrelse som beskriver populasjonen)
Et konfidensintervall for en parameter er et intervall på tallinja på formen [a, b], der
a og b er tall som blir beregnet på grunnlag av observerte data(og dermed er også a
og b tilfeldige, de vil variere hvis du gjentar forsøket.)
Intervallet har en egenskap som blir kalt konfidensnivå, (1 P(a ≤ parameter ≤ b) = 1 Hvis er 0,05 vil 1 - være 0,95.
Skal man si noe om en ukjent forventning , så er:
P(a ≤
≤ b) = 0,95
(a, b) er det vi kaller et 95 % KI for
EGENSKAPER TIL ET KONFIDENSINTERVALL




Konfidensintervallets grenser er tilfeldige (avhenger av de data du samler
inn), mens den ukjente parameteren er konstant, og ligger fast på tallinja.
Et konfidensintervall vil enten inneholde den ukjente parameteren eller ikke
gjøre det.
Vi vet ikke om et bestemt konfidensintervall inneholder den ukjente
parameteren.
Hvis vi gjentar samme datainnsamling mange ganger, antar vi at 95 % av
konfidensintervallene ville inneholde den ukjente parameteren (gjelder 95 %
konfidensintervall).
KONFIDENSINTERVALL FOR EN FORVENTNING, DER VI HAR KJENT STANDARDAVVIK
Anta at vi har et tilfeldig utvalg (X1, X2, …, Xn) fra en normalfordelt populasjon
med forventning og standardavvik (der blir ansett som kjent, mens er
ukjent).
~ 16 ~
Et 100(1 – ) % konfidensintervall for
[̅
̅
√
√
er gitt ved:
̅
]
√
Der
er verdien standard normalfordeling, slik at arealet mellom
lik (1 - )
VERDIER AV
OG
100(1 – a)
90%
95%
99%
99.9%
0.050
0.025
0.005
0.0005
1.645
1.960
2.576
3.291
og
er
Kan ellers bruke tabell over standard normalfordeling til å finne andre verdier.
BREDDE(LENGDE) TIL KONFIDENSINTERVALL
̂



Intervallet øker dersom konfidensgraden (1 – ,), øker og blir smalere dersom
konfidensgraden, (1 – ,) blir mindre.
Intervallet blir smalere dersom en øker antall observasjoner.
Konfidensintervallet blir smalere dersom vi kan redusere standardavviket
Dersom vi setter en øvre grense på lengden til intervallet til L, blir utvalgsstørrelsen
(nødvendig antall målinger):
(
)
KONFIDENSINTERVALL FOR p
Anta at vi observerer en binomisk variabel X med n forsøk, men der p er ukjent.
Husk normaltilnærming for binomisk variabel. Hvis X er tilnærmet normalfordelt, er
også ̂ tilnærmet normalfordelt, der
̂
̂
√
̂
̂
Da er et tilnærmet 100(1- ) % konfidensintervall for p gitt ved
[ ̂
√
̂
̂
̂
√
̂
̂
]
Der
er verdien standard normalfordeling, slik at arealet mellom
lik (1 - )
~ 17 ~
og
er
BESTEMMELSE AV n – LENGDE AV INTERVALL
Konfidensintervallets lengde L er gitt ved
√
̂
̂
Dersom vi setter en øvre grense L, blir utvalgsstørrelsen(nødvendig antall målinger)
̂
̂ (
)
Hvis vi ikke har noen idé om verdien av p, kan vi utnytte at ̂
(
̂
uansett:
)
Hypotesetesting
Ønsker å teste om en ukjent parameter har bestemte verdier eller ligger i et bestemt
område.



Sett opp nullhypotese og alternativ hypotese.
Test: En regel som avgjør om nullhypotesen skal forkastes eller ikke.
Ikke forkast nullhypotesen før du er rimelig sikker på at denne er feil.
FRAMGANGSMÅTE
1. Finn en passende sannsynlighetsmodell og formuler null hypotesen og den
alternative hypotesen.
2. Finn en testobservator (noe du kjenner sannsynlighetsfordelingen til under
null hypotesen.)
3. Velg hvor stor sannsynlighet for feilkonklusjon du kan akseptere.
4. Vedta forkastingsområdet sin kritiske grenseverdi.
5. Vi samler inn data, sammenligner observert verdi på testobservatoren med
grenseverdien og konkluderer.
6. Eventuelt beregn hvor sannsynlig det observerte er, dersom nullhypotesen er
sann
TRE GENERELLE HYPOTESER OM EN FORVENTNING
H 0:
≤
H 1:
>
H 0:
≥
H 1:
<
H 0:
=
H 1:
≠
Tosidig test
en kjent verdi, f. eks 79 kg
H1 er arbeidshypotesen vi vil teste, dvs. den påstanden som krever bevis. Blir kalt
den alternative hypotesen.
H0, nullhypotesen, er den motsatte påstanden.
Vi anser Nullhypotesen er sann inntil det motsette er bevist.
~ 18 ~
ANTA DU SKAL TESTE:
H 0:
≤
og
H 1:
>
For en eller annen kjent verdi av
Ta utgangspunkt i størrelsen:
̅
√




Naturlig å forkaste H0 dersom ̅ er stor.
Dersom ̅ er stor vil Z være stor.
Z er standard normalfordelt dersom H0 er sann, der
(79 kg i ekempel)
er forventning under H0.
Ideen er å si at nullhypotesen må være feil dersom Z er stor. Problemet er å
bestemme hvor stor Z må være for at vi skal forkaste H0 og påstå H1.
FORKASTNINGSOMRÅDET
Når er ̅ stor?



Dersom H0 er sann, er Z standard normalfordelt og vi kan finne P(Z > z), der
z er utregnet verdi.
Med andre ord kan vi finne sannsynligheten for det som har inntruffet (eller
noe enda mer ekstremt) dersom H0 er sann.
Eller vi kan finne en konstant som har sannsynlighet a for at Z er større enn
denne. Da finner vi forkastningsområdet
TRE GENERELLE HYPOTESER
H 0:
≤
H 1:
>
Forkast H0 hvis Z er stor (≥ k1).
H 0:
≥
H 1:
<
Forkast H0 hvis Z er liten (≤ k2).
H 0:
=
H 1:
≠
Forkast H0 hvis Z er liten (≤ k3) eller stor (≥ k4).
~ 19 ~
TYPER FEIL VED HYPOTESETESTING
Naturen/sannheten
Din påstand
H0 rett
H0 feil
H0 rett
OK
Type II-feil
H0 feil
Type I-feil
OK
Type I-feil: Forkaster H0, selv om den er rett.
Type II-feil: Forkaster ikke H0, selv om den er feil.
Type I-feil mer alvorlig enn Type II-feil.
Hvis man er for redd for å gjøre Type I-feil, gjør man nesten alltid Type II-feil.
Statistisk signifikans
I hypotesetesting er det vanlig å stille krav til en test.


= P(forkaste H0 dersom H0 er sann). Det er det samme som
= P(type 1 feil).
blir kalt signifikansnivået til testen.
Det er denne feilen vi vil ha kontroll på. Det er vanlig å velge signifikansnivået
= 0.05, men mange andre nivå er mulig å velge. Hvis = 0.05 er k 1.64
SIGNIFIKANS OG FORKASTNINGSOMRÅDE
Dersom du tester:
H 0: ≤
H 1:
>
med signifikansnivå .



Finn en k slik at P(Z ≥ k) = ,
Forkast H0 dersom Z ≥ k, eventuelt
√ .
Alle må kunne finne k, og dermed teste sitt forkastningsområde.
Testen sitt signifikansnivå er , det samme som maksimalt sannsynlighet for
type I-feil.
P-VERDI




– GENERELT
Sannsynligheten for at testobservatoren har den utregnede verdien eller en
mer ekstrem, dersom en antar at H0 er sann, blir kalt for p-verdien.
p-verdien forteller oss hvor stor grunn vi har til å tvile på H0.
Dersom p-verdien er liten, blir H0 forkasta og vi påstår at H1 er den mest
riktige konklusjonen.
Grensa for p -verdien blir gjerne sett ved 0.05 eller 0.01.
~ 20 ~
SAMMENHENG MELLOM BRUK AV p-VERDI OG SIGNIFIKANSTESTING

P -verdi: Sannsynligheten for å få et resultat som er minst like ekstremt som
det observerte resultatet hvis H0 er rett.
Signifikansnivå : Den største Sannsynligheten for å feilaktig forkaste H0 som
vi er villige til å akseptere.
Dersom p-verdien for en testobservator er lik eller mindre enn
signifikansnivå , sier at data gir grunnlag for å forkaste nullhypotesen med
statistisk signifikans .


Altså: Bestem signifikansnivå , og forkast H0 dersom p-verdien er mindre enn .
MER OM p-VERDI OG SIGNIFIKANSNIVÅ
Dersom H0 er sann, er Z standard normalfordelt og vi kan finne

Enten en konstant k, som er slik at
P(Z > k) =
Eller vi kan gå rett på det observerte

P(Z > observert )
Med andre ord kan vi finne sannsynligheten for det som har inntreffet (eller noe
enda mer ekstremt) dersom H0 er sann.
Det første kalles testing på
signifikansnivå, det andre p-verdi
Tosidige tester
(Alternativet er ulikt fra ensidige tester)
H 0:
=
H 1:
≠
TOSIDIGE TESTER – p-VERDI
̅
√



Dersom H0 er sann, er Z standard normalfordelt.
At ̅ er stor eller liten, er det samme som at
er stor.
Merk at p-verdien blir dobbelt så stor som for en ensidig test, Z er lik.
TOSIDIGE TESTER – SVIGNIFIKANSNIVÅ
= 0.05
Finn en k slik at P(|Z| > k) = .
/2 = 0,025
Da må k =
F.eks
= 0.05, da må
= 1,96
= 1.960.
Ved ensidig test er det nok at
= 1.645.
~ 21 ~
Nivå ( )
0.100
0.050
0.025
0.010
0.005
0.001
1.282
1.645
1.960
2.326
2.576
3.090
Ved tosidige tester, finn halve nivået slik at du har
Eks: nivå 0.1 (10%) tosidig test, da
.
= 1.645.
SAMMENHENG MELLOM TOSIDIGE TESTER OG KONFIDENSINTERVALL
H 0:
=
H 1:
≠
Tosidig test:

Test denne på nivå , da vil alle verdier av
% KI bli forkastet.
som faller utenfor et (1 – )100
Et konfidensintervall kan betraktes som en samling tosidige tester som ikke kan
forkastes
p = 0,182


90 % KI - intervall dekker
80 % KI - intervall dekker ikke.
Test av p i binomisk fordeling
Anta X er binomisk fordelt (n, p)
For eksempel ønsker vi å teste
H 0: p ≤ p 0
H1: p > p0.
der p0 er en kjent verdi



Hvis n er liten, kan du regne ut testens p-verdi direkte.
Dersom du observerer at X = k, finn P(X ≥ k) dersom H0 er sann.
Husk at p-verdien er sannsynligheten for det observerte eller noe som er
enda mer ekstremt.
TEST AV BINOMISK SANNSYNLIGHET NÅR n ER STOR
Vi har tidligere sett at når n er stor nok, så kan du tilnærme med normalfordeling.
√
~ 22 ~
̂
√
Under H0: p = p0, vil
̂
√
Oppsummering hypotesetest av p



Ved signifikansnivå .
Anta du skal teste H0: p = p0.
Alternativ hypotese
o Dersom H1: p > p0, forkast H0 dersom Z >
o Dersom H1: p < p0, forkast H0 dersom Z < o Dersom H1: p ≠ p0, forkast H0 dersom |Z| >
der:
̂
√
√
~ 23 ~
SAMMENLIGNING AV GRUPPER
Parvis sammenligning
Et par er en organisering av forsøket som gjør at gruppene blir sammenlignet under
relativt homogene betingelser. Målet er å fjerne (eller redusere) uønsket variasjon
som ikke er av interesse for forsøke, men som vil forkludre resultatet.
Observasjoner innen par vil da være avhengige, mens det er uavhengighet mellom
par. Avhengigheten innen par gjør at man får tilnærmet like betingelser for testene.
EKSEMPLER PÅ PAR:
- Høyre og venstre fot kan teste hver sin joggesko
- To griser fra samme kull kan teste hvert sitt fôr.
- To arealer ved siden av hverandre kan ha hver sin sort korn.
- Før og etter resultater hos en enkeltperson kan si noe om treningsmetode.
METODEN:
Metoden går ut på å sammenligne differansen innad i parene, noe som gjør at man
ikke får støy i forhold til at noen par i utgangspunktet er flinkere, bedre etc.
Vi har følgende par av X og Y, samt differansen.
Par
1
2
.
.
n
X
X1
X2
.
.
Xn
Y
Y1
Y2
.
.
Yn
Differanse
D1 = X1 - Y1
D2 = X2 - Y2
.
.
Dn = Xn – Yn
Di = Xi – Yi
i = 1, 2, ..., n
E(Xi) = µ1 og E(Yi) = µ2
E(Di) = µ1 - µ2 = µd
Var(Di) = σd2
̅
̅
Di~N(µd, σd)
̅
̂
̅
̂
µd - Gjennomsnittlig forskjell i par
µd = 0 betyr at det ikke er forskjell
µd > 0 betyr at µ1 er større enn µ2
̅
√
HYPOTESETEST AV µd
ved signifikansnivå α
~ 24 ~
√
∑
̅
Alternative hypoteser:
- Dersom µ1 > µ2, forkast H0 dersom T > tα
- Dersom µ1 < µ2, forkast H0 dersom T < -tα
- Dersom µ1 ≠ µ2, forkast H0 dersom |T| > tα/2
der:
̅
√
som er t-fordelt med n-1 frihetsgrader under H0, der n er antall par.
Når man tester under H0 forsvinner den ukjente
variabler:
̅
(
̅
√
√
og vi står igjen med kjente
)
Man slår opp verdier i tabell eller lar dataen regne.
p-verdi
k
KONFIDENSINTERVALL FOR FORVENTET
DIFFERANSE VED PARVISE DATA
Et 100(1 – α) % konfidensintervall for µd er
gitt ved
̅
0,95
√
-k
0
k
√
Verdien 0 har her stor fokus, siden 0 betyr at det ikke er noen differanse. Hvis
konfidensintervallet inneholder 0 gjør det at man ikke kan forkaste H0.
To uavhengige utvalg
Man har ikke en type data som gjør det naturlig å konstruere par. Ethvert forsøk på
å skape par vil være unaturlig og ikke fungere til å teste parvis.
I uavhengige utvalg kan man ha stor variasjon innad, noe som gjør at forskjell
mellom A og B kan drukne.
Man sammenligner forventningene i to grupper, som for parvis sammenligning, men
her er det også uavhengighet innen gruppene i tilegg til mellom gruppene. Vi har full
randomisering.
POPULASJON
Gruppe
1
2
Variabel
X
Y
Snitt
µ1
µ2
~ 25 ~
Standardavvik
σ1
σ2
UTVALG/DATA
Gruppe
1
2
Observasjoner
n1
n2
Snitt
̅
̅
Standardavvik
S1
S2
Vi ønsker å undersøke differansen µ1 - µ2, men vi ser ikke på differansen mellom
enkeltobservasjoner.
ESTIMERING AV µ1 - µ2 OG σ
̅ ̅
̂ ̂
̅
̅
̅
̅
̅
̅
Felles (interpolert) varians(Spooled) blir da estimert med:
Hvis n1 = n2 = n:
̅
∑
̂
∑
̅
̂
̅
̅
√
OBS:
At σ1 = σ2, dvs. samme standardavvik i begge grupper, er en modellantagelse.
Den kan enten grunngis ved fagkunnskap, eller ved å se etter om S1 og S2 er relativt
like. De vil derimot ikke bli helt like selv om standardavviket er likt, siden S1 og S2
er basert på observasjoner.
En (veldig) grov tommelfingerregel er at hvis
med moderat antall observasjoner, kan man anta at σ1 = σ2
FORDELINGSEGENSKAPER
̅
̅
√
er t-fordelt med (n1 + n2 - 2) frihetsgrader
~ 26 ~
Kan brukes til å teste hypotesene
som er det samme som
ET 100 %(1 - α) KONFIDENSINTERVALL FOR DIFFERANSEN
̅
der
̅
√
er en tabellverdi med (n1 + n2 - 2) frihetsgrader.
Hvis intervallet dekker 0 kan man ikke si at det er en forskjell.
Variansanalyse
Varians inne i gruppe er uforklart og kan omtales som støy. Vi har ikke data som
kan forklare det.
Variasjon mellom gruppene forklares ved hjelp av faktoren/gruppen de sorteres
etter.
Variansanalysen er en generalisering av to-utvalgs T-testen og benyttes for å kunne
sammenligne gjennomsnitt i mange grupper samtidig.
Analysen kalles ofte ANOVA – Analysis of variance
Hovedpoenget med variansanalysen er å sammenligne variasjonen innad i gruppene
med variasjonen mellom gruppene.
Enveis variansanalyse
Vi har k grupper vi vil sammenligne med hensyn på en eller annen respons.
La Yij være observasjon nr. j fra gruppe i.
der
i = 1, 2, .., k
og j = 1, 2, 3, ..., n
Antall observasjoner: N = n1, n2, n3, ..., nk
Totalt gjennomsnitt: ̅
Totalt standardavvik: ST
̅
Gjennomsnitt i gruppe i:
Standardavvik i gruppe i: Si
~ 27 ~
OPPSPLITTING AV DATA
Observasjon = signal(det jeg forstår) + støy(det jeg ikke forstår)
̅ (
̅)
Vi kan trekke fra totalgjennomsnittet ̅ på hver side:
̅
̅
̅
̅)
(
Avvik fra totalt snitt = gruppas avvik fra totalt snitt + tilfeldig avvik i hver gruppe
KVADRATSUMMER
Kvadrer begge sider av likhetstegnet. Summer deretter begge sider av likningen for
alle verdier av i og j. Da får du følgende tre kvadratsummer:
∑ ∑(
∑
̅
̅)
̅
∑
SSG er da et uttrykk for variasjon mellom grupper
SSE er et uttrykk for variasjon innen grupper
SST = SSG + SSE
Dvs. Total variasjon = forklart variasjon + uforklart variasjon
Hvis SSG er stor i forhold til SSE er det naturlig å anta forskjell mellom grupper.
MODELL FOR ENVEIS VARIANSANALYSE
Anta at vi har k grupper med ni observasjoner i gruppe i.
Anta at disse er et tilfeldig utvalg fra en normalfordeling med forventning µi, i = 1, 2,
…, k og standardavvik σ (merk at standardavviket antas likt i alle grupper).
Dvs:
eller
ESTIMERING AV PARAMETRE
Modellen i enveis variansanalyse inneholder k + 1 parametre. Dvs. alle k gruppene
og standardavviket.
~ 28 ~
Forventning i hver gruppe blir estimert ved utvalgsgjennomsnittet
̅
̂
Felles standardavvik blir estimert ved:
̂
∑
√
√
̂
∑
√
Varians er , også kjent som MSE som nevnt ovenfor. Dette er vårt beste estimat på
den ukjente variansen σ2.
Standardfeilen til ̂ er:
̂
√
Altså:
̂
̅
̂
√
∑
̂
√
ANDEL FORKLART VARIASJON:
Andelen variasjon som er forklart av modellen(gruppene)
VARIANSANALYSETABELL
SS
df
MS
F
P
Variasjonskilde
Kvadratsum
Frihetsgrader
Varians
F-verdi
p-verdi
Mellom gr.
SSG
k–1
Innad i gr.
SSE
N–k
Total
SST
N–1
HYPOTESETESTING
~ 29 ~
Under H0 vil alt være helt likt.
H1 sier ikke noe om hvor forskjellen ligger, bare at minst to av
gruppeforventningene er ulike.
FORKASTE H0
-
Hvis vi observerer SST er det naturlig å forkaste H0 hvis SSG er stor.
Det er det samme som at SSE må være liten, siden summen er fast.
Derfor er det også naturlig å forkaste H0 hvis SSG/SSE er stor
Blir naturlig å forkaste H0 dersom er stor:
NÅR F ER STOR
Under H0 er F Fisher-fordelt (f-fordelt) med (k – 1) og (N – k) frihetsgrader.
Lat som om H0 er sann. Da har F en kjent fordeling, og vi kan regne ut
sannsynligheten for å få en stå stor F som den vi fikk. Hvis det er veldig
usannsynlig, forkaster vi H0.
Verdier for F finner
man ved å bruke
tabellen som ligger
vedlagt.
(k-1) settes som v1.
(N-k) settes som v2.
α er sannsynligheten
for å få verdien Fα.
α er p-verdien.
Kontraster og enveis variansanalyse
Hvis vi forkaster H0, vet vi allikevel ikke hvor forskjellen mellom gruppene ligger.
Kontraster til forventningene sier noe om dette.
Kontraster er lineærkombinasjoner av forventninger som uttrykker det vi er
interessert i. Den ser på forskjellen mellom gruppene.
En forskjell mellom forventningene i de k gruppene kan måles på forskjellige måter,
for eksempel ved:
~ 30 ~
(
)
(
)
Det er viktig at summen av parametrene blir 0, dvs. at alle parametrene teller like
mye så man finner forskjellen mellom dem.
Slike lineære funksjoner kalles kontraster, i parametrene 1, 2, 3, …, k. De er
viktige og mye brukt i variansanalysen. Generelt er en slik kontrast en lineær
funksjon på formen:
∑
der
er konstanter og oppfyller betingelsen at
∑
er tallene man ganger µ med for å balansere den lineære funksjonen.
Det er naturlig å estimere forventningene i hver gruppe med tilsvarende
gjennomsnittene i observasjonen, dvs:
̂
̅
En fornuftig estimator for kontrasten θ er dermed:
̂
̅
̅
̅
∑
̅
̂ er forventningsrett, mens var( ̂) kan estimeres forventningsrett ved:
( ̂)
( ̂)
∑
√
̂
̂
̂
T kan brukes til å teste hypoteser, f.eks.
~ 31 ~
Analyse av kategoriske krysstabeller (toveistabeller)
En krysstabell (kontigenstabell) er en tabell som oppsummerer resultatet fra et
forsøk der en registrerer to kategoriske variable. Individene blir kvalifisert etter
disse to variablene. I tabellen teller vi opp hvor mange som kommer i snittet av to
kategorier.
En variabel kalles
rad-variabel og den
andre kalles
kolonne-variabel.
En har r kategorier
for rad-variabelen og
k kategorier for
kolonne-variabelen.
I eksempelet er
status kolonne-variabel og røykevaner er rad-variabelen.
OBS: Fordelingen er binomisk.
BETINGET FORDELINGSRESULTAT
DATASTRUKTUR
~ 32 ~
Ri – totalt antall enheter med radkjennetegn Ai
Kj – totalt antall enheter med kolonnekjennetegn Bj
HYPOTESER I TOVEISTABELLER
H0: Det er ingen sammenheng mellom kolonne- og radvariable, de er uavhengige.
H1: Det er sammenheng mellom kolonne- og radvariable, de er avhengige.
-
Vi har n (uavhengige og tilfeldig valgte) observasjoner fra en populasjon og
noterer hvilken kategori hver av disse kommer i for to kategoriske variable.
Variabel 1 (radvariabelen) har kategori A1, A2, …, Ar.
Variabel 2 (kolonnevariabelen) har kategori B1, B2, …, Bk.
Tell deretter opp hvor mange som har kommet i snittet (Ai, Bj) for alle par i og
j. Kall dette antallet Xij. Denne er binomisk fordelt med n og sannsynlighet
pij = P (Ai  Bj).
-
Hvis begivenhetene Ai og Bj er uavhengige, vil (
Vi får dermed:
(
)
(
)
( )
( )
)
( )
UAVHENGIGHET MELLOM TO VARIABLE
Vi kan estimere slik:
( )
Dersom det er uavhengighet mellom kolonnevariabelen og radvariabelen, dvs. hvis
H0 er sann, vil forventet antall ( (
(
)
(
)
)) observasjoner i celle (i, j) bli
( )
EKSEMPEL – OBSERVERTE OG FORVENTEDE VERDIER
~ 33 ~
( )
FORKASTE H0
Vi forkaster H0 dersom det er store avvik mellom de observerte verdiene xij og de
forventa (under H0) verdiene Eij.
Da er følgende stor:
∑∑
(
)
∑
FORDELING UNDER NULLHYPOTESEN
Vi har sannsynlighetsfordelinga til Q
under H0. Dermed kan vi finne en
konstant, k, som er slik at dersom H0
er sann, er det sannsynlighet α for at
Q skal bli større enn denne. Dvs.
P(det inntrufne) dersom H0 er sann.
Hvis H0 er sann, følger Q (tilnærmet)
det vi kaller en kjikvadratfordeling
med (r-1)∙(k-1) frihetsgrader, der r er
antall rader og k er antall kolonner.
α

2
Kjikvadratfordeling skrives  og
fordelingen finner man i en tabell.
~ 34 ~
ANALYSE AV SAMMENHENGER
Generelt
Noen ganger er det forskjell på betydningen av to variable, X og Y:
RESPONSVARIABELEN (Y) er selve målet for den undersøkelsen vi foretar. Den blir ofte
kalt den avhengige variabelen.
FORKLARINGSVARIABELEN (X) forklarer eller gir årsaken til noe av variasjonen i
responsvariabelen. Den blir ofte kalt den uavhengige variabelen.
Vanligvis oppfatter vi den ene variabelen Y som en funksjon av den andre, X. Det
fremgår vanligvis av teksten hva som er hva.
EKSEMPLER
VEKT OG HØYDE
Respons er vekt, forklaringsvariabel er høyde
Man kan da se på hvordan høyde påvirker vekt, og se hvordan vekten øker når man
blir høyere. Det blir mindre fornuftig å se på hvorda vekt bestemmer høyde.
Her er begge kontinuerlige.
VEKT OG KJØNN
Respons er vekt, forklaringsvariabel er kjønn.
Her kan man se på hvor stor vektforskjell det er mellom kjønn.
Forklaringsvariabelen er her kategorisk(“jente” og “ikke jente”)
SJUKDOM OG KJØNN
Respons er sjuk/ikke sjuk, forklaringsvariabelen er kjønn
Her er begge kategoriske.
Første møte med data
Hvis man skal studere sammenhenger mellom to numeriske variable tegner man et
spredningsplott(scatterplot).
Et spredningsplott viser sammenhengen mellom to variable som er målt på de
samme objektene.
Verdiene til de to variablene finner man på x-aksen og y-aksen, og hvert objekt
opptrer som et punkt i plottet. Plasseringen er da bestemt med verdier fra begge
variablene.
Målet er å finne matematiske modeller for å beskrive sammenhengen mellom to
variable. Det kan f.eks. være en lineær linje eller en
2. gradskurve.
Vurdere et spredningsplott
Når man har et spredningsplott ser man etter
mønstre eller avvik fra slike mønstre. Det man ofte
bruker for å beskrive det er:
- Retning
- Form
- Styrke
~ 35 ~
Tallfeste spredning
Det holder ikke å bare vite senter og spredning for å studere sammenheng mellom
variable. Dette ser man av eksempelet under hvor man har samme gjennomsnitt og
standardavvik for både Y1 og Y2.
Descriptive Statistics: X; Y1; Y2
Variable
N
Mean
StDev
X
10
5.500
3.028
Y1
10
5.500
3.028
Y2
10
5.500
3.028
Korrelasjon
Tallfesting av sammenheng mellom to variable.
Korrelasjon måler styrke og retning av den lineære sammenhengen.
Korrelasjonskoeffisien blir vanligvis kalt r, og er gitt ved:
∑
√∑
̅
̅
√∑
̅
̅
Vi har n observasjonspar (x1, y1), (x2, y2), ..., (xn, yn)
Sxy er en estimator for kovariansen Cov(x, y) og defineres
∑
̅
̅
sx og sy er standardavvik. Får man oppgitt sxx og syy tar man kvadratroten.
OBS: Dette pleier man å la dataen regne ut.
~ 36 ~
KORRELASJONSKOEFFISIENTEN(r):
-
Skiller ikke mellom variablene.
Krever at begge variable er kvantitative(numeriske)
Blir ikke forandret dersom vi forandrer skala
Dersom r > 0 indikerer det at det er en positiv sammenheng mellom variable
Dersom r < 0 indikerer det en negativ sammenheng mellom variable.
Dersom r = 0 er det ingen lineær sammenheng mellom variable.
r vil alltid være et tall mellom -1 og +1
r måler styrken av den lineære sammenhengen mellom to kvantitative
variable
r beskriver ikke sammenhengen mellom to variable der denne har form som
en ikke-lineær kurve.
ULIKE FORMER FOR SAMMENHENG MELLOM TO VARIABLE
SVAKHETER
-
-
Sier ikke noe om årsak/virkning.
En linje som følger en 2. gradsfunksjon
kan f.eks. få r = 0, se illustrasjon 
Data som følger en rett linje kan får en
lavere r hvis man har fått inn feildata
som gjør at en enkelt observasjon skiller
seg ut.
Har mange svakheter, så man må se
dottplottet i tilegg.
~ 37 ~
Lineær regresjon
En regresjonslinje er en rett linje som beskriver hvordan responsvariabel(y)
forandrer seg når forklaringsvariabelen (x) forandrer seg
α er der linja skjærer y-aksen og verdien
man får når x = 0. Er ikke alltid man kan
tolke denne på en fornuftig måte, men gir
mening i noen tilfeller.
β er stigningstallet til linja. Det er den
verdien Y øker med når x øker med 1.
MODELL FOR LINEÆR REGRESJON
Anta at du har n uavhengige observasjoner av (Y, x). For hver av disse antar vi:
ei-ene er enkeltmålingenes avvik fra linjen. Hvis man ikke tar med dette leddet
antar man at alle med samme x-verdi får samme y-verdi, altså ingen spredning.
Y kan deles inn i en forklart del og en uforklart del. Feilleddet er en tilfeldig
størrelse som forstyrrer den lineære sammenhengen.
Modellen medfører:
Yi-ene er uavhengige
Yi er normalfordelt
som skal bli forstått Y|x
PARAMETRE I REGRESJONSMODELLEN
Modellen
har 3 ukjente parametre som må tolkes konkret for datamaterialet man jobber med:
α, β og σ
ESTIMERING AV PARAMETRE: MINSTE KVADRATERS REGRESJONSLINJE
Vanligvis er parametre ukjente og må dermed estimeres.
Minste kvadraters metode for å estimere regresjonslinja går ut på å tilpasse den
linja som passer best mulig til data etter følgende kriterium:
-
Bestem estimatene for α og β (og dermed linja) slik at kvadratsummen av alle
vertikale avvik mellom de observerte datapunktene og linja blir minst mulig.
~ 38 ~
∑
∑
Minste kvadraters linje er
̂
̂
̂
̂
∑
̅
∑
̂
̅
̅
̅
̂ ̅
Legg merke til at stigningstallet er proporsjonalt med korrelasjonen
Legg merke til at linja går gjennom punktet ̅ ̅
FORKLART OG UFORKLART DEL
Vi har modellen
Vi kan dele opp den observerte Yi:
-
Forklart del:
Uforklart del:
er ukjent. Derimot kan den anslås ved det vi kaller residual:
̂
(̂
̂ )
̂
KVADRATSUMMER(SS – sum of squares)
̂
Vi har ̂
(̂ ̂ )
̂
eventuelt
̂
Da kan vi også skrive:
̅
(̂
̅)
̂
(̂
̅)
(
̂)
∑
̅
̂
∑( ̂
∑(
~ 39 ~
̂
̅)
̂ )
∑( ̂
∑(
̅)
̂)
ESTIMERING AV σ:
∑
̂
̂
(
̂
̂ )
∑
̂
√
ANDEL VARIASJON FORKLART AV MODELLEN(r2)
r2 er lik korrelasjonen opphøyd i annen. Hvis r = 0,9 vil man derfor kunne forklare
81 % av variasjonen ved en lineær sammenheng.
Stor σ gir liten r2, og stor r2 gir liten σ.
KVALITET PÅ ESTIMATENE
Estimatene er normalfordelte og forventningsrette, men ̂ og ̂ ikke uavhengige.
̂
( ̂)
Variansen til regresjonskoeffisienten:
( ̂)
∑
̅
Variansen blir mindre hvis man får en større n. Det gir mindre variasjon..
Standardfeilen til ̂
(̂)
√
∑
̅
√
( ̂)
( ̂)
̂
FORDELINGSRESULTAT FOR ̂
Vi har resultat:
-
̂ er forventningsrett estimat for
̂
(
( ̂ ))
Da er
̂
̂
̂
√∑
̅
(̂)
SAMMENHENG MELLOM X OG Y - HYPOTESER
Man vurderer om det er en sammenheng eller tilfeldigheter som gjør at den
estimerte regresjonslinjens stigningstall er forskjellig fra null.
~ 40 ~
Hvis β = 0 betyr det ingen sammenheng mellom de to variablene x og Y, siden xleddet forsvinner.
FORKASTE H0 VED SIGNIFIKANSNIVÅ α:
-
TESTING AV
β
̂
(̂)
Hvis man tester
̂
mot et eller annet alternaltiv, vil
(̂)
Dermed har man bare kjente verdier og kan regne ut T. Se tabellverdi.
KONFIDENSINTERVALL FOR β
Et 100(1-α)% konfidensintervall for β er gitt ved:
̂
( ̂)
Det er interessant om intervallet dekker 0, siden
dette sier noe om det er sammenheng mellom x
og Y.
kan forkastes hvis 0 ikke
befinner seg inne i intervallet, siden det er
innholdet i intervallet man tror på.
FORVENTET RESPONS NÅR VI KJENNER X – ESTIMERING AV E(Y|X0)
Et naturlig estimat for dette er
̂
̂
̂
Standardfeilen for estimatet er gitt ved
( ̂)
√
(
̅
)
̂
√
̅
∑
̅
~ 41 ~
ˆ
KONFIDENSINTERVALL FOR FORVENTET RESPONS
Et 100(1 – α)% konfidensintervall for E(Y|x0) er gitt ved
(̂
̂
√
)
̅
∑
̂
̅
( ̂)
Prediksjon innen lineær regresjon
Anslå verdien av en enkelt observasjon.
Vi har sett på forventet respons(i betydning gjennomsnitt for hele populasjonen) for
en gitt verdi av x. Nå skal vi se på en enkelt observasjon.
En av hovedmålsettingene ved regresjonsanalyse er å utføre prediksjon, dvs.
beregne verdier av ukjent Y på grunnlag av den kjente x.
Eks. Hvor mye man anslår at en person veier når vi kjenner høyden.
̂
̂
̂
Vi kan regne ut et intervall som med en viss sikkerhet inneholder den ukjente
responsen, et prediksjonsintervall.
FORSKJELL PÅ ESTIMERING OG PREDIKSJON
Merk at i den ene situasjonen skal vi estimere en forventning E(Y|x0),
populasjonsgjennomsnittet for Y for alle med samme x, altså hvor linja går i det
punktet.
I den andre situasjonen skal vi prøve å anslå verdien på en tilfeldig variabel, Y, når
vi kjenner x.
Vi bruker ̂
̂
̂
i begge situasjonene.
Hver enkelt observasjon er mer usikker enn gjennomsnittet, siden det i snitt vil
jevne seg ut. En enkelt observasjon kan derimot ha store avvik, både til den ene og
den andre siden.
I tilegg til usikkerheten knyttet til hvor linja skal gå, må vi ta hensyn til
usikkerheten som skylder feilleddet e.
Derfor er prediksjonsintervallet(for observasjonene) bredere enn
konfidensintervallet(for den ukjente linja)
PREDIKSJONSINTERVALL
Et 100(1 – α)% prediksjonsintervall er gitt ved
(̂
̂
)
√
̅
∑
̅
Forskjellen fra konfidensintervallet er at man legger til 1 under rottegnet.
~ 42 ~
BREDDEN TIL INTERVALLENE
Konfidensintervall:
n∞
Bredden  0
hos KI for E(Y|x0)
Prediksjonsintervall:
n∞
Bredden 
Hvis s = 0  rett linje
Prediksjonsintervallene blir ofte veldig brede, med stor usikkerhet. Det er mange
usikre elementer.
Modellkritikk av lineær regresjon
-
Følger ikke alltid en rett linje
̂
̂
-
̂
(residual)
Residualene summerer seg alltid til 0.
Dermed er snittet lik 0.
Er ikke nødvendigvis konstant varians
Forutsetning for residualene hos modellen
o Uavhengige
o
o Konstanten er uavhengig av x
o
Dottplottet skal heller ikke vise mønster
Støy har ingen struktur!
~ 43 ~
GENERELT
Konfidensintervall
Bredden varierer med n:
Flere frihetsgrader gir en annen t.
Flere data gir et smalere intervall
ENSIDIG OG TOSIDIG TEST
I statistikkprogrammer får man oppgitt p-verdien til tosidig test. Hvis man halvverer
verdien kan man få ensidig test.
Hvis man har p-verdien til en ensidig test, kan man doble verdien for å finne for
tosidig test.
p-verdi
p-verdi er sannsynligheten for det observerte eller noe enda mer ekstremt hvis H0 er
sann. Dvs. sannsynligheten for å observere det man observerer, som kan ligge
ganske langt unna hypotesen, hvis H0 er sann.
Hvis p-verdien er veldig liten, kan man forkaste H0. Hvor liten bestemmes av hvor
stor sikkerhet man godtar og om det er en ensidig eller tosidig test. Det er vanlig å
forkaste H0 hvis p-verdien er mindre enn 0,050.
α-VERDIEN sier hvor stor usikkerhet man har, f.eks. 0,050, som er 5 % usikkerhet.
Merk: tester man tosidig, må man bruke α/2, siden man får en usikkerhet i hver
ende av skalaen. α = 0,050 i en ensidig test gir 95 % sikkerhet. For å få samme
sikkerheten i en tosidig test må man ha α = 0,025, siden den usikkerheten i hver
ende etterlater et sikkert intervall på 95 %.
SAMMENHENG MELLOM α-VERDI OG P-VERDI
p-verdien er det minste valget av α-verdien som vil lede
til forkastning av H0 på grunn av de observerte data.
VERDIER PÅ GRAFEN
I de ulike modellene regner man ofte ut en verdi, f.eks.
T, og sammenligner så mot tabellverdien for metoden.
Tabellverdien settes som k og hvis T-verdien befinner
seg utenfor, altså er større i forhold til illustrasjonen, forkastes H 0. Arealet α er da
sikkerheten man tester på, og man ser om sannsynligheten er større eller mindre.
Hvis man regner ut på data, kan derimot den finne den eksakte p-verdien til
resultatet. Setter man resultatet som k er dermed arealet α lik p-verdien og den
eksakte sannsynligheten for det observerte.
Ulike navn for estimert standardavvik
̂
~ 44 ~
Forkastningsområde ved ulike tester
Her er et eksempel fra lineær regresjon, men forkastningsområdene er det samme i
andre tester også. Hypotesene vil bare skrives annerledes:
-
Skrivemåter ved utregning
MODELLBRUK
Når man regner ut er det viktig å ta med hvilke modell man bruker, og forklare de
ulike verdiene og parametrene.
EKSEMPEL PÅ FØRING AV MODELL
Yi =  + xi + ei der ei-ene er uavhengige og N(0, ).
Yi er avling nr. i, og xi er såtid nr i.
i = 1, 2, . . . .14.
Estimater (fra utskrift)
ˆ  554.5
ˆ  2,82
ˆ  21.8
Dersom vi sår 1, april estimerer vi gjennomsnittsavling til 554,5 kg
Foreventet tap i avling pr sådag utsatt estimeres til 2,82 kg.
Spredning (standardavvik) for avling med samme såtid estimeres til 21,8 kg.
GJENNOMFØRING AV ULIKE TESTER
Når man bruker ulike tester, f.eks. T-test, bør man få med hvilke nivå man tester
på, antall frihetsgrader etc. En grei måte å skrive dette på er:
̅
̅
√
EKSEMPEL PÅ FØRING AV T-TEST
T=
y1  y 2
Sp
1
n1

1
n2
=
4.51  3.93
0.4715
1
10
 101
= 2,75 > t0.05,27 = 1.703
~ 45 ~
PROGRAMMET “R”
Ord og uttrykk
̂
I LINEÆRREGRESJON:
̂
̂
KJIKVADRATFORDELING
~ 46 ~
TABELLER
Kumulativ binomisk sannsynlighet
KUMULATIV SANNSYNLIGHET
P(X ≤ k) finnes i tabellen
P(X ≥ k) = 1 - P(X ≤ k-1)
~ 47 ~
Kumulativ poissonfordeling
~ 48 ~
Kumulativ standardnormalfordeling
~ 49 ~
Standardnormalfordelingens kvantiltabell
~ 50 ~
t-fordelingens kvantiltabell
TABELL TIL NÅR σ ER UKJENT
5 frihetsgrader, =0,05
og ukjent σ gir t = 2,015
5 frihetsgrader, =0,05
og kjent σ gir t = 1,645
~ 51 ~
Kjikvadratfordelingens kvantiltabell
~ 52 ~
Tabell for Fisher F-fordeling
~ 53 ~