Multippel regresjon

 Vi
ønsker å tilpasse en rett linje gjennom
dataskyen
 Denne
linjen skal ha den beste tilpasningen
(minst feil) til data
20
Disse avvikene skal minimeres
10
5
0
Y
15
Trendlinje
2
4
6
X
8
10
 Avhengig
variabel: y
 Uavhengig variabel x
y
= ax + b
I
regresjonsanalyser:
"Structure"
2
-2
4
0
Y
6
2
8
4
10
6
"Noise"
2
4
6
8
10
2
14
X
4
6
12
X
0
2
4
6
Y
8
10
"Structure + Noise"
2
4
6
X
8
10
8
10
 Y=β0
+β1X
Litt tidkrevende å
regne ut. Dette gjøres
vanligvis av et
dataprogram
Enkel når vi først vet β1
1.
2.
3.
4.
Det finnes en y-verdi for hver x-verdi
y-variabelen er normalfordelt
Gjennomsnittene til disse
normalfordelingene ligger på
regresjonslinja og de har samme
standardavvik
y-variablen er kun en funksjon av x
 Vi
skal se på vekt som en funksjon av alder
 Datasettet er ikke reelt, men gir oss en god
innføring i regresjonsanalyse
 Vi har registert alder og vekt hos 100 menn i
30 årene (10 fra hvert årsintervall)
 Vi ønsker å bruke disse dataene til å si noe
om hvor mye denne gruppen menn i Norge
legger på seg i løpet at et år
90
85
vekt
80
75
70
30
31
32
33
34
35
alder
36
37
38
39

Først regner vi ut summen over brøkstreken
= 380.2
Deretter under =825
β1=380.2/825=0.46
β0= 77.34 -0.46*34.5 =61.47

Y= 61.47 +0.46*x

lm(formula = vekt ~ alder)

Coefficients:




(Intercept)
alder
Estimate
61.4407
0.4608
Std. Error
4.1298
0.1193
t value Pr(>|t|)
14.877 < 2e-16 ***
3.863 0.000201 ***
Bruk informasjonen over til å prediktere vekt ved alder 35, 40 og 1
år
90
85
vekt
80
75
70
30
31
32
33
34
35
alder
36
37
38
39
r=0
r=-1
0>r<1
r=1
r=0
 Korrelasjonskoeffesienten
r
r og r2
beregnes via formelen
r
gir oss antall standardavvik y endrer seg
dersom x endres med ett standardavvik.
r
har grensene -1 og 1
 Måler
hvor mye av variasjonen den lineære
modellen forklarer
 SS

(sum of squares)
"Y minus rød linje"
Regr line
 SSE

(Residual sum of squares)
"Y minus grønn linje"
Mean(Y)
 r2 =
SS – SSE
SS
SS = Total variasjon
SSE = Resterende (Residual) variasjon
SS-SSE = SSR (Sum of Square Regresjon)
 Gitt
data for antallet kroner brukt på
radioreklame og overskudd i 150 små
bedrifter
 Sammenhengen
mellom x (kroner i reklame)
og y (Inntekter i 1000 kr) er det samme i alle
tre eksemplene. “Støyen" er ulik
 Vil
du anbefale meg som bedriftsleder å
invistere i radioreklame, og hvor mye?
10
6
4
2
beta1 0.00691 p-value 0 R-squared 0.9021
0
Selskapets overskudd i 100 000 kr
8
r 0.95 p-value 0
0
50
100
Kr til Radioreklame i 1000
150
10
8
6
4
2
beta1 0.00637 p-value 0.002 R-squared 0.0663
0
Selskapets overskudd i 100 000 kr
r 0.26 p-value 0.002
0
50
100
Kr til Radioreklame i 1000
150
10
8
6
4
2
beta1 0.00805 p-value 0.132 R-squared 0.0153
0
Selskapets overskudd i 100 000 kr
r 0.12 p-value 0.132
0
50
100
Kr til Radioreklame i 1000
150
 Lineær
regresjon lar oss beregne den best
tilpassede rette linjen mellom datapunktene
til to variabler
I
noen datasett finnes det flere lineære
sammenhenger
 Vi ønsker å justere for effekten av disse, og
vise hvilke som er signifikante effekter
 Basketball
 Vi
har mål høyden til 100 basketballspillere
og vi har et mål på hvor mange poeng de
gjennomsnittlig har scoret i løpet av en
sesong
 Vi tror det er en sammenheng mellom høyde
og gjennomsnitlig poengfangst
 Coefficients:

Estimate
Std. Error
t value Pr(>|t|)

(Intercept)
-54.63216
8.26963
-6.606
2.06e-09

height
0.40114
0.04162
9.638
7.40e-16
 Basketball
 Vi
vet i tillegg vekten til basketballspillerene
 Vi tror også det er en sammenheng mellom
vekt og gjennomsnittlig poengfangst
(Tyngre = mer muskler)
 Coefficients:

Estimate
Std. Error
t value Pr(>|t|)

(Intercept)
-18.2857
5.1093
-3.579 0.000538

basket$weight 0.4145
0.0488
8.493
2.22e-13
 To
 Vi
variabler som korrelerer med score
ønsker å oppgi effekten av gjennomsnitlig
score for høyde justert for vekt
 Eller
 Gjennomsnittlig score for vekt justert for
høyde
 Generell

formel
Yhatt = skjæringspunkt
+stigningstall variabel1 * verdi variabel 1
+....+
stigningstall variabel n *verdi variabel n

Hvis regresjonsparameteret βn er signifikant forskjellig fra
null inkluderer vi denne termen i analysen vår

Call:
lm(formula = basket$score ~ basket$weight + basket$height)
Coefficients:
Estimate
Std. Error
t value
(Intercept)
-48.64826
8.39305
-5.796
Pr(>|t|)
8.44e-08 ***

basket$weight 0.17744
0.07032
2.523
0.0133 *

basket$height 0.27766
0.06356
4.369
3.14e-05 ***

--Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1








Residual standard error: 3.332 on 97 degrees of freedom
Multiple R-squared: 0.5185,
Adjusted R-squared: 0.5086
F-statistic: 52.23 on 2 and 97 DF, p-value: 4.031e-16