Download Report

¨
L UNDS TEKNISKA H OGSKOLA
M ATEMATIKCENTRUM
M ATEMATISK STATISTIK
D ATORLABORATIONER – DEL II, HT-14
¨ BIO -, KEMI - OCH NANOTEKNIK ; FMS086 & MASB02
M ATEMATISK STATISTIK F OR
Datafiler samt en del special skrivna Matlab-kommandon h¨amtas fr˚an kursens hemsida:
www.maths.lth.se/matstat/kurser/fms086
6
Skattningar av parametrarna i en normalf¨ordelning
¨
Ovningens
syfte:
• Du ska unders¨oka hur skattningar av v¨antev¨arde och varians beror av stickprovsstorleken.
Kurskompendium:
Olbjer kap 7.1
F¨orberedelseuppgifter:
Givet a¨r ett stickprov x1 , . . . , xn fr˚an N(μ, σ2 ) d¨ar μ och σ2 a¨r ok¨anda.
1. Hur skattas μ?
2. Vilken f¨ordelning har skattningen av μ?
3. Hur skattas σ2 ?
Utg˚a fr˚an en normalf¨ordelning N(3, 4). Antag att v¨antev¨ardet 3 och variansen 4 a¨r ok¨anda f¨or oss och
att viP
vill skatta dem genom att ta ett stickprov, x1 , . . . , xn , om n observationer och bilda ¯x respektive s2 =
n
1
x )2 . Hur n¨ara kommer skattningarna de sanna v¨ardena om stickprovsstorleken a¨r 5? om
i=1 (xi − ¯
n−1
den a¨r 25?
• Simulera 1000 stickprov om 5 v¨arden fr˚an N(3, 4) och skatta μ i varje stickprov. G¨or samma sak f¨or
1000 stickprov som alla best˚ar av 25 observationer. Unders¨ok v¨antev¨ardesskattningarna egenskaper,
t ex genom att g¨ora histogram.
>>
>>
>>
>>
>>
>>
>>
>>
X=normrnd(3,2,5,1000);
Z=normrnd(3,2,25,1000);
mx=mean(X);
mz=mean(Z);
subplot(2,1,1)
hist(mx,20)
subplot(2,1,2)
hist(mz,20)
Vann man mycket p˚a att o¨ ka stickprovsstorleken fr˚an 5 observationer till 25? Hur stor a¨r sannolikheten att skattningen avviker mer a¨n 2 enheter fr˚an det sanna v¨ardet μ=3? d˚a du anv¨ander 5
v¨arden i stickprovet, 25 v¨arden i stickprovet? (Anv¨and normcdf eller normspec, men t¨ank f¨orst ut
vilken f¨ordelning skattningen har d˚a n=5? d˚a n=25?)
¨
• G¨or a¨ven histogram f¨or σ2 -skattningarna och jfr de tv˚a stickprovsstorlekarna n=5 och n=25. Ar
det ovanligt att skattningen av σ2 avviker mer a¨n 2 fr˚an det sanna v¨ardet 4 (dvs understiger 2 eller
o¨ verstiger 6) d˚a n=5? d˚a n=25?
8
7
HYPOTESTEST – ANALYS AV KEMILABORATION
Tolkning av konfidensintervall f¨or v¨antev¨ardet
¨
Ovningens
syfte:
• Du ska, genom att simulera konfidensintervall f¨or v¨antev¨ardet μ f˚a en tolkning av begreppet konfidensintervall och speciellt unders¨oka hur intervallen beror av stickprovsstorleken.
Kurskompendium:
Olbjer kap 7.3
F¨orberedelseuppgifter:
Givet a¨r ett stickprov x1 , . . . , xn fr˚an N(μ, σ2 ) d¨ar μ och σ2 a¨r ok¨anda.
1. Hur bildas ett 95% konfidensintervall f¨or μ?
F¨or att g¨ora konfidensintervall f¨or v¨antev¨ardet beh¨ovs kvantilfunktionen f¨or t-f¨ordelningen som i Matlab
heter tinv. Definitionen av kvantilfunktionen a¨r h¨ar det tal som a¨r s˚adant att sannolikheten att f˚a ett utfall
mindre a¨n talet a¨r lika med argumentet. Vill man ha t0.025 (n − 1) t ex, skriver man tinv(0.975,n-1).
F¨ordelen med Matlabs definition a¨r att kvantilfunktionen blir samma som inversen till f¨ordelningsfunktionen. F¨ordelen med att ha definitionen tv¨artom, som i kurskompendiet, a¨r att argumentet blir lika med
risken vid ett ensidigt test att f¨orkasta nollhypotesen trots att den a¨r sann.
• Anv¨and de 2000 simulerade stickproven fr˚an f¨oreg˚aende o¨ vning f¨or att g¨ora 2000 95% konfidensintervall f¨or μ. H¨alften av dem kommer d˚a att vara baserade p˚a 5 observationer medan de o¨ vriga p˚a
25.
Plotta g¨arna ut, i samma diagram men med olika symboler, o¨ vre och undre gr¨anserna i konfidensintervallet f¨or n˚agra stickprov (f¨orslagsvis 150 st).
Matlabtips: Om o¨ vre och undre gr¨anserna i konfidensintervallen ligger i variablerna over respektive
under kan de 150 f¨orsta intervallen illustreras med f¨oljande sekvens (det a¨r de lodr¨ata avst˚andet
mellan ”stj¨arna” och ”ring” som utg¨or konfidensintervallet)
>>
>>
>>
>>
plot(over(1:150),’*’)
hold
plot(under(1:150),’o’)
line([0 150], [3 3])
Alternativt kan du anv¨anda funktionen plotint.
• Hur m˚anga intervall missar det sanna v¨ardet μ=3, d˚a n=5? d˚a n=25? (Ska det vara n˚agon skillnad?)
Hur m˚anga intervall ska enligt teorin i genomsnitt missa μ?
• Hur p˚averkar stickprovsstorleken konfidensintervallen?
8
Hypotestest – Analys av kemilaboration
¨
Ovningens
syfte:
¨
Ovningen
ska illustrera
• hur olika test kan ber¨aknas med hj¨alp av Matlab,
• hur de tre olika metoderna f¨or test a¨r sammankopplade,
• hur viktigt det a¨r att ha klart f¨or sig vilka modellantaganden man g¨or om data n¨ar man anv¨ander ett
test i Matlab,
• vilka slutsatser man kan dra fr˚an testet.
12
8
HYPOTESTEST – ANALYS AV KEMILABORATION
Kurskompendium:
Olbjer kap 7.5
F¨orberedelseuppgifter:
1. Givet a¨r ett stickprov x1 , . . . , xn fr˚an N(μ, σ2 ) d¨ar μ och σ2 a¨r ok¨anda. Hur testas H0 : μ = μ0 mot
H1 : μ 6= μ0
(a) med ett signifikanstest, d¨ar signifikansniv˚an a¨r fix?
(b) med ett signifikanstest d¨ar man har r¨aknat ut ett P-v¨arde?
(c) med hj¨alp av konfidensintervall?
2. Givet a¨r ett stickprov x1 , . . . , xn1 fr˚an N(μ1 , σ2 ) och ett stickprov y1 , . . . , yn2 fr˚an N(μ2 , σ2 ) d¨ar
μ1 , μ2 och σ2 a¨r ok¨anda. Hur kan du unders¨oka om μ1 och μ2 skiljer sig a˚t?
Nu skall ni anv¨anda m¨atv¨arden fr˚an kemilaborationen ”Best¨amning av koppar med atomabsorptionsspektrofotometri med grafitugn”. De som har gjort laben kan anv¨anda sina egna m¨atv¨arden, o¨ vriga kan
l˚ana v¨arden av n˚agon som gjort laben eller be labhandledaren om anvisning.
Antag h¨ar att det inte finns n˚agon os¨akerhet i den kalibreringskurva ni anv¨ant f¨or att f˚a fram kopparkoncentrationerna.
Om du inte har ”¨oversatt” de tv˚a uppm¨atta dataserierna till kopparkoncentrationer med hj¨alp av kalibreringskurvan kan du g¨ora det med f¨oljande kommandon:
L¨agg in de uppm¨atta absorbtionerna i varsin vektor abs3 och abs10
>> abs3 = [ ... ]
>> abs10 = [ ... ]
% Uppm¨
atta absorbtioner i 3-serien
% Uppm¨
atta absorbtioner i 10-serien
L¨agg in v¨ardena fr˚an kalibreringskurvan, k¨anda kopparkoncentrationer i en kolonnvektor kalibx och
motsvarande absorbtioner i kaliby
>> kalibx = [0 0 50 50 100 100 150 150 200 200]’
>> kaliby = [ ... ]’
% eller de v¨
arden ni anv¨
ant
Kalibreringskurvan, y = α + βx kan skattas med (detaljer kommer senare i kursen)
>>
>>
>>
>>
n = length(kaliby)
b = regress(kaliby, [ones(n,1) kalibx])
alpha = b(1)
beta = b(2)
sedan o¨ vers¨atts absorbtionerna till kopparkoncentrationer med x =
y−α
β
>> cu3 = (abs3 - alpha)/beta
>> cu10 = (abs10 - alpha)/beta
I detta avsnitt skall vi inte ta h¨ansyn till os¨akerheten i kalibreringskurvan utan vi antar att v¨ardena i cu3
och cu10 a¨r uppm¨atta direkt.
• Anv¨and kommandot ttest, eller ttest2 (anv¨and hj¨alptexterna f¨or att avg¨ora vilken test som a¨r
l¨amplig), f¨or att g¨ora 95% konfidensintervall f¨or kopparkoncentrationen baserat dels p˚a 3-serien
och p˚a 10-serien. Skriv ned resultaten s˚a att ni kan j¨amf¨ora dem med resultaten d˚a vi tar h¨ansyn
till os¨akerheten i kalibreringskurvan senare i laborationen. Om ni nu hade f˚att reda p˚a den sanna
kopparkoncentrationen skulle ni kunna anv¨anda intervallen f¨or att testa om ni har n˚agot systematiskt fel i era m¨atningar. Hur g¨or ni detta?
13
9
STYRKEFUNKTION
• Testa om det a¨r n˚agon skillnad mellan v¨antev¨arde f¨or de 10 m¨atningarna och v¨antev¨ardet f¨or de 3
m¨atningarna.
• Sl˚a upp formeln f¨or konfidensintervall f¨or σ2 baserat p˚a ett stickprov fr˚an N (μ, σ2 ) i formelsamlingen och ber¨akna ett 95% konfidensintervall f¨or σ2 (eller σ genom att dra roten ur gr¨anserna) dels
baserat p˚a 10-serien och dels p˚a 3-serien. Blir det stor skillnad mellan intervallbredderna?
9
Styrkefunktion
¨
Ovningens
syfte:
• Att illustrera begreppet styrkefunktion hos ett signifikanstest;
• att illustrera vilka faktorer som p˚averkar styrkefunktionen.
Kurskompendium:
Olbjer kap 7.6
F¨orberedelseuppgifter:
1. Givet a¨r ett stickprov x1 , . . . , xn fr˚an N(μ, σ2 ) d¨ar μ och σ2 a¨r ok¨anda. Du testar H0 : μ = μ0 mot
H1 : μ 6= μ0 . Hur definieras styrkefunktionen f¨or testet ovan? Vad kan styrkefunktionen anv¨andas
till?
Antag att du har n observationer fr˚an N(μ, σ2 ) och vill testa att μ=6. F¨or att g¨ora det konkret, anta att
du vid ett laboratorieexperiment vill pr¨ova om pH-v¨ardet p˚a en l¨osning kan vara 6 genom att g¨ora n
best¨amningar. Antag vidare, att man gjort upprepade best¨amningar tidigare med samma instrument och
d¨arf¨or anser att man k¨anner dess variation p˚a denna typ av l¨osning och att σ2 a¨r 0.6.
Vi har allts˚a ett stickprov x1 , . . . , xn fr˚an N(μ, 0.6) och vill testa
H0 : μ = 6
H1 : μ 6= 6
p˚a signifikansniv˚a α. Hur ”bra” a¨r detta test? Intressanta fr˚agor kan t ex vara:
• Om det sanna pH-v¨ardet inte a¨r 6 utan 5.5 (avvikelsen a¨r −0.5 fr˚an nollhypotesens v¨arde), med
vilken sannolikhet kommer jag d˚a att uppt¨acka att H0 a¨r falsk med detta test?
• Hur m˚anga best¨amningar m˚aste jag g¨ora f¨or att med sannolikheten 0.90 uppt¨acka att H0 a¨r falsk d˚a
μ i sj¨alva verket a¨r 7 (dvs avvikelsen fr˚an nollhypotesens v¨arde a¨r 1)?
Denna typ av fr˚agor kan besvaras med hj¨alp av testets styrkefunktion som definieras som
π(μ) = P(H0 f¨orkastas || det sanna parameterv¨ardet a¨r μ)
Just i det h¨ar fallet, d˚a vi har ett tv˚asidigt test med k¨ant σ, blir styrkefunktionen (se avsnitt 7.6.2 i Olbjer)
√
√
(μ − 6) n
(μ − 6) n
π(μ) = Φ(−zα/2 −
) + 1 − Φ(zα/2 −
)
σ
σ
dvs den beror p˚a α – testets signifikansniv˚a, σ2 – f¨ors¨oksfelvariansen (som vi antar k¨and) samt n – stickprovsstorleken.
14
10
¨ REGRESSION
ENKEL LINJAR
• Anv¨and funktionen styrka (se help styrka eller stencilen om Matlabkommandon) f¨or att se
hur styrkefunktionen ser ut d˚a testets signifikansniv˚a α a¨r 0.05, σ2 =0.6 och stickprovsstorleken n a¨r
9.
Observera att i figuren som f˚as fr˚an styrka ritas p˚a x-axeln avvikelsen fr˚an nollhypotesens μ0 , dvs
funktionen som ritas a¨r
P(H0 f¨orkastas || μ avviker fr˚an μ0 med c)
¨ du n¨ojd med funktionen? Hur stor a¨r slh att f¨orkasta H0 om μ a¨r 6.5? Hur stor a¨r slh att uppt¨acka
Ar
att H0 inte a¨r sann, d˚a μ a¨r 5?
• Hur skulle en ”ideal styrkefunktion” se ut i det h¨ar exemplet? Skissera den p˚a papper! Du vill
naturligtvis att slh att f¨orkasta H0 ska vara liten om μ verkligen a¨r 6, men att slh ska vara stor s˚a fort
μ avviker fr˚an 6 (dvs om H0 inte a¨r sann).
F¨or att f¨orb¨attra styrkefunktionen har du olika strategier till ditt f¨orfogande:
¨
¨
¨
– Andra
p˚a felrisken α – Andra
p˚a f¨ors¨oksfelvariansen σ2 – Andra
p˚a stickprovsstorleken n
• Pr¨ova vilken strategi som a¨r b¨ast f¨or att n¨arma sig den ”ideala” styrkefunktionen. Vilken strategi tror
du a¨r enklast att genomf¨ora i praktiken vid t.ex. laboratoriearbete?
10
Enkel linj¨ar regression
¨
Ovningens
syfte:
• Att studera modellen ”enkel linj¨ar regression” och illustrera hur de olika parametrarna i modellen
p˚averkar data;
• att illustrera begreppet residualer;
• att visa p˚a de olika m¨ojligheter som finns i Matlab att analysera en regressionsmodell.
Kurskompendium:
Olbjer kap 10
F¨orberedelseuppgifter:
Antag att givet a¨r talpar (xi , yi ), i=1,. . .,10 d¨ar man anser att sambandet mellan x och y a¨r linj¨art. Modellen
a¨r yi = α + βxi + εi d¨ar εi a¨r oberoende observationer fr˚an N(0, σ2 ).
1. Vad a¨r den grafiska tolkningen av α och β i modellen? Vilka f¨oruts¨attningar har du p˚a x-v¨ardena?
2. Regressionsmodeller beskrivs enklast med hj¨alp av matriser. Hur ser matrisformuleringen ut f¨or
modellen ovan?
3. Residualanalys a¨r ett viktigt instrument vid analys av regressionsmodeller. Hur definieras residualerna i ovanst˚aende modell? Skattningen av σ2 i modellen bygger p˚a residualerna. Hur ser skattningen ut?
10.1
Illustration av modell:
I ett enkelt simuleringsexperiment ska du unders¨oka hur v¨ardet p˚a σ p˚averkar modellen och de slutsatser
man kan dra fr˚an data. (F¨or att ge illustrativa bilder ges fullst¨andiga Matlab kommandon i denna del
av laborationen.) Skapa en vektor x med v¨arden 1, 2, . . ., 10 och en variabel y som erh˚alls genom det
teoretiska linj¨ara sambandet y=α+βx, d¨ar α och β a¨r k¨anda. V¨alj t ex y=10+2x. Till variabeln y adderas tv˚a
upps¨attningar av normalf¨ordelade m¨atfel N(0, σ2 ) med olika v¨arden p˚a σ, f¨orslagsvis σ=1 och σ=5.
15
11
KALIBRERINGSKURVA
>> x=[1:10]’
>> y1=10+2*x+normrnd(0,1,10,1);
>> y2=10+2*x+normrnd(0,5,10,1);
Vektorn y1 best˚ar allts˚a nu av 10 observationer fr˚an N(10+2x, 1) medan y2 best˚ar av 10 observationer fr˚an
N(10+2x, 25).
• Titta p˚a data i samma diagram och j¨amf¨or.
>>
>>
>>
>>
plot(x,10+2*x)
hold on
plot(x,y1,’x’)
plot(x,y2,’o’)
• F¨or att skatta regressionslinjen och titta p˚a residualerna utnyttjar vi den specialskrivna m-filen
reggui.
>> reggui(x,y1)
>> reggui(x,y2)
• Titta p˚a residualerna f¨or de b˚ada linjerna. Hur p˚averkas de av v¨ardet p˚a σ?
• I figurerna som alstras av reggui ges a¨ven skattningar och konfidensintervall f¨or modellens parametrar. J¨amf¨or de erh˚allna intervallen med de sanna v¨ardena p˚a α och β; t¨acker intervallen o¨ ver parametrarna?
10.2
Matlabs egen inbyggda regressionsrutin
I Matlab finns en inbyggd funktion f¨or regressionsanalys, regress, som kan anv¨andas vid multipel linj¨ar
regression (och d¨armed f¨orst˚as a¨ven vid enkel linj¨ar regression). Observera att reggui endast kan anv¨andas
vid enkel linj¨ar regression samt vid polynomregression som a¨r ett specialfall av multipel linj¨ar regression.
Pr¨ova hj¨alpkommandot help regress f¨or att ta reda p˚a hur in- och utargumenten ser ut.
• Anv¨and regress f¨or att skatta en av de tv˚a regressionslinjerna ovan. D˚a m˚aste vi f¨orst bilda matrisen X som a¨r en (10 × 2) matris med f¨orsta kolumnen enbart ettor och andra kolumnen best˚aende
av x-v¨ardena.
>> X=[ones(10,1) x]
>> [b bint r]=regress(y1,X,0.05)
Utargumentet bint ger konfidensintervall f¨or parametrarna α och β (med konfidensgrad 0.95 h¨ar ovan).
• Kontrollera att de erh˚allna skattningarna och intervallen st¨ammer med de du fick fr˚an reggui.
11
Kalibreringskurva
¨
Ovningens
syfte:
• Att studera modellen ”enkel linj¨ar regression” och illustrera hur de olika parametrarna i modellen
p˚averkar data;
• att illustrera begreppet residualer;
• att visa p˚a de olika m¨ojligheter som finns i Matlab att analysera en regressionsmodell.
16
11
KALIBRERINGSKURVA
Kurskompendium:
Olbjer kap 10
F¨orberedelseuppgifter:
Antag att givet a¨r talpar (xi , yi ), i=1,. . .,10 d¨ar man anser att sambandet mellan x och y a¨r linj¨art. Modellen
a¨r yi = α + βxi + εi d¨ar εi a¨r oberoende observationer fr˚an N(0, σ2 ).
1. F¨or ett givet v¨arde p˚a x, x0 , a¨r man ofta intresserad av det f¨orv¨antade v¨ardet f¨or y, μ0 . Ange formeln
f¨or ett 95% konfidensintervall f¨or μ0 i ovanst˚aende modell.
2. F¨or ett givet v¨arde p˚a x, x0 , a¨r man ofta intresserad av det predikterade v¨ardet f¨or y, y(x0 ). Ange
formeln f¨or ett 95% prediktionsintervall f¨or y(x0 ) i ovanst˚aende modell.
3. Vad a¨r skillnaden mellan konfidensintervallet och prediktionsintervallet i de f¨oreg˚aende uppgifterna?
Anv¨and g¨arna ett konkret exempel f¨or att klarg¨ora skillnaden.
4. Vid kalibrering har man det omv¨anda problemet: F¨or ett givet v¨arde p˚a y, y0 , vill man skaffa ett
intervall f¨or motsvarande x0 . Visa grafiskt hur detta kan g¨oras utg˚ande fr˚an ett prediktionsintervall.
Man vill g¨ora en kalibreringskurva f¨or en kalorimetrisk analys av fluorjoner i vatten och m¨ater d¨arf¨or
transmittansen tv˚a oberoende g˚anger f¨or ett antal k¨anda koncentrationer av fluorjoner. Resultat (finns i fil
kalibrer.mat):
Konc F− (μg/ml) x
0.608
1.216
1.824
2.432
3.040
% transmittans y
80.3
80.3
80.5
80.4
80.9
81.0
81.2
81.8
81.6
82.0
Konc F− (μg/ml) x
3.648
4.256
4.864
5.472
6.080
% transmittans y
82.9
82.5
83.0
83.1
83.9
84.0
84.0
84.0
85.0
84.8
Materialet blir nog mer hanterbart om man arbetar med
>> x=[Konc’; Konc’];
>> y=[Trans(1,:)’ ; Trans(2,:)’];
• Pr¨ova att anpassa en enkel linj¨ar regressionsmodell till data med hj¨alp av reggui (observera att
reggui beh¨over ej den inledande kolumnen av ettor)
• Verifiera att modellen a¨r rimlig genom att titta p˚a residualerna.
• Prediktion: Vad a¨r den f¨orv¨antade transmittansen d˚a fluorkoncentrationen a¨r 5.0? Vad a¨r motsvarande
95% prediktionsintervall?
• Kalibrering (invers prediktion): D˚a man i framtiden ska anv¨anda linjen som kalibreringskurva, vill
man till ett v¨arde y best¨amma ett intervall som med 95% sannolikhet t¨acker provets verkliga halt.
Skatta ett 95% intervall f¨or fluorkoncentrationen d˚a man f¨or ett prov med ok¨and koncentration
avl¨ast trans=82.8.
I kemilaborationen ”Best¨amning av koppar med atomabsorptionsspektrofotometri med grafitugn” b¨orjade
ni med att ta upp en kalibreringskurva som ni sedan anv¨ande f¨or att ett- och ett ”¨overs¨atta” era uppm¨atta
17
¨ REGRESSION OCH PROBLEMET MED KOLINJARA
¨
MULTIPEL LINJAR
X-VARIABLER
12
m¨atv¨arden till kalibrerade m¨atv¨arden. N¨ar man sedan anv¨ander sina kalibrerade m¨atv¨arden s˚a tar man allts˚a
inte h¨ansyn till os¨akerheten i kalibreringskurvan. F¨or att g¨ora det kan man g¨ora ett kalibreringsintervall i
st¨allet f¨or det konfidensintervall ni gjorde under punkt 8.
De metoder som tas upp i boken f¨or att g¨ora kalibreringsintervall baseras p˚a ett observerat y-v¨arde, men
era m¨atningar baseras p˚a 3 respektive 10 observerade y-v¨arden, s˚a t.ex. kalibreringsintervallet i formelsamlingen f˚ar modifieras n˚agot till


s
∗
2
s
1 1 (x0 − ¯x ) 
¯y0 − α∗
I x0 = x0∗ ± t α/2 (n − 2) · ∗ ·
+ +
d¨ar x0∗ =
β
k n
Sxx
β∗
d¨ar 1k under kvadratroten tidigare var 1. k a¨r h¨ar antalet observerade y-v¨arden. Anv¨and detta, eller matlabkommandot kalibk f¨or att g¨ora ett kalibreringsintervall baserat dels p˚a 10-serien och dels p˚a 3-serien.
J¨amf¨or resultatet med konfidensintervallen ni fick under punkt 8.
12
Multipel linj¨ar regression och problemet med kolinj¨ara x-variabler
¨
Ovningens
syfte:
• Att ge exempel p˚a en korrelationsmatris;
• att ge exempel p˚a en multipel linj¨ar regressionsmodell;
• att illustrera hur multipel linj¨ar regression kan p˚averkas av kolinj¨ara x-variabler;
• att illustrera vilka kriterier som anv¨ands d˚a man v¨aljer mellan olika modeller.
Kurskompendium:
Olbjer kap 11.1-11.7
F¨orberedelseuppgifter:
Antag att y, responsvariabeln, beror linj¨art av tv˚a oberoende variabler x1 och x2 . Vid 10 olika f¨ors¨ok har
man noterat (x1 , x2 , y). Modellen a¨r nu yi = β0 + β1 x1i + β2 x2i + εi , i = 1, . . . , 10 och d¨ar εi a¨r oberoende
observationer fr˚an N(0, σ2 ) som tidigare.
1. Ange matriserna i matrisformuleringen av modellen.
2. Vad menas med att x-variablerna a¨r kolinj¨ara?
12.1
Cementdata
Detta experiment beskrevs i Industrial and Engineering Chemistry redan 1932. I 13 f¨ors¨ok har man m¨att
v¨armeutvecklingen i stelnande cement som funktion av viktprocenten av n˚agra ing˚aende a¨mnen. I filen
cement.mat finns f¨oljande variabler:
varme
cem1
cem2
cem3
cem4
utvecklad v¨arme i kalorier per gram cement
viktprocent av 3CaO·Al2 O3
viktprocent av 3CaO·SiO2
viktprocent av 4CaO·Al2 O3 ·Fe2 O3 ,
viktprocent av 2CaO·SiO2
Data:
18
13
¨ REGRESSION
POLYNOMREGRESSION – ETT SPECIALFALL AV MULTIPEL LINJAR
cem1
cem2
cem3
cem4
varme
7
1
11
11
7
11
3
1
2
21
1
11
10
26
29
56
31
52
55
71
31
54
47
40
66
68
6
15
8
8
6
9
17
22
18
4
23
9
8
60
52
20
47
33
22
6
44
22
26
34
12
12
78.5
74.3
104.3
87.6
95.9
109.2
102.7
72.5
93.1
115.9
83.8
113.3
109.4
Man vill kunna avg¨ora vilken eller vilka av de fyra cementvariablerna som ska anv¨andas i en modell f¨or att
f¨oruts¨aga v¨armeutvecklingen. Man ans¨atter en multipel linj¨ar regressionsmodell d¨ar varme a¨r responsvariabel och cementvariablerna oberoende variabler. Problemet a¨r att vissa av de fyra cementvariablerna samvarierar kraftigt med varandra vilket kommer att p˚averka regressionsanalysen.
• Unders¨ok om det finns n˚agon samvariation mellan de fem olika variablerna genom att t.ex. ber¨akna
korrelationsmatrisen mellan variablerna (corrcoef). Med kommandot corrcoef([cem1 cem2
cem3 cem4 varme]) f˚ar du en matris d¨ar elementen p˚a t.ex. rad 2 a¨r korrelationskoefficienterna
mellan cem2 och variablerna cem1, cem2, cem3, cem4 respektive varme. Plotta i tv˚adimensionella diagram de variabler mot varandra som verkar samvariera.
• Ber¨akna f¨orst en full regressionsmodell med varme som responsvariabel och samtliga fyra cementvariabler som f¨orklarande variabler (anv¨and regress och kom ih˚ag att ”designmatrisen” X ska
inledas med en kolumn av ettor). Vilka koefficienter a¨r signifikant skilda fr˚an noll? Enligt detta
¨ svaret rimligt?
resultat, vilka variabler ska vara med i modellen? Ar
• Pr¨ova olika kombinationer av f¨orklarande variabler i regressionsmodellen (anv¨and den nyss ber¨aknade korrelationsmatrisen f¨or att ”gissa” vilka variabler som b¨or vara med). J¨amf¨or konfidensintervallen f¨or β -koefficienterna, skattningen av σ och residualerna f¨or de olika modellerna. Vilka
cementvariabler verkar vara de viktigaste f¨or att f¨oruts¨aga v¨armeutvecklingen?
• Funktionen stepwise kan vara till stor hj¨alp vid modellvalet, se help stepwise. Skriv t ex
>>
13
stepwise([cem1 cem2 cem3 cem4],varme)
Polynomregression – ett specialfall av multipel linj¨ar regression
¨
Ovningens
syfte:
• Att illustrera polynomregression.
Kurskompendium:
Olbjer kap 11.9
F¨orberedelseuppgifter:
1. Hur ser modellen ut vid polynomregression;
2. j¨amf¨or modellen med en multipel linj¨ar regressionsmodell!
19
¨
BRODBAK
14
13.1
Kontroll av cyanid
F¨oljande problem presenteras i Meier & Zund: Statistical methods in analytical chemistry. Vid en kemisk
industri ville man utveckla en metod f¨or att unders¨oka m¨angden av cyanid (CN− ) i avloppsvattnet. I
litteraturen fann man en fotometrisk metod som verkade vara l¨amplig och n¨asta steg var att finna en
l¨amplig kalibreringsfunktion. En cyanidl¨osning gjordes och en elektromekanisk automat anv¨andes f¨or att
erh˚alla en sp¨adningsserie med 10, 30, . . ., 250 μg CN− /100 ml. Till 10 ml av kalibreringsl¨osningen
tillsattes 90 ml av den f¨arggivande reagentl¨osningen varefter absorbansen m¨attes (1 cm kyvett). Data finns
i fil cyanid.mat.
• Beskriver en linj¨ar kalibreringskurva sambandet v¨al?
• Ans¨att ist¨allet en kvadratisk kalibreringskurva: y = β0 + β1 x + β2 x 2 + ε. Denna modell a¨r ett
specialfall av en multipel linj¨ar regressionsmodell; vilka a¨r de tv˚a oberoende variablerna?
• Anv¨and kommandot regress f¨or att pr¨ova denna modell p˚a data och j¨amf¨or med den linj¨ara
kalibreringskurvan. Vilken av dem passar b¨ast till data?
Bokens f¨orfattare ger f¨oljande kemiska f¨orklaring: ”Stray light in the photometer dominates at high absorbances, which can be responsible for lower slopes at high concentrations. The chemical workup can
also produce lower yields of the chromophore at higher concentrations.”
13.2
Anpassning av polynom i Matlab
Med hj¨alp av funktionen reggui kan man interaktivt, med hj¨alp av minsta kvadratmetoden, anpassa
polynom av olika gradtal till ett datamaterial.
• Pr¨ova reggui p˚a data fr˚an f¨oreg˚aende exempel f¨or att snabbt j¨amf¨ora de tv˚a olika modellerna ovan.
13.3
Simulering av sj¨okalkning
I en laboration, d¨ar sj¨okalkning skulle simuleras i en tankreaktor, ville man unders¨oka hur uppl¨osningshastigheten f¨or kalkstensmj¨ol kunde beskrivas som funktion av v¨atejonskoncentrationen. I filen kalk.mat
finns f¨or olika pH-v¨arden uppm¨att logaritmerad reaktionshastighet f¨or kornstorlekar 71-90 μm.
• Anv¨and reggui f¨or att unders¨oka sambandet mellan de tv˚a variablerna.
14
Br¨odbak
¨
Ovningens
syfte:
• Att illustrera 22 -f¨ors¨ok;
• att visa p˚a betydelsen av att studera samspel mellan faktorer;
• att varna f¨or f¨ors¨oksuppl¨agget ”variera en faktor i taget”.
Kurskompendium:
Olbjer kap 12.1-12.3
20
15
NITRERINGSPROCESS
F¨orberedelseuppgifter:
1. Hur ser modellen ut vid ett 22 -f¨ors¨ok?
2. Hur tolkas effekterna A, B och (AB) och hur g¨or man konfidensintervall f¨or dem?
3. Vad skiljer ett faktorf¨ors¨ok fr˚an ett ”variera en faktor i taget” f¨ors¨ok. Vilka slutsatser kan du dra fr˚an
respektive f¨ors¨ok?
Vid framst¨allning av vetemj¨ol a¨mnat f¨or br¨odbak ville man unders¨oka hur tillsats av tv˚a mindre ingredienser (A och B) p˚averkade vetemj¨olets bakegenskaper. Vid ett experiment bakades ett antal limpor av
”standardsort” p˚a 4 olika s¨att (lite/mycket tillsats av A, lite/mycket tillsats av B) varefter br¨odets volymitet
((dm)3 /kg) best¨amdes. Marknadsunders¨okningar har visat att medelkonsumenten f¨oredrar h¨oga, fluffiga
br¨od vilket motsvarar h¨og volymitet. Resultat (finns i fil bak.mat):
(1)
(a)
(b)
(ab)
A
B
lite
mycket
lite
mycket
lite
lite
mycket
mycket
volymitet
2.36
2.00
1.70
3.22
2.03
2.34
2.01
2.98
2.31
2.28
1.83
2.76
• Unders¨ok, genom att g¨ora l¨ampliga konfidensintervall, vilka effekter tillsats av A och B har p˚a
br¨odets volymitet.
• Personen K t¨anker l¨agga upp sitt f¨ors¨ok n˚agot annorlunda. Fr˚an ”grundtillst˚andet” (lite A och lite
B) studerar han var som h¨ander d˚a man dels tills¨atter mycket A och dels tills¨atter mycket B. Han
betraktar allts˚a enbart de tre o¨ versta raderna i ovanst˚aende schema. Vilka slutsatser kommer K att
dra om A:s och B:s inverkan p˚a br¨odets volymitet?
• Vilka argument kan du anv¨anda f¨or att o¨ vertyga K om det ol¨ampliga i hans f¨ors¨oksplan?
15
Nitreringsprocess
¨
Ovningens
syfte:
• Att illustrera 23 -f¨ors¨ok;
• att visa p˚a betydelsen av att studera samspel mellan faktorer.
Kurskompendium:
Olbjer kap 12.4
F¨orberedelseuppgifter:
1. Hur ser modellen ut vid ett 23 -f¨ors¨ok?
2. Hur skattas σ2 om du har n replikat i varje niv˚akombination?
3. Hur skattas σ2 om du endast har en observation i varje niv˚akombination?
P˚a ett laboratorium unders¨okte man hur utbytet av en nitreringsprocess p˚averkades av f¨oljande faktorer:
A – tid f¨or salpetersyratillsats,
B – omr¨orningstid,
21
16
RESPONSYTOR
C – bottensatsf¨orekomst.
Faktorn C togs med i laboratorief¨ors¨oket d¨arf¨or att det a¨r vanligt i fabrikstillverkning att man inte reng¨or
processk¨arlet f¨or varje tillverkningsomg˚ang utan l˚ater en bottensats kvarst˚a till n¨asta omg˚ang. Varje faktor
har tv˚a niv˚aer. Utbytet (i procent) vid de olika niv˚akombinationerna anges i nedanst˚aende tabell (Finns i
fil nitrer.mat).
(1)
(a)
(b)
(c)
(ab)
(ac)
(bc)
(abc)
A
2
7
2
2
7
7
2
7
B
0.5
0.5
4.0
0.5
4.0
0.5
4.0
4.0
C
utan
utan
utan
med
utan
med
med
med
utbyte 1
87.1
88.3
81.8
86.5
82.9
89.0
83.3
83.7
utbyte 2
87.3
88.6
82.1
86.6
83.1
89.3
83.6
83.8
• Analysera f¨ors¨oket genom att skatta olika effekter. Hur p˚averkar de tre olika faktorerna processen?
• Man trodde sig vara s˚a pass f¨ortrogen med den kemiska reaktionen ifr˚aga att man kunde anta att
samspelseffekterna var ringa. St¨ammer det?
• I en kommande f¨ors¨oksupps¨attning av nitreringsprocessen vill man spara tid och pengar genom att
f¨or varje niv˚akombination enbart m¨ata ett utbyte. Tycker du detta a¨r l¨ampligt?
16
Responsytor
¨
Ovningens
syfte:
• Att illustrera skattningar av responsytor;
• att illustrera optimering i kemiska system
Kurskompendium:
Olbjer kap 12.10
F¨orberedelseuppgifter:
1. Vad a¨r en responsyta?
2. Hur kan problemet att skatta en responsyta o¨ verf¨oras till ett multipel linj¨art regressionsproblem?
3. Vilka problemst¨allningar a¨r av intresse vid optimering av en responsyta?
F¨or olika typer av kemiska system d¨ar en responsvariabel y beror p˚a variabler x1 och x2 , y = f (x1 , x2 ), kan
responsytan f ofta l¨ampligt beskrivas med hj¨alp av en andra ordningens polynommodell:
Om yi a¨r responsvariabeln vid f¨ors¨ok i (t ex absorbans) och x1 och x2 a¨r faktorer eller experimentella
variabler (t ex koncentrationerna av tv˚a olika a¨mnen) ges modellen av
(1)
2
2
yi = β0 + β1 x1i + β2 x2i + β11 x1i
+ β22 x2i
+ β12 x1i x2i + εi
Modell a¨r allts˚a en multipel linj¨ar regressionsmodell med 5 oberoende variabler, x1 , x2 , x12 , x22 och x1 x2 och
d¨ar slumpvariablerna εi antas vara oberoende och normalf¨ordelade
N(0, σ2 ).
22
16
RESPONSYTOR
100
80
60
40
20
0
100
y
y
N˚agra responsytor med respektive polynom:
80
60
y
40
20
x2
0 0
100
80
60
40
20
0
100
80
20
40
x1
60
40
20
x2
0 0
20
40
x1
60
60
80
80
100
100
80
60
40
20
0
100
80
60
40
20
x2
0 0
20
40
x1
60
80
100
100
Responsyta 1: y = 96.7 − 1.68x1 − 2.18x2 + 0.013x12 + 0.018x22 + 0.01x1 x2
Responsyta 2: y = 3.35 + 1.68x1 + 2.18x2 − 0.013x12 − 0.018x22 − 0.01x1 x2
Responsyta 3: y = 93.3 − 0.37x1 − 1.37x2 − 0.005x12 + 0.005x22 + 0.02x1 x2
Fundera en stund p˚a hur parametrarna β0 , β1 , . . . , β12 ska tolkas. (J¨amf¨or med funktionerna i figurerna
ovan.) Hur p˚averkar storleken p˚a β11 och β22 responsytan? Hur ser ytan ut om b˚ade β11 och β22 a¨r
positiva? eller om b˚ada a¨r negativa?
Parametern β12 a¨r ofta av speciellt intresse eftersom den uttrycker samspelet mellan variablerna x1 och x2 . I
responsyta 3 a¨r parametern β12 signifikant skild fr˚an 0. Vad h¨ander med responsvaribeln y d˚a x1 a¨r fixerad
till 0 men x2 o¨ kar? Vad h¨ander om x1 i st¨allet fixeras till 100?
Ett experiment med vanadin
I en artikel i Journal of Chemical Education 69, 7 (1992), 560-563 beskrivs ett experiment d¨ar man
unders¨oker hur y – absorbans hos en l¨osning av vanadinsulfat p˚averkas av x1 – antal droppar av 1% H2 O2
samt av x2 – antal droppar av 20% H2 SO4 .
Add dropwise the amounts of 1% H2 O2 and 20% H2 SO4 , in that order, that are specified by
the experimental design to 40 drops of stock VOSO4 solution (about 0.1 g dissolved in 250
ml of distilled water). Stir the resulting mixture, and allow it to equilibrate for 5 min after
the addition of H2 SO4 .
Then measure the percent transmittance at 460 nm using a visible spectrophotometer (eg.
Bausch & Lomb Spectronic 20.) Calculate the absorbance. The procedure is a modification
of a vanadium spot test used in organic analysis.
23
16
RESPONSYTOR
F¨ors¨oket a¨r upplagt s˚a att b˚ade x1 och x2 unders¨oks p˚a ”l¨agsta niv˚a”, ”l˚ag niv˚a”, ”mellan niv˚a”, ”h¨og niv˚a”
och ”h¨ogsta niv˚a”. Motsvarande antal droppar a¨r d˚a 8, 10, 15, 20 och 22. (Denna f¨ors¨oksplan kallas
central composite design) Resultat (finns i fil vanadin.mat):
x1 −
x2 −
y−
antal dr H2 O2 antal dr H2 SO4 absorbans
15
10
20
15
15
15
15
8
22
20
10
15
8
10
10
15
15
15
15
15
15
20
20
22
0.397
0.420
0.359
0.334
0.336
0.346
0.323
0.367
0.319
0.330
0.293
0.327
Kemisk kommentar till experimentet
En sur l¨osning av VOSO4 inneh˚aller vanadin(IV) i joner VO2+ (vanadyl(IV)-joner). N¨ar n˚agra droppar
H2 O2 s¨atts till en s˚adan l¨osning, bildas i f¨orsta hand den kraftigt r¨oda l¨osliga f¨oreningen (VO2 )2 (SO4 )3 ,
som a¨r en peroxof¨orening av vanadin(V). H2 O2 har h¨ar fungerat b˚ade som oxidationsmedel och som
ligand:
2VO2+ + 3H2 O2 + 3HSO4− → (VO2 )2 (SO4 )3 + 4H2 O + H +
r¨od
Vanadin(V) kan emellertid koordinera totalt 4 st peroxo- eller oxodigander i blandade oxoperoxovandat(V)joner, som t ex V (O2 )O33− , V (O2 )2 O23− etc. Sedan v¨al allt vanadin oxiderats till femv¨art, kan s˚aledes den
starkt f¨argade (VO2 )2 (SO4 )3 , som troligen ger den maximala absorbansen vid 460 nm, till st¨orre eller mindre del o¨ verg˚a till diverse, ljusare gula, v¨ateoxoperoxovandat(V)-joner – allt beroende p˚a m¨angden tillsatt
H2 O2 och H2 SO4 . Som typexempel kan f¨oljande j¨amvikt tj¨ana:
(VO2 )2 (SO4 )3 + 2H2 O2 + 4H2 O 2H2 V (O2 )2 O2− + 3HSO4− + 5H +
Tillsats av H2 O2 f¨orskjuter j¨amvikten a˚t h¨oger(f¨argen avtar); tillsats av H2 SO4 f¨orskjuter den a˚t v¨anster
(f¨argen djupnar).
Statistisk analys
Data fr˚an experimentet finns i fil vanadin.mat.
• G¨or en tv˚adimensionell plot o¨ ver x1 och x2 f¨or att se vilken f¨ors¨oksuppl¨aggning man anv¨ant sig
av. Kan du komma p˚a n˚agon f¨ordel med denna uppl¨aggning? (T¨ank p˚a avsnittet med kolinj¨ara
x-variabler)
• Skatta en responsyta med hj¨alp av respons (se help respons), skatta parametrarna i modell (1)
och studera dess konfidensintervall. (Eftersom modell (1) a¨r en multipel linj¨ar regressionsmodell
bygger responsyteskattningen p˚a kommandot regress.
• B¨or alla variablerna vara med? Hur ser den slutliga modellen ut?
24
16
RESPONSYTOR
• Rita upp den slutligt skattade responsytan. St¨amde den skattade responsytan med den kemiska
tolkningen?
• Finns det andra v¨arden p˚a x1 och x2 du skulle vilja pr¨ova i experimentet? Vilka i s˚a fall och varf¨or?
25