1 Generelle forhold ved opstart Eksempler fra bogen “Videregående Statistik” løst ved anvendelse af programmet SAS-JMP. Indhold 1. Generelle forhold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2. Beregning af sandsynlighedsfordelinger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3. Eksempler fra bogen Kapitel 1: Repetition af hypotesetest for 1 variabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Kapitel 3: 1 faktor på 2 niveauerl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Kapitel 4: 1 faktor på mere end 2 niveauer, ensidet variansanalyse . . . . . . . . . . . . . . . . . . 9 Kapitel 5: 2 faktorer på 2 eller flere niveauer , tosidet variansanalyse . . . . . . . . . . . . . . 14 Kapitel 6: Flere end 2 faktorer på 2 niveauer, Screeningforsøg . . . . . . . . . . . . . . . . . . . . 20 Kapitel 7: Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Kapitel 8: Statistisk proceskontrol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Kapitel 10: Antalstabeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 1. Generelle forhold Opstart Efter at have startet SAS-JMP, står man med en typisk Windows skærm med nogle menubjælker og ikoner. Øverst er en “hovedmenubjælke” med navnene File, Edit, Wiew, osv. Trykkes på en af disse fremkommer en rullemenu, som man skal vælge fra. Trykkes på Wiew “JMP-starter, fremkommer en menu hvori nogle af de oftest forekomne anvendelser er angivet. Indtastning, redigering og udskrift af data. Man starter sædvanligvis med at analysere nogle data (tal). Disse indtaster man enten selv i et regneark eller man importerer dem fra eksempelvis et Excel- regneark. a) Indtastning af data Indtast følgende data x 1 2 3 6 8 y 2 1 4 9 7 Løsning: Dobbeltklik på øverste felt i første søjle (Column 1) og skriv x Indtast tallene søjlevis, dvs. placer cursor på cellen i første række og første søjle, og skriv 1. Tryk “ENTER” hvorved man kommer til næste række og skriv 2 osv. Gentag proceduren med søjle 2. 1 Vejledning i SAS-JMP Resultatet ser således ud: 1 2 3 4 5 x 1 2 3 6 8 y 2 1 4 9 7 b) Import af data Findes data i en Excel fil, så vælges fra hovedmenuen “File” “OPEN” Filtype: vælg Excel Files (*.xls) fra den fremkomne liste Find den ønskede excel-fil på din harddisk open. c) Gemme datatabeller Data tabeller kan på sædvanlig måde gemmes i en passende mappe. “File” “SAVE AS” osv. Oprette dele af given datatabel som ny tabel Rows Rows Selection Select Where marker navnet på kolonnen der ønskes over i ny tabel ok Tables Subset OK Vælg hjælp hvis du vil have sætte mere specifikke krav Redigering af udskrifter og kopiere over i tekstbehandlingsprogram Word. Udskrifterne er delt op i afsnit, og over hvert afsnit er der en “blå pil” . Trykker man på den, vil afsnittet forsvinde. Da udskrifterne sædvanligvis indeholder mange flere oplysninger end man har brug for, er det også nødvendigt at flytte udskriften over i WORD (benyt sædvanlig “copy”) og redigere den her. Datatabeller overføres pænest ved at vælge Edit Journal hvorefter denne kopieres over i et tekstbehandlingsprogram som eksempelvis “WORD” 2. Beregning af sandsynlighedsfordelinger Fremgangsmåden for de forskellige fordelinger er stort set ens, så den beskrives kun udførligt for normalfordelingen n( , ) a) Find p P(a X b) , hvor a ,b, , er givne konstanter. b a Vi har p P( X b) P( X a ) Normal Distribution Normal Distribution Eksempel: Find p P(112.0 X 1161 . ) hvis 113.3, 5.6 . Kald Column 1 for p Placer Cursor i p’s hoved og marker denne ved tryk på venstre musetast tryk på højre musetast Vælg “Formula” Den fremkomne menu for Formula indeholder 3 elementer: 1) Table Columns ( hvor søjlernes navne står), 2) Lommeregnertastatur (med operatorer for +, - / , potensopløftning, osv.) og 3) Function Groups (hvor forskellige funktioner står, bl.a. Probability) Probability Normal Distribution ( skriv 116.1 (bemærk decimalpunktum) vælg - fra “lommeregnertastaturet” skriv 113.3 cursor udenfor parantes og vælg/ fra lommeregnertastatur 5.6 . Bemærk: Benyt kun “lommeregnertastaturet” ved +, -,/ potensopløftning osv. 2 1 Generelle forhold ved opstart Vi har nu skrevet “ Normal Distribution(116.1 - 113.3) / 5.6)” Sørg for at komme udenfor rammen og vælg igen - på lommeregnertastatur Normal Distribution(112.0 - 113.3) / 5.6) (kopier eventuelt fra før, og ret 116.1 til 112) ok Resultat: 0.2832489 Hvis man ønsker ar se formlen skrevet i tekst (Java) så dobbeltryk på formlen, så fremkommer følgende: Normal Distribution(((116.1 - 113.3) / 5.6)) - Normal Distribution((112 - 113.3) / 5.6) b) Find fraktilen x p : P( X x p ) p , hvor p, , er givne konstanter. x p Normal Quantile( p) Eksempel: Find x p af P( X x p ) 0.712 , hvis 112,4, 6.7 Kald søjle 1 for xp Placer Cursor i xp’s hoved tryk på højre musetast Probability Normal Quantile(0.712) ok Formula Skriv 112.4 + 6.7 * Resultat: 116.1469 3. Eksempler fra bogen Kapitel 1: Repetition af hypotesetest for 1 variabel Eksempel 1.1 Hypotesetest. Normalfordelt variabel . En fabrik der fremstiller plastikprodukter ønsker at evaluere holdbarheden af rektangulære støbte plastik blokke som anvendes i møbelfabrikationen. Der udtages tilfældigt 50 blokke, og deres hårhed måles (i Brinell enheder) . Resultaterne var følgende 283.5 273.3 278.8 238.7 334.9 302.6 239.9 254.6 281.9 270.4 269.1 250.1 301.6 289.2 240.8 267.5 279.3 228.4 265.2 285.9 279.3 252.3 271.7 235.0 313.2 277.8 243.8 295.5 249.3 228.7 255.3 267.2 253.3 281.0 302.1 256.3 233.0 194.4 219.9 263.7 273.6 267.7 283.1 260.9 274.8 277.4 276.9 259.5 262.0 263.5 a) Undersøg om tallene er rimeligt normalfordelt ved at tegne et histogram, et boxplot og et normalfordelingsplot. Angiv endvidere gennemsnit og spredning. b) Hårheden bør være over 260 (brinell enheder). Test på et signifikansniveau på = 5% om dette er tilfældet. c) Forudsat hårheden er signifikant over 260 brinell, skal angives et estimat for hårheden, samt et 95% konfidensinterval for denne. Løsning: a) File , New, DATA Tables , dobbeltklik på øverste felt i første søjle og skriv “holdbarhed”, indtast data Histogram: På værktøjslinien vælg Analyze Distribution (eller Wiew, “JMP-Starter” vælg “Basic Distribution”) I den fremkomne menu dobbeltklikkes på “holdbarhed” (under “Selected Columns”) ok Der fremkommer et “histogram”, et “boxplot” og en række statistiske oplysninger. 3 Vejledning i SAS-JMP For at kunne sammenligne med en normalfordeling tegnes en normalfordelingskurve: Placer cursor på “rød pil ved holdbarhed tryk på højre musetast og vælg “Continuous Fit normal Der tegnes nu en normalfordelingskurve med samme middelværdi og spredning som fra data. Endvidere tegnes et “normal kvartil plot” Cursor placeres på “holdbarhed og man trykker på højre musetast og vælger “Normal Quantile Plot” Der er nu bl.a. fremkommet følgende figur og tabel. Distributions holdbarhed 350 -2 ,33 -1,6-1 4 ,2 8 -0, 67 0 ,0 0 ,6 7 1, 281 ,6 4 2 ,3 3 300 250 200 0,02 0,1 0,2 0,5 Norm al Quantile Plot Normal(266,218,25,0931) Quantiles 100,0 % maximum 99,5% 97,5% 90,0% 75,0% quartile 50,0% median 25,0% quartile 10,0% 2,5% 0,5% 0,0% minimum Moments Mean Std Dev Std Err Mean Upper 95% Mean Lower 95% Mean N 334,90 334,90 328,93 300,99 279,73 267,60 251,75 233,20 201,41 194,40 194,40 266,218 25,09313 3,5487045 273,34939 259,08661 50 4 0,8 0,9 0,98 1 Generelle forhold ved opstart Forklaring af figur og udskrift Histogram og normalfordelingskurven (figur længst til venstre) passer godt sammen, så det viser, at data er rimelig normalfordelt. Boxplot: Den næste figur er et såkaldt “boxplot”, hvor den midterste streg angiver medianen og kassens grænser angiver henholdsvis 1. og 3. kvartil. 1. kvartil 252.75 er tallet midt mellem tal nr 12 og tal nr 13, osv. Da boxplottet er nogenlunde symmetrisk om medianen, så kan man igen antage at data er rimelig normalfordelt. De isolerede prikker yderst viser, at der er et par værdier, som afviger kraftigt fra de øvrige, og muligvis er fejlmålinger (kaldes outliers). Rhomben inde i firkanten angiver et 95% konfidensinterval for middelværdien. Man ser, at den ligger lidt skævt i forhold til boxplottet, men dog ikke så meget, at det spiller nogen rolle, da median =267.6 er ca. = mean (gennemsnit) = 266.7 Normal Kvartil-plot. Her har man ud af x - aksen sørget for at skalaen er sådan, at punkterne burde ligge på den røde rette linie, hvis de fuldstændigt eksakt var normalfordelt. Den røde linie går gennem (0, mean) og har hældning = spredningen. De stiplede linier angiver 95% konfidensinterval for normalfordelingen. Som det ses, ligger punkterne indenfor konfidensintervallet og ligger tæt på linien for de midterste 75% af tallenene. De yderste punkter kan man ikke forvente ligger på linien Man må derfor igen antage, at data er tilnærmelsesvis normalfordelt. Det ses af udskriften, at gennemsnittet x = 266.22 og et estimat for spredningen er s = 25.09 b) X = holdbarheden af plastblokke X antages normalfordelt med ukendt middelværdi og . H0: =260 H: >260 Da spredningen ikke er kendt eksakt anvendes en t-test. Klik på rød pil ved "holdbarhed" og vælg "Test Mean". I den fremkomne menu skriv 260 Test Mean=value Hypothesized Value Actual Estimate DF Std Dev Test Statistic Prob > |t| Prob > t Prob < t 260 266,218 49 25,0931 t Test 1,7522 0,0860 0,0430* 0,9570 5 ok Vejledning i SAS-JMP P- værdien = sandsynligheden for at begå en "type 1 fejl", dvs. påstå at 0 =260 selv om det ikke er tilfældet. I Test Statistic er Prob > *t* P-værdi for den tosidede test H: μ 260 Prob > t er P-værdi for den ensidede test H : μ > 260 , og Prob < t svarer til H : μ < 260 Da P-værdi = 4.30 % < 5%, forkastes H0 (svagt) . Konklusion: Vi har bevist, at holdbarheden i middel er over 260 brinell. Eksempel 1.2. Binomialtest En fabrikant af chip til computere reklamerer med, at højst 2% af en bestemt type chip, som fabrikken sender ud på markedet er defekte. Et stort computerfirma, vil købe et meget stort parti af disse chip, hvis påstanden er rigtigt. For at teste påstanden købes 1000 af dem. Det viser sig, at 33 ud af de 1000 er defekte. a) Kan fabrikantens påstand på denne baggrund forkastes på signifikansniveau 5% ? b) Forudsat påstanden forkastes, skal angives et estimat for % defekte, samt et 95% konfidensinterval for denne. Løsning: X = antal defekte chips af 1000 X er binomialfordelt b(1000, p). Nulhypotese: H: p 0.02 Alternativ hypotese H: p 0.02 a) P værdi P( X 33) 1 P( X 32) Kald en søjle for p, og indtast et tilfældigt tal i første række. Placer cursor i p's hoved højre musetast Formula skriv 1-(- vælges fra jmp tastatur) vælg Discrete Probability Binomial Distribution Udfyld pladserne p=0,02, n=1000, k = 33 Apply P-værdi = 0.00433 Da P-værdi < 0.05 forkastes H0 , dvs. fabrikantens påstand om færre end 2% defekte forkastes. b) Estimat for p: 3.3% Da x = 33 >5 og 33 < 1000-5 kan approksimeres med normalfordelingen Af formlen for konfidensinterval p 0,00433168 Estimat for p: 3.3% radius 0,0110718 0.033 0.033 (1 0.033) 1000 Øvre grænse 0,0440718 og benyttelse af "Formula" fås nedre grænse 0,0219282 95% konfidensinterval : {2.19% ; 4.41%] Kapitel 3 1 faktor på 2 niveauer Eksempel 3.1. Sammenligning af 2 normalfordelte variable To produktionsmetoder M1 og M2 ønskes sammenlignet. Der udvælges tilfældigt 20 personer, hvoraf de 10 bliver sat til at arbejde med den ene metode, og de 10 andre med den anden. Efter 2 ugers forløb, beregnede man for hver person det gennemsnitlige tidsforbrug pr. enhed. Da metode 1 er mere kostbar end metode 2, ønsker man kun at gå over til den, hvis tidsforbruget pr. enhed ved metode 1 er mindst 2 minutter mindre end ved metode 2. Man fik følgende resultater. 6 1 Generelle forhold ved opstart M1 87.8 91.9 89.8 89.0 92.6 89.4 91.4 88.7 90.1 92.4 M2 92.4 94.6 93.0 94.0 92.4 92.9 96.4 92.1 92.8 93.4 Undersøg på basis af disse resultater, om det på et signifikansniveau på 5% kan påvises at tidsforbruget ved metode M1 er mindst 2 minutter mindre end ved metode M2 . Løsning: Lad X1 = tidsforbrug ved anvendelse af metode M1 og X2 = tidsforbrug ved anvendelse af metode M2. X1 og X2 antages approksimativt normalfordelte med middelværdi og spredning henholdsvis 1 , 1 og 2 , 2 . H 0 : 1 2 2 H: 1 2 2 Data indtastes i 2 søjler, idet vi lægger 2 til alle tal fra metode 1. metode m1 m1 m1 m1 m1 m1 m1 m1 m1 m1 m2 m2 m2 m2 m2 m2 m2 m2 m2 m2 tidsforbrug 89,8 93,9 91,8 91,0 94,6 91,4 93,4 90,7 92,1 94.4 92.4 94,6 93,0 94,0 92,4 92,9 99,4 92,1 92,8 93,4 Analyze Fit y by x Y-Response:Tidsforbrug ,x-Factor: Metode ok rød pil øverst på figur, t-test t Test m2-m1 Assuming unequal variances Difference Std Err Dif Upper CL Dif Lower CL Dif Confidence 1,0900t Ratio 0,6694DF 2,5024Prob > |t| -0,3224Prob > t 0,95Prob < t 1,628317 16,99463 0,1219 0,0609 0,9391 Da P - værdi = 0.0609 > 0.05 accepteres nulhypotesen, dvs. det er ikke muligt på dette grundlag at bevise, at tidsforbruget ved metode M1 er 2 minutter mindre end ved metode M2. 7 Vejledning i SAS-JMP Eksempel 3.2 . Test af varians Samme problem som i eksempel 3.1 Undersøg ved en test på signifikansniveau på 5% om de to metoders varians er ens. Løsning: Data indtastes i 2 søjler (se eksempel 3.1) H0 : 12 22 mod H: 12 22 Analyze Fit y by x Response:Tidsforbrug , Factor: Metode OK Cursor på rød pil Un-Equal Variance Blandt en række udskrifter forekommer nedenstående Tests that the Variances are Equal Level Count Std Dev MeanAbsDif to Mean m1 10 1,668965 1,412000 m2 10 1,302135 0,960000 Test O'Brien[.5] Brown-Forsythe Levene Bartlett F Test 2-sided F Ratio 0,7193 1,2610 1,6453 0,5199 1,6428 DFNum 1 1 1 1 9 DFDen 18 18 18 . 9 MeanAbsDif to Median 1,370000 0,880000 p-Value 0,4075 0,2762 0,2159 0,4709 0,4711 I udskrift for F - test ses, at alle -værdier er større end 0.05. Da P - værdi > 0.05 accepteres H0, dvs. vi vil i den følgende test antage, at spredningerne er ens. Eksempel 3.4. Parvise observationer En producent af malervarer har laboratorieresultater, der tyder på, at en ny lak A, har en større slidstyrke end den sædvanlige lak B. Han ønsker en afprøvning i praksis og aftaler med ejerne af 6 bygninger med mange trapper, at han må lakere deres trapper. Da der er meget forskelligt hvor mange personer der går på trapperne i de forskellige bygninger (sammenlign blot sliddet på en skole og et plejehjem) vælger man at foretage et “blokforsøg” , med de 6 bygninger som 6 blokke. I hver bygning lakeres hverandet trin (valgt ved lodtrækning) med lak A og resten mad lak B. Efter 3 måneders forløb måles graden af slid (i %) i hver bygning. De målte værdier af slid efter valg af plan var Bygning nr 1 2 3 4 5 6 Ny lak 20.3 25.1 21.8 19.6 18.9 23.5 Sædvanlig lak 19.5 28.4 21.6 22.0 20.9 25.8 Undersøg om observationerne leverer et eksperimentelt bevis for, at den nye lak er mere slidstærk end den sædvanlige lak. Løsning Vi ser nu på differensen mellem sliddet i en bygning. (hvorved den store forskel mellem bygningerne elimineres) Lad D = Xgammel - Xny D antages normalfordelt n( , ) , hvor såvel som er ukendte. Da vi ønsker at teste om ny lak er mere slidstærk end gammel lak, dvs. den mest slidstærke lak slides mindst , bliver testen en ensidet t - test. Nulhypotese H0 : = 0 Alternativ hypotese H : > 0. 8 1 Generelle forhold ved opstart Data indtastes Ny lak Gammel lak 20,3 19,5 25,1 28,4 21,8 21,6 19,6 22 18,9 20,9 23,5 25,8 Vælg Analyze Matched Pairs Y: Paired response:Ny lak og Gammel lak markering ved "Plot Diff by Mean Matched Pairs Difference: Gammel lak-Ny lak Gammel lak Ny lak Mean Difference Std Error Upper 95% Lower 95% N Correlation 23,0333 21,5333 1,5 0,66131 3,19996 -0,2 6 0,89502 t-Ratio DF Prob > |t| Prob > t Prob < t OK Rød pil Fjern 2,268219 5 0,0726 0,0363* 0,9637 Heraf ses, at P-værdi = 0.0363. H0 forkastes, dvs. ny lak mere slidstærk end gammel lak Kapitel 4. 1 faktor på mere end 2 niveauer, ensidet variansanalyse Eksempel 4.2 Virkningerne af 4 tilsætningsstoffer T1, T2, T3, T4 på mængden af urenheder ved en kemisk proces ønskes sammenlignet. For hvert tilsætningsstof måles mængden af “uønsket stof” 3 gange. Forsøgsresultaterne blev følgende: Tilsætningsstof T1 T2 Mængde urenhed T3 T4 108 105 116 117 110 110 111 119 112 109 113 112 a) Kontroller om betingelserne om normalitet og varianshomogenitet er rimelig opfyldt. b) Test på signifikansniveau på 5% om der er forskel på middelværdierne for de 4 tilsætningsstoffer c) Find om muligt det tilsætningsstof der i middel giver den mindste urenhed og angiv i bekræftende fald et 95% konfidensinterval for middelværdien. Løsning: b) H0 : 1 2 3 4 mod H: “mindst én middelværdierne er forskellig fra en af de øvrige”. Løsning: Data indtastes, husk, at “tilsætningsstof skal være af typen “character”. tilsætningsstof urenhed t1 t1 t1 t2 t2 t2 t3 osv 108 110 112 105 110 109 116 a) Kontrol af forudsætninger: 9 Vejledning i SAS-JMP Selv om det er muligt i SAS.JMP at kontrollere forudsætningen om normalfordeling, behøver man ikke nødvendigvis at gøre det, da testen er robust overfor afvigelser. Normalfordelingsplot: Vælg Analyze Fit Y by og tryk på X Factor OK X markér “Urenhed” og tryk på Y Response markér “Tilsætningsstof” Der fremkommer et “scatterplot”, hvor man kan se afbildet de tre værdierne af hver af de 4 tilsætningsstoffer rød pil ved figur rullemenu Save Save Residual Under data kommer nu en ekstra søjle med residualerne(overskrift “urenhed centered by tilsætningsstof”). Vælg Analyze Distribution Indsæt Residual søjlen i Y OK Cursor på rød pil continuos fit normal Der fremkommer et histogram med indtegnet normalfordelingskurve rød pil “normal Quantile plot” Da vi jo kun har 12 residualer kan vi ikke forvente et særligt klart billede, men i princippet burde de på normalfordelingsplottet ligge nogenlunde på en ret linie. De ligger i hvert fald alle indenfor konfidensgrænserne, så vi kan tillade os at antage fordelingen er approksimativt normalfordelt. Kontrol af varianshomogenitet: Xi = mængden af uønsket stof ved tilsætning af stof Ti. hvor i {1,2,3,4} Xi antages approksimativt normalfordelt med middelværdien i og spredning i . H0: 12 22 32 42 H: Mindst en varians er forskellig fra en af de øvrige Sæt cursor på rød pil ved tegningen for Scatterplot, og vælg fra rullemenuen “UnEqual Variances”. Tests that the Variances are Equal Test F Ratio DFNum O'Brien[.5] 0,3812 3 Brown-Forsythe 0,4211 3 Levene 0,5917 3 Bartlett 0,1991 3 Warning: Small sample sizes. Use Caution. DFDen 8 8 8 . Prob > F 0,7694 0,7430 0,6376 0,8971 Da P - værdierne alle er over 0.05 accepteres nulhypotesen H0: De 4 varianser er ens. b) H0: 1 2 3 4 mod H: “mindst én middelværdierne er forskellig fra en af de øvrige”. Sæt cursor på rød pil, og vælg fra rullemenuen “Mens/Anova”. Der fremkommer så en tegning og følgende udskrift: Oneway Analysis of urenhed By tilsætninsstof 120 urenhed 115 110 105 t1 t2 t3 tils ætninsstof 10 t4 1 Generelle forhold ved opstart Oneway Anova Summary of Fit Rsquare Adj Rsquare Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,650672 0,519674 2,753785 111,8333 12 Analysis of Variance Source tilsætninsstof Error C. Total DF 3 8 11 Sum of Squares 113,00000 60,66667 173,66667 Mean Square 37,6667 7,5833 F Ratio 4,9670 Prob > F 0,0311* Means for Oneway Anova Level t1 t2 t3 t4 Number 3 3 3 3 Mean 110,000 108,000 113,333 116,000 Std Error 1,5899 1,5899 1,5899 1,5899 Lower 95% 106,33 104,33 109,67 112,33 Upper 95% 113,67 111,67 117,00 119,67 Af variansanalysetabellen fremgår, at P -værdi (Prob>F) = 0.0311 <0.05, dvs. nulhypotesen H0: 1 2 3 4 forkastes ( svagt) Konklusion: De fire tilsætningsstoffer har ikke samme virkning. Forklaring på de enkelte størrelser i variansanalysetabellen kan man finde i appendix 4.1. c) Konfidensintervaller. “Diamanterne” på figuren angiver 95% konfidensintervaller. Den midterste vandrette steg angiver gennemsnittet og de to andre vandrette streger angiver LSD -intervaller. Af figuren ses derfor straks, ved at se på LSD intervallerne, at t2 er signifikant mindre end t4, mens det er vanskeligere at se om t2 og t3 kan adskilles. I Means for Oneway Anova ses konfidensintervallerne Heraf ses, at t2, t3 og t3 er de mindste og ikke kan adskilles LSD-intervaller fås ved at vælge “Compare Mens” fra rullemenuen students t-test Blandt en række udskrifter findes denne Level t4 t3 t1 t2 A A B B C C Mean 116,00000 113,33333 110,00000 108,00000 Konklusion: Man får den mindste urenhed, hvis man vælger enten T2 eller T1 (de kan ikke adskilles). Et 95% konfidensinterval for T2 er [104.3 ; 111.7] 11 Vejledning i SAS-JMP Eksempel 4.3 (randomiseret blokforsøg ) I nedenstående tabel er anført resultaterne af et fodringsforsøg med svin. Formålet med forsøget var at undersøge, hvorvidt en ændring af vitaminindholdet i foderet gav en forskel i svinenes vægtforøgelse. Vægtforøgelsen afhænger imidlertid også af det enkelte individs genetiske egenskaber. Et fuldstændigt randomiseret forsøg vil derfor sandsynligvis kunne bevirke, at forsøgsfejlens spredning bliver så stor, at intet kan påvises (forsøget drukner i støj). Da grise fra samme kuld må forventes at være mere ensartede, vælger man at lave et randomiseret blokforsøg med kuld som blokfaktor. Lad der findes tre fodertyper A, B og C med forskelligt vitaminindhold. Fra hvert af 4 forskellige kuld grise udtages nu 3 grise. Et kuld vælges, og ved lodtrækning bestemmes hvilke af de 3 grise, der bliver fodret med fodertype A, hvilken med fodertype B og den sidste får naturligvis type C. Et nyt kuld udtages, og man randomiserer igen foderet indenfor kuldet (blokken), osv. Forsøgsresultaterne (vægtforøgelse i kg) var Fodertype A B C 1 7.0 14.0 8.5 2 16.0 15.5 16.5 Kuld 3 10.5 15.0 9.5 4 13.5 21.0 13.5 a) Test, om der er nogen væsentlig virkning af ændringen i foderets vitaminindhold. b) Hvis der er en forskel, så skal man angive hvilken foderblanding, der giver den største vægtforøgelse. Løsning: a) H0: Foderblanding har ingen virkning på vægtforøgelsen H: Foderblanding har virkning på vægtforøgelsen Da vi jo har 2 faktorer, “kuld” og “fodertype”, er analysen en speciel “tosidet variansanalyse”. Løsning: Indtastning af data fodertype A A A A B B B B C C C C kuld k1 k2 k3 k4 k1 k2 k3 k4 k1 k2 k3 k4 vægt 7 16 10,5 13,5 14 15,5 15 21 8,5 16,5 9,5 13,5 Vælg Analyze Fit Y by X markér “Vægt” og tryk på Y Response X Factor Marker “Kuld” og tryk på blok OK markér “Fodertype” og tryk på Der fremkommer et “scatterplot”, hvor man kan se afbildet de fire værdier for hver af de 3 fodertyper. 12 1 Generelle forhold ved opstart Rød pil “Means/Anova”. Der fremkommer så følgende tegning og udskrift: Oneway Analysis of Vægt By Fodertype Oneway Anova Samarie of Fit Rsquare Adj Rsquare Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,83413 0,695904 2,168269 13,375 12 Analysis of Variance Source DF Sum of Squares Mean Square Fodertype 2 54,12500 27,0625 Kuld 3 87,72917 29,2431 Error 6 28,20833 4,7014 C. Total 11 170,06250 Means for Oneway Anova Level Number Mean Std Error Lower 95% A 4 11,7500 1,0841 9,097 B 4 16,3750 1,0841 13,722 C 4 12,0000 1,0841 9,347 Std Error uses a pooled estimate of error variance Block Means Kuld Mean Number k1 9,8333 3 k2 16,0000 3 k3 11,6667 3 k4 16,0000 3 F Ratio 5,7563 6,2201 Prob > F 0,0402 0,0285 Upper 95% 14,403 19,028 14,653 Da P - værdi for fodertype er 0.0402 < 0.05 forkastes nulhypotesen H0: Ingen forskel på fodertyper, dvs. , at der på et signifikansniveau på 5 % er signifikant forskel på fodertyperne (mindst én afviger fra de øvrige). Vi ser endvidere, at det var fornuftigt at dele op i kuld, da der også er signifikans for kuld. Vi er imidlertid ikke interesseret i at finde ud af hvilket kuld der er det bedste, da vi jo blot har taget nogle tilfældige kuld ud. Konfidensintervallerne viser et svagt overlap. 13 Vejledning i SAS-JMP Vælger nu LSD-intervaller “Compare Mens” fra rullemenuen students t-test Comparisons for each pair using Student's t Confidence Quantile t 2,44691 Alpha 0,05 Connecting Letters Report Level B A C A Mean 16,375000 12,000000 11,750000 B B Levels not connected by same letter are significantly different. Af LSD-intervallerne ses, at fodertype B giver den største vægtforøgelse. Kapitel 5 2 faktorer på 2 eller flere niveauer, tosidet variansanalyse Eksempel 5.2 (fortsat) Model med vekselvirkning. En bilfabrikant ønsker at finde ud af, hvorledes 3 olieblandinger O1, O2, og O3, og 2 karburatortyper K1 og K2 påvirker benzinforbruget. Forsøgsresultaterne er følgende: Karburator K1 K2 O1 830 860 810 840 Olieblanding O2 940 990 1050 1020 O3 855 815 930 910 1) Kontroller om betingelserne for normalitet og varianshomogenitet er rimelig opfyldt 2) Angiv hvilke kombinationer af karburator og olieblanding der giver det laveste forbrug, og giv et estimat for dette forbrug. Løsning: Data indtastes på sædvanlig måde . Karburator k1 k1 k1 k1 k1 k1 k2 olieblanding o1 o1 o2 o2 o3 o3 o1 benzinforbrug 830 860 940 990 855 815 810 osv. a)Varianshomogenitet. Lad varianserne i de 6 celler være σ1,σ2, σ3, σ4, σ5 og σ6. H0: σ1=σ2= σ3= σ4= σ5 = σ6. H: Mindst en varians er forskellig fra en af de øvrige Da varianserne i hver af de 6 celler skal være ens, karakteriserer man disse ved at gå ind i regnearket og danne en ekstra søjle “celler” (og vælg den som “character”). Da der er 6 celler med 2 tal i hver bliver søjlen: 14 1 Generelle forhold ved opstart Karburator k1 k1 k1 k1 k1 k1 k2 olieblanding o1 o1 o2 o2 o3 o3 o1 benzinforbrug celler 830 1 860 1 940 2 990 2 855 3 815 3 810 4 osv. Gå derefter ind i ensidet variansanalyse og vælg celler som faktor og benzinforbrug som Y, ok cursor på rød pil på tegning og vælg “Unequal Variances” Oneway Analysis of Benzinforbrug By Celler Tests that the Variances are Equal Test O'Brien[.5] Brown-Forsythe Levene Bartlett F Ratio 0,0000 . . 0,1354 DFNum -1 5 5 5 DFDen 0 6 6 . Prob > F 0,0000* . . 0,9842 Warning: Small sample sizes. Use Caution. Da Bartletts test giver en P-værdi= 0.9642 > 0.05 fås en accept af nulhypotesen. Kravet er rimeligt opfyldt. b) Først testes H0 : R * C 0 (Ingen signifikant vekselvirkning) H H: R * C 0 Vælg Analyze Fit Model Indsæt for Y: Benzinforbrug ,Indsæt for ADD:Karburator og Olieblanding Indsæt for CROSS: Karburator,Olieblanding (marker begge) Emphasis’s rullemenu: vælg Minimal Report Run Model (Minimal report er kun valgt for at undgå nogle i denne forbindelse overflødige figurer) Man får (blandt andet) Summary of Fit RSquare 0,951898 RSquare Adj 0,911814 Root Mean Square Error 24,4949 Mean of Response 904,1667 Observations (or Sum Wgts) 12 Analysis of Variance Source DF Sum of Squares Mean Square F Ratio Model 5 71241,667 14248,3 23,7472 Error 6 3600,000 600,0 Prob > F C. Total 11 74841,667 0,0007 Effect Tests Source Nparm DF Sum of Squares F Ratio karburator 1 1 6075,000 10,1250 Olieblanding 2 2 58716,667 48,9306 karburator*Olieblanding 2 2 6450,000 5,3750 Ud for “Karburator*olieblanding” findes P - værdi = 0.0460. Da P - værdi = 0.0460 < 0.05 forkastes H 0 (svagt). Konklusion: Begge faktorer har en virkning i form af en vekselvirkning. 15 Prob > F 0,0190 0,0002 0,0460 Vejledning i SAS-JMP For at finde hvilke kombinationer der giver lavest benzinforbrug vælges Vælg “Effect Details” rød pil ved “karburator x olieblanding Vælg “LS means Plot” Vi får følgende Udskrift+tegning : Karburator*Olieblanding Least Squares Means Table Level Least Sq Mean k1,o1 845,0000 k1,o2 965,0000 k1,o3 835,0000 k2,o1 825,0000 k2,o2 1035,0000 k2,o3 920,0000 LS Means Plot Std Error 17,320508 17,320508 17,320508 17,320508 17,320508 17,320508 Umiddelbart ses af figuren, at man ikke bør vælge olieblanding O2. Derimod er det uklart hvilken af kombinationer (se tabellen) med de mindste “means”, der giver det laveste olieforbrug. Dette kan afklares ved på ovennævnte rullemenu at vælge “LSMeans students t” Det giver en stor tabel (som kan fjernes ved med cursor på overskrift, højre musetast at fjerne markeringen ved “Crostab Report). Under den findes følgende lille tabel Level k2,o2 k1,o2 k2,o3 k1,o1 k1,o3 k2,o1 A Least Sq Mean 1035,0000 B 965,0000 B 920,0000 C 845,0000 C 835,0000 C 825,0000 Levels not connected by same letter are significantly different Heraf ses, at kombinationen K2 O1giver det laveste benzinforbrug (825), men, at der ingen signifikant forskel er mellem K2 O1 , K1 O3 og K1 O1. 16 1 Generelle forhold ved opstart Konfidensintervaller Ønskes fundet 95% konfidensintervaller rød pil i tabellen “Least Square Means Table” “upper”. Karburator*Olieblanding Least Squares Means Table Level Least Sq Mean Std Error k1,o1 845,0000 17,320508 k1,o2 965,0000 17,320508 k1,o3 835,0000 17,320508 k2,o1 825,0000 17,320508 k2,o2 1035,0000 17,320508 k2,o3 920,0000 17,320508 Vælg “Columns” Lower95% 802,61824 922,61824 792,61824 782,61824 992,61824 877,61824 vælg “lower” og derefter Upper95% 887,3818 1007,3818 877,3818 867,3818 1077,3818 962,3818 Heraf ses, at for kombinationen K2 O1 er konfidensintervallet = [782.6 ; 867.4] Ønskes gemt de estimerede middelværdier , “error”, konfidens- og prædiktionsgrænser gemt i den oprindelige datatabel, så rød pil ved “Response på rullemenu vælg “SaveColumns Vælg de ønskede størrelser. Eksempel 5.3 Additiv model: To signifikante hovedvirkninger I forbindelse med nogle brudstyrkebestemmelser for Portland-cement udføres et fuldstændigt randomiseret forsøg til undersøgelse af middelbrudstyrkens afhængighed af cementblandere og cementknusere. Med hver af 3 cementblandere udstøbtes efter blanding med vand 12 cementterninger, som efter en uges lagring underkastedes en brudstyrkeprøve ved hjælp af en af 4 cementknusere. Forsøgsresultaterne var: Cementknusere 1 2 3 4 1 147 175 130 99 85 75 67 23 35 215 97 180 Cementblandere 2 221 155 173 141 110 155 85 55 81 161 167 177 3 123 85 153 137 143 82 67 25 83 135 91 129 Forudsætningerne for en variansanalyse antages opfyldt. Angiv hvilke kombinationer af cementblander og cementknuser, der giver den største brudstyrke, og giv et estimat og et 95% konfidensinterval for denne største middelbrudstyrke. Løsning Lad starten af indtastningen i regnearket være cementblandere cementknusere c1 k1 c1 k1 c1 k1 c1 k2 c1 k2 osv. 17 brudstyrke 147 175 130 99 85 Vejledning i SAS-JMP 1) Variansanalysetabel opstilles. Vælg Analyze Fit Model Indsæt for Y: Brudstyrke ,Indsæt for AD:Cementblandere og Cementknusere Indsæt for CROSS: Cementblandere,Cementknusere (marker begge) Run Model Der fremkommer en række figurer og tabeller. Blandt disse er følgende variansanalysetabel Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,761257 0,651834 29,77042 118,3889 36 Analysis of Variance DF Sum of Squares Source Model 11 67823,889 Error 24 21270,667 C. Total 35 89094,556 Effect Tests Source Cementblander Cementknuser Cementblander*Cementknuser Nparm 2 3 6 Mean Square F Ratio 6165,81 886,28 6,9570 Prob > F <,0001* DF 2 3 6 Sum of Squares 8706,056 51995,222 7122,611 F Ratio Prob > F 4,9116 0,0163* 19,5557 <,0001* 1,3394 0,2787 a) H0 : R * C 0 (Ingen signifikant vekselvirkning) For “Cementblandere*cementknusere” findes P - værdi = 0.2787. Da P - værdi = 0.2787 > 0.05 accepteres H 0 . Konklusion: Vi antager i det følgende, at vekselvirkningen er forsvindende. b) Vekselsvirkningen "pooles" ned i “error”". Gå tilbage til starten, og slet vekselvirkningsleddet. Blandt mange tabeller findes Effect Tests Source Cementblander Cementknuser Nparm 2 3 DF Sum of Squares 2 8706,056 3 51995,222 F Ratio 4,5994 18,3125 Prob > F 0,0181* <,0001* H0: C = 0 (Cementknuser har ingen virkning) forkastes, da P-værdi = 0.000 < 0.05 H0: R = 0 (Cementblander har ingen virkning) forkastes, da P-værdi = 0.0181 < 0.05 Konklusion: Cementknuserne har en stærk signifikant virkning, Cementblanderne har en signifikant virkning, Under “cementblandere” kan på samme måde som i forrige eksempel bl.a. findes følgende tabeller Level Least Sq Mean c2 A 140,08333 c1 B 110,66667 c3 B 104,41667 Levels not connected by same letter are significantly different. Heraf ses, at cementblander 2 må foretrækkes 18 1 Generelle forhold ved opstart Under cementknusere fås Level Least Sq Mean k1 A 151,33333 k4 A 150,22222 k2 B 114,11111 k3 C 57,88889 Levels not connected by same letter are significantly different Cementknuser 1 og 4 må foretrækkes. Konklusion: Størst middelbrudstyrke fås i kombinationen cementknuser 1 og cementblander 2 eller cementknuser 4 og cementblander 2 ~ for største middelbrudstyrke på basis af cementknuser 1 og cementblander 2: Et estimat 12 Rød pil ved Response Profiler Factor profiling Profiler Ved de fremkomne figurer flyttes linier Rød pil ved Predicter Profiler Confidence Intervals 173,0278 ±25,64987 Bruds tyrke 200 150 100 50 c2 Cem entbl ander k1 Ce m entknuser k4 k3 k2 k1 c3 c2 c1 0 ~12 173.0 95% Konfidensinterval : 173.03 25.65;173.03 25.65 147.4;198.7 Eksempel 5.4 Additiv model: Een signifikant hovedvirkning Samme fremgangsmåde som i eksempel 5.3. 19 Vejledning i SAS-JMP Kapitel 6. Flere end 2 faktorer på 2 niveauer, Screeningforsøg Eksempel 6.8. Beregning af partiel faktorforsøg Virkningerne af 7 faktorer ønskedes undersøgt ved et partielt faktorforsøg. Om 3 af faktorerne kunne forudsættes, at kun hovedvirkninger kunne være forskellige fra nul, medens for de 4 øvrige også 2-faktorvekselvirkninger eventuelt kunne være forskellige fra nul. De 4 sidste faktorer identificeredes derfor med bogstaverne A,B,C og D og de 3 første med bogstaverne E,F og G. Der udførtes et fuldstændigt randomiseret forsøg med en 1 7 2 - faktorstruktur, hvor denne 8 sidste er fremkommet ved, at faktorerne E,F og G indførtes i en fuldstændig 2 4 - faktorstruktur med faktorerne A,B,C og D ved relationerne: E = ABC F = BCD G = ABCD Behandlingerne anføres i standardrækkefølge efter A,B, C og D, og uden gentagelser, var følgende: 15.3 18.4 26.1 26.3 13.5 15.7 18.8 17.3 21.0 22.3 18.9 15.5 9.6 10.5 23.1 25.0 a) Find, hvilke faktorer, der har virkning b) Find de niveauer de pågældende faktorer skal indstilles på, for at give det største resultat. c) Angiv et estimat for dette største middelresultat, og angiv et 95% Konfidensinterval herfor. Løsning Vi skal finde hovedvirkningerne + vekselvirkningerne AB, AC, AD, BC, BD, CD a) Doe Screening Design Factors, Skriv 7 ved 2 level Catagorical ADD ændre navnene fra x1, x2 ... til A, B, ... Continue Vælg 16 Run, Fractional Factorial (uden blokke) Continue Vi ser nu følgende forslag til struktur (efter at have valgt nedenfor nævnte boks) Display and Modify Design Change Generating Rules Factors E F G A X X B X X C X X D X X X Skemaet skal læses E = BCD, F = ACD, G = ABD I “Changing Generating Rules” ændres nu planen ved at sætte passende krydser. Apply Vi får planen Display and Modify Design Change Generating Rules Factors E F G A X X B X X X C X X X D X X 20 1 Generelle forhold ved opstart Aliasing of Effects Effects Aliases A = F*G D = E*G E = D*G F = A*G G = A*F = D*E A*B = C*E A*C = B*E A*D = E*F A*E = B*C = D*F B*D = C*F B*F = C*D Det ses, at planen opfylder kravene, idet vi dog skal flytte BC og CD frem Vi går til “Output Options” Make Tabel Der fremkommer en tabel som skal udfyldes (se nedenfor) Rød pil i tabel ved Design Model Edit Vi flytter nu BC og CD frem ved at skrive B*C fremfor A*E og C*D fremfor B*F. samt sletter de to sidste vekselvirkninger BG og CG Run Vi er nu tilbage ved Model Specifikation, hvor vi ses, at den endelige model stemmer For at kunne udfylde tabellen er vi nødt til at finde ud af behandlingerne Underliggende struktur A B C (1) a b ab c ac bc abc d ad bd abd cd acd bcd abcd D E=ABC F=BCD G=ABCD Behandlinger + g ae + bef + abfg cef + acfg bcg abce df + + adefg + bdeg abd cdeg acd + bcdf 21 abcdefg 15.3 18.4 26.1 26.3 13.5 15.7 18.8 17.3 21.0 22.3 18.9 15.5 9.6 10.5 23.1 25 Vejledning i SAS-JMP Tabellen udfyldes Pattern ------+ +---+- - +++ - + - + - ++ - + +++++++ +- -++++ ++ - - -++ - ++ - - -+ - - + - ++ ++ - + - - +++ + - - - -+ - + + - +- -++ -+++ - + + - ++ - - - + - - ++ - A L1 L2 L1 L1 L2 L2 L2 L1 L1 L2 L2 L1 L2 L1 L2 L1 B L1 L1 L1 L2 L2 L1 L2 L2 L1 L2 L2 L1 L1 L2 L1 L2 Rød pil i tabel ved Design C L1 L1 L2 L1 L2 L1 L1 L2 L2 L1 L2 L1 L2 L2 L2 L1 D L1 L1 L2 L2 L2 L2 L1 L1 L1 L2 L1 L2 L1 L2 L2 L1 Model E L1 L2 L2 L2 L2 L2 L1 L1 L2 L1 L2 L1 L1 L1 L1 L2 F L1 L1 L1 L1 L2 L2 L2 L1 L2 L1 L1 L2 L2 L2 L1 L2 Run Script G L2 L1 L2 L2 L2 L2 L2 L2 L1 L1 L1 L1 L2 L1 L1 L1 Y 15,3 18,4 9,6 18,9 25 22,3 26,3 18,8 13,5 15,5 17,3 21 15,7 23,1 10,5 26,1 I Emphasis vælg minimal report Run Blandt mange andre udskrifter fås følgende tabeller: Analysis of Variance Source Model Error C. Total DF 13 2 15 Sum of Squares 395,54313 4,04125 399,58437 Mean Square 30,4264 2,0206 F Ratio 15,0579 Prob > F 0,0639 Effect Tests Source A B C D E F G A*B A*C A*D B*C B*D C*D Nparm 1 1 1 1 1 1 1 1 1 1 1 1 1 DF 1 1 1 1 1 1 1 1 1 1 1 1 1 Sum of Squares 1,38062 124,88063 57,38063 1,89063 1,50062 148,23063 2,64063 6,63062 0,33062 0,68062 39,37563 2,64063 7,98063 F Ratio 0,6833 61,8030 28,3975 0,9357 0,7427 73,3588 1,3068 3,2815 0,1636 0,3368 19,4869 1,3068 3,9496 Prob > F 0,4954 0,0158* 0,0335* 0,4354 0,4796 0,0134* 0,3714 0,2118 0,7250 0,6203 0,0477* 0,3714 0,1852 Heraf ses, at BC er den eneste signifikante vekselvirkning. De øvrige vekselvirkninger pooles ned i “Error”, ved at slette dem i Design Model Edit Run Vi får nu bl.a. følgende udskrift Effect Tests Source A B C D E F G B*C Nparm 1 1 1 1 1 1 1 1 DF 1 1 1 1 1 1 1 1 Sum of Squares 1,38062 124,88063 57,38063 1,89063 1,50062 148,23063 2,64063 39,37563 F Ratio 0,4333 39,1925 18,0083 0,5934 0,4710 46,5207 0,8287 12,3576 Prob > F 0,5314 0,0004* 0,0038* 0,4663 0,5146 0,0002* 0,3929 0,0098* Heraf ses, at også F har en signifikant virkning. Konklusion: B, C og F har en virkning B og C i form af en vekselvirkning 22 1 Generelle forhold ved opstart b) De øvrige hovedvirkninger pooles ned i “Error” Vælg derefter minimal Report, Run Rød pil ved “Response Y” “Factor Profile “ vælg “Interaction Plots” og “Profiler” Under “Prediction Profiler” slet kryds ved “Desirability Functions” Interaction Profiles Af interaction Profiles ses, at man skal vælge C på lavt niveau og B på højt niveau Prediction Profiler Af Prediction profiles ses, at man skal vælge F på højt niveau. c) Rød pil ved “Prediction Profiler, Confidence Intervals Placer de røde streger på figuren ±2,022308 Y 24,74375 25 20 15 L2 L1 L2 L1 L2 L1 10 L2 L1 L2 B C F Det ses, at den største middelværdi er 24.74, og et 95% konfidensinterval er [24.74 - 2.02 ; 24.74 + 2.02] = [22.72 ; 26.76] 23 Vejledning i SAS-JMP Eksempel 6.10. Beregning af et konfunderet partielt 25-1 faktorforsøg Virkningen af 5 faktorer A, B, C, D og E ønskes undersøgt. Man ved, at ingen af faktorerne D og E vekselvirker med andre faktorer. Da man kun kan udføre 4 forsøg pr apparat, indføres blokke på 4 forsøgsenheder. I en fuldstændig 24 struktur med faktorerne A, B, C og D indføres E = ABCD. Endvidere indføres blokkene ved at konfundere ABD og CD. Her vælges (tilfældigt) fortegnene ++ til blok 1 + - til blok 2 osv. Forsøgsplanen (opskrevet på sædvanlig måde i standardorden ) og forsøgsresultaterne er: A B C D E=ABCD behandlinger ABD CD Blokke Resultat (1) + e + 3 9 a + a + + 1 16 b + b + + 1 11 ab + + + abe + 3 13 c + c 4 10 ac bc abc d ad bd abd cd acd bcd abcd + + + + + + + + + + + + + + + + + + + + + + + + + + + + ace + + bce + + + + + abc d ade bde abd cde acd bcd abcde + + + + + + + + 2 14 2 6 4 2 4 4 2 1 3 3 1 17 11 14 7 14 9 16 8 5 a) Find hvilke faktorer der har virkning b) Angiv de niveauer de pågældende faktorer skal indstilles på, for at give det største middelværdi. Løsning: a) Doe Screening Design Factors, Skriv 5 ved Catagorical ADD ændre navnene fra x1, x2 ... til A, B, ... Continue Vælg 16 Run, Fractional Factorial (med 4 blokke) Continue Vi får en udskrift Vælg “Change Generating Rules” Vi ændrer nu planen ved at sætte og fjerne passende krydser i overensstemmelse med ovenstående plan. Apply Change Generating Rules Factors E Block Block A X X B X X C X X D X X X Aliasing of Effects 24 1 Generelle forhold ved opstart Effects Aliases C*D C*E D*E Block Aliases = Block = Block = Block Vi ser planen stemmer “Output Options” Randomize within blocks. Make Tabel Der udskrives nu en tabel, efter hvilken rækkefølgen af forsøgene er bestemt (randomiseret) Vi indsætter nu forsøgsresultaterne: Bloknumrene svarer ikke til dem vi indførte, men da man jo ikke er interesseret i hvilke blokke der er “bedst”, er det ligegyldigt. Eksempelvis svarer SAS blok 1 til vor nr 4 Pattern --+-- + -++ +++ - + - - ++ ---+- ++ - + +-+-+ ++ - + ----+ + - ++ ++ - -+ - +++ - - +++ +----+--+++++ Block 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 A L1 L1 L2 L2 L1 L1 L2 L2 L1 L2 L2 L1 L1 L2 L1 L2 B L1 L2 L2 L1 L1 L2 L1 L2 L1 L1 L2 L2 L1 L1 L2 L2 C L2 L1 L2 L1 L1 L2 L2 L1 L1 L2 L1 L2 L2 L1 L1 L2 D L1 L2 L1 L2 L2 L1 L1 L2 L1 L2 L1 L2 L2 L1 L1 L2 E L1 L2 L1 L2 L1 L2 L2 L1 L2 L1 L2 L1 L2 L1 L1 L2 Y 10 7 17 14 11 6 14 14 9 16 13 8 9 16 11 5 Analyse af data (variansanalyse) Rød pil i tabel ved Design,Model Edit I den fremkomne tabel fjernes nu alle de vekselvirkninger, man mener der er 0. Rød pil i tabel ved Design,Model Run Script Man ser nu den endelige model. Run model Vi får bl.a. følgende udskrift. Analysis of Variance Source DF Sum of Squares Model 11 179,50000 Error 4 31,50000 C. Total 15 211,00000 Mean Square 16,3182 7,8750 25 F Ratio 2,0722 Prob > F 0,2516 Vejledning i SAS-JMP Parameter Estimates Term Estimate Intercept 11,25 A 2,375 B -1,125 C -0,625 D -0,75 E -1,625 Block[1] 0,75 Block[2] 0 Block[3] 0,25 A*B -0,25 A*C 0 B*C -0,5 Std Error 0,701561 0,701561 0,701561 0,701561 0,701561 0,701561 1,215139 1,215139 1,215139 0,701561 0,701561 0,701561 t Ratio 16,04 3,39 -1,60 -0,89 -1,07 -2,32 0,62 0,00 0,21 -0,36 0,00 -0,71 Prob>|t| <,0001* 0,0276* 0,1841 0,4233 0,3453 0,0815 0,5705 1,0000 0,8470 0,7396 1 0,5154 Det ses, at alle vekselvirkninger er 0. De pooles væk. Marker dem under “Model Specification” og vælg Remove Run Model Parameter Estimates Term Estimate Std Error t Ratio Prob>|t| Intercept 11,25 0,57087 19,71 <,0001* A 2,375 0,57087 4,16 0,0042* B -1,125 0,57087 -1,97 0,0894 C -0,625 0,57087 -1,09 0,3098 D -0,75 0,57087 -1,31 0,2303 E -1,625 0,57087 -2,85 0,0248* Block[1] 0,75 0,988776 0,76 0,4729 Block[2] 0 0,988776 0,00 1,0000 Block[3] 0,25 0,988776 0,25 0,8077 Konklusion: A og E har en virkning b) Beregning af estimat for optimal værdi samt konfidensintervaller B, C og D pooles ned i “error” hvorved vi får den endelige model. Derefter Rød pil ved “Response Y” Factor Profiling Profiler Rød pil ved “Prediction Profiler” Der fremkommer en figur hvoraf man ser, at A skal på højt niveau, og E skal på lavt niveau for at give det største middelværdi L2 L1 1 A E Block 26 4 3 2 1 L2 L1 L2 18 16 14 12 10 8 6 4 L1 ±3,661206 Y 16 Sættes tallene under figurerne til ovennævnte niveauer fås følgende figur, hvoraf man kan se, at største middelværdi er 16.00 Det har imidlertid ikke så megen mening, da tallet jo afhænger af blokkene Man ser iøvrigt af udskrifterne at blokkene ikke har haft nogen betydning. 1 Generelle forhold ved opstart Kapitel 7. Regressiopnsanalyse Eksempel 7.4 Vurdering af model Tilsætning af en vis mængde kunstfibre forøger et garns trækstyrke. Man har eksperimenteret med forskellige tilsatte mængder kunstfibre x og registreret garnets trækstyrke y ved disse forskellige mængder. Herved fremkom følgende observationsmateriale: Mængde x (i gram) af kunstfibre p. kg uld 40 50 55 60 70 75 80 85 90 95 100 105 110 120 130 Trækstyrke : Y 4.5 6.5 5.4 7.0 8.2 8.0 7.1 8.9 8.2 10.3 9.6 10.8 10.5 11.2 12.0 2 1) Find r og anvend denne samt en figur på lommeregnerens grafiske display eller residualernes fortegn til vurdering af modellen. 2) Opskriv regressionsligningen. Løsning 1) Data indtastes kunstfibre 40 50 osv. styrke 4,5 6,5 Man kan ved analysen vælge 2 modeller, enten “fit Y by X” som giver en forholdsvis simpel og overskuelig analyse, eller “Fit model” som er nødvendig ved mere specielle analyser. 1) Vælg Analyze Fit Y by X markér “Styrke” og tryk på Y Response markér “kunstfibre” og tryk på X Factor OK Der fremkommer et “scatterplot”, hvor man i et koordinatsystem kan se punkterne afbildet. Rød pil vælg fra rullemenuen “Fit Line”. Der fremkommer så følgende tegning og udskrift: Bivariate Fit of Styrke By Kunstfibre Linear Fit Styrke = 1,8086555 + 0,0798974 Kunstfibre Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,919301 0,913093 0,648068 8,546667 15 27 Vejledning i SAS-JMP Af udskriften ses, at forklaringsgraden “RSquare” er 91,93 %. , hvilket er tilfredsstillende, da modellen altså “forklarer” 91,93% af variationen. Af figuren ses, at punkterne fordeler sig tilfældigt omkring linien. Outliers. Af ovenstående figur ses, at der næppe er nogen “outliers” (punkter der afviger så kraftigt fra det generelle billede, at man kunne frygte de var fejlmålinger). En undersøgelse af om der er outliers er vigtigt. En (lidt usikker) metode er, at få tegnet såkaldte 95% predikationskurver, og se om praktisk taget alle punkter ligger indenfor disse. Rød pil under tegningen ved “linear fit” vælg”Confid. Curves indv” Det resulterer i følgende figur Bivariate Fit of Styrke By Kunstfibre 13 12 11 Styrke 10 9 8 7 6 5 4 30 40 50 60 70 80 90 100110120130140 Kunstfibre Da alle punkter ligger indenfor grænserne, tyder det ikke på, at der er outliers. En lidt sikrere metode er, at lade SAS-JMP beregne såkaldte “Studentized Residuals”, som tager i betragtning, at spredningen er mindre ved “midtpunktet” end langt fra det. Vælg Analyze Fit model markér “Styrke” og tryk på Y markér “kunstfibre” og tryk ADD I “Emphasis” vælg “Minimal Report” (for at begrænse udskrifterne) Run Vi får tegninger og udskrifter nogenlunde magen til før. Rød pil vælg Save Columns Studentized residuals Der bliver nu tilføjet en ekstra kolonne til data Kunsfibre Styrke Studentized resid styrke 40 4,5 -0,910214 50 6,5 1,19237827 55 5,4 -1,3479279 60 7 0,6566306 70 8,2 1,29007124 75 8 0,31944498 80 7,1 -1,7594549 85 8,9 0,47928292 90 8,2 -1,2790965 95 10,3 1,44832329 100 9,6 -0,3212379 105 10,8 0,98512428 110 10,5 -0,1614718 120 11,2 -0,3381357 130 12 -0,3553506 28 1 Generelle forhold ved opstart Heraf fremgår, at da ingen “Studentized Residuals”, numerisk er større end 3 (det er tilladt, at nogle få er større end 2) er der ingen outliers. Et residualplot ( tegning af de sædvanlige residualer) kan ses nederst, og af den kan man (måske lettere) se at residualerne, og dermed at punkterne, fordeler sig tilfældigt omkring linien. Konklusion: Modellen synes tilstrækkelig godt at beskrive data indenfor måleområdet. Eksempel 7.5 (fortsættelse af eksempel 7.4) Test I eksempel 7.4 fandt man at ligningen y = 1.8087+0.0799x var en god model for data. 1) Test om y er uafhængig af x 2) Find 95% konfidensinterval for hældningen 3) Find den til x = 65 svarende værdi for y, samt et 95% konfidensinterval for y . 4) Find 95% prædistinationsinterval for 1 ny observation svarende til x - værdien 65. Løsning: Data er indtastet som i eksempel 7.4 1) H0 :Y er uafhængig af x H 0 : Regressionslinien er vandret H 0 : 1 0 . Vælg Analyze Fit model markér “Styrke” og tryk på Y markér “kunstfibre” og tryk på Add Run Der fremkommer så blandt andet følgende udskrift: Analysis of Variance Source DF Model 1 Error 13 C. Total 14 Sum of Squares 62,197436 5,459897 67,657333 Parameter Estimates Term Estimate Intercept 1,8086555 Kunstfibre 0,0798974 Std Error 0,578421 0,006565 Mean Square 62,1974 0,4200 t Ratio 3,13 12,17 F Ratio 148,0919 Prob > F <,0001 Prob>|t| 0,0080 <,0001 Det ses, ud for “Model”, at F - Ratio = 148.09 og at P-value = 0.0001 (kan også ses ud for “kunstfibre” Heraf fås, at H0 forkastes Y er ikke uafhængig af x. 2) Konfidensinterval for hældningskoefficienten 1 : Cursor placeres i tabel for “Parameter Estimates”, højre musetast “Upper 95%” Columns Man får bl.a. følgende tabel: Parameter Estimates Term Estimate Std Error t Ratio Prob>|t| Lower 95% Upper 95% Intercept 1,8086555 0,578421 3,13 0,0080 0,5590522 3,0582587 Kunstfibre 0.0798974 0,006565 12.17 <,0001* 0.0657135 0.0940812 Heraf aflæses [0.0657 ; 0.0941] 3) 95% konfidensinterval for middeltrækstyrken svarende til x - værdien 65. 29 “Lower 95%” Vejledning i SAS-JMP rød pil ved “Response, styrke skriv 65 og aflæs vælg “Factor Profiling” Profiler sæt cursor på tallet i bunden og ±0,453736 Styrke 7,001984 12 10 8 6 130 90 110 70 50 30 4 65 Kunstfibre x = 65 Y = 7.002 95% konfidensinterval [7.002 - 0.4537 ; 7.002 + 0.4537]=[6.55;7.46] 4) Indsæt 65 nederst i x-kolonne i tabel rød pil ved response save Columns Individ Confidence Interval I tabel fremkommer nu prædistinationsintervaller [5.50 ; 8.47] Eksempel 7.6. Valg mellem lineær og eksponentiel model I et forsøg undersøgtes et ventilationsanlægs effektivitet. Målingerne foretoges ved at fylde et lokale med gas og vente til koncentrationen var stabil. Herefter startedes ventilationsanlægget og gaskoncentrationen Ct måltes til forskellige tidspunkter t. Følgende resultater fandtes: t (min. efter anlæggets start) C [ppm] 2.67 4.59 6.75 7.67 11.34 14.34 16.25 18.25 23.09 34 28 26 22 16 14 12 10 8 Følgende 2 modeller for funktioner overvejes: Model l (lineært henfald): C a bt Mode12 (eksponentielt henfald): C a e b t 1) Vurder hvilken model der er bedst. 2) Opskriv regressionsligningen for den model du finder bedst. 3) Beregn ud fra den valgte model den værdi af C, for hvilken t = 12 minutter, og opskriv et 95% konfidensinterval for C. Løsning Data indtastes t 2,67 4,59 6,75 c 34 28 26 osv. 1) Analyze Fit Y by X markér “c” og tryk på Y Response markér “t” og tryk på X Factor OK Der fremkommer et “scatterplot”, hvor man i et koordinatsystem kan se punkterne afbildet. Rød pil Fit line ok Der fremkommer følgende figur og udskrift: 30 1 Generelle forhold ved opstart Bivariate Fit of c By t Linear Fit c = 33,710679 - 1,2710444*t Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,929312 0,919214 2,559818 18,88889 9 Forklaringsgraden 91.9% er høj, men punkterne fordeler sig ikke jævnt om linien. Vi gentager nu, idet vi nu vælger Fit special Marker “Natural logarithm” for y OK Bivariate Fit of c By t Transformed Fit Log Log(c) = 3,6780207 - 0,072567*t Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Observations (or Sum Wgts) 0,988291 0,986618 0,057679 2,831809 9 Vi ser, at punkterne fordeler sig tilfældigt omkring kurven, og at RSquare =0.988 er høj, så model2 (eksponentiel model) må være den bedste model. 31 Vejledning i SAS-JMP 2) Af Log(c) = 3,6780207 - 0,072567*t fås c e 3.67800.07257t 39.57 e 0.07257t 3) Danner en ny kolonne med navnet logc cursor på navn, højre musetast, Formula vælg c trancental log ok Skriv nederst i tabel under t tallet 12. Analyze Fit model Marker logc og vælg y marker t og vælg add Run Rød pil ved "Response logc" Save Columns predicted values mean Confidence interval Der fremkommer følgende tabel t 2,67 4,59 osv. 18,25 23,09 12 c 34 28 logc 3,52636052 3,33220451 10 8 . 2,30258509 2,07944154 . Lower 95% Mean logc Upper 95% Mean logc 3,40619261 3,5623412 3,27742032 3,41245635 2,28863203 1,90984064 2,76169153 Predicted logc 3,48426691 3,34493833 2,41871516 2,09505833 2,85274272 2,3536736 2,00244949 2,80721712 Heraf ses, at for t = 12 er log(c) = 2.8072 c e 2.8072 16.56 . ;17.33 95% konfidensinterval: e 2.76169 ; e 2.8527 1583 Eksempel 7.7. Regressionsanalyse (med gentagelser) Givet følgende målinger Tiden t 20 30 40 60 70 90 100 120 150 180 Tykkelse y 4.2 4.9 7.4 6.9 8.8 8.2 13.6 12.0 13.1 12.4 14.9 16.8 20.0 21.2 23.1 25.2 27.5 25.1 32.9 32.4 1) Foretag en testning af forudsætningen om varianshomogenitet. 2) Det formodes på forhånd, at der er en lineær sammenhæng mellem x og y. Undersøg ved en “lack of fit” test, om formodningen kan accepteres. 3) Bestem i bekræftende fald ligningen for den fundne regressionslinie. 4) Det påstås i litteraturen, at hældningskoefficienten 1 er 0.15 Test om dette på et signifikansniveau på 5% kan være sandt. 5) Angiv et 95% konfidensinterval for middelværdien af tykkelsen y, når t = 110 minutter. Løsning Data indtastes på sædvanlig måde: t 20 20 30 30 40 ... ... 180 180 y 4,2 4,9 7,4 6,9 8,8 ... ... 32,9 32,4 32 1 Generelle forhold ved opstart 1) Undersøgelse af varianshomogenitet. Test af nulhypotesen H 0 : 12 22 ... 102 Man gør som beskrevet under ensidet variansanalyse, dvs. vi vælger at gøre t til”character” Sæt cursor på t’s hoved, tryk på venstre musetast og vælg “column Info” Vælg Analyze Fit Y by X markér “y” og tryk på Y Response markér “t” og tryk på X Factor OK Sæt cursor på overskrift, højre musetast vælg fra rullemenuen “ “UnEqual Variances”. Tests that the Variances are Equal Test F Ratio DFNum O'Brien[.5] 0,0000 -1 Brown-Forsythe -1,896e16 9 Levene -1,896e16 9 Bartlett 0,4990 9 Warning: Small sample sizes. Use Caution. DFDen 0 10 10 . Prob > F 0,0000 . . 0,8763 Da vi kun har 2 gentagelser for hver t-værdi kan kun Bartletts test anvendes. Da P - værdien=0.8763 > 0.05 accepteres H0 , dvs. vi vil i det følgende antage, at kravet om varianshomogenitet er opfyldt. 2) H 0 : Lineær model gælder H 0 :( xi , i ) ligger på en ret linie Man sørger nu for, at t er “numeric”, og vælger nu forfra Analyze Fit Y by X markér “y” og tryk på Y Response markér “t” og tryk på X Factor OK Der fremkommer et “scatterplot”, hvor man i et koordinatsystem kan se punkterne afbildet. Sæt cursor på overskrift, højre musetast vælg fra rullemenuen “Fit Line”. Tryk på pil ud for “Lack of Fit” på den røde pil under tegningen ved “linear fit” Curves indv” Der fremkommer følgende udskrift: Bivariate Fit of y By t Linear Fit y = 1,6541465 + 0,172975 t Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response 0,978579 0,977389 1,344501 16,53 33 vælg”Confid. Vejledning i SAS-JMP Observations (or Sum Wgts) 20 Lack Of Fit Source DF Sum of Squares Lack Of Fit 8 22,728289 Pure Error 10 9,810000 Total Error 18 32,538289 Analysis of Variance Source DF Model 1 Error 18 C. Total 19 Sum of Squares 1486,4437 32,5383 1518,9820 Parameter Estimates Term Estimate Intercept 1,6541465 t 0,172975 Std Error 0,599582 0,006032 Mean Square 2,84104 0,98100 Mean Square 1486,44 1,81 t Ratio 2,76 28,68 F Ratio 2,8961 Prob > F 0,0591 Max RSq 0 F Ratio 822,2924 Prob > F <,0001 Prob>|t| 0,0129 <,0001 Af figuren ses, at “gennemsnitspunkterne ligger tilfældigt omkring linien, og der næppe er outliers, da punkterne næsten alle falder indenfor “prediction linierne” Af udskriften for “Lack of fit” ses, at P - value er 0.0591. På et signifikansniveau på 5%, ses, at H0 må accepteres, dvs. vi kan antage, at indenfor måleområdet giver førstegradsmodellen en rimelig god beskrivelse af resultaterne, 3) Af udskriften ses, at regressionsligningen bliver y 16542 . 01730 . x . 4) H 0 : 1 015 Sæt cursor på et vilkårligt tal under " Parameter estimates" , højre musetast s vælg "lower" gentag men vælg "Upper" Parameter Estimates Estimate Term Intercept 1,6541465 t 0,172975 Column- Std Error t Ratio Prob>|t| Lower 95% Upper 95% 0,599582 0,006032 2,76 28,68 0,0129* <,0001* 0,3944709 0,160302 2,9138221 0,1856481 Heraf ses, at et 95% konfidensinterval for ikke indeholder 0.15. dvs. data giver ikke den i litteraturen angivne hældningskoefficient.. 5) Find det til t = 110 svarende 95% konfidensinterval for tykkelsen y. Skriv nederst i tabel under t tallet 110. Analyze Fit model Marker y og vælg y marker t og vælg add Run Rød pil ved "Response y Save Columns predicted values mean Confidence interval Der bliver nu tilføjet ekstra søjler . Vi får y’s værdi for x = 110 = 20.68. 95% konfidensinterval [19.98 ; 21.38] 34 1 Generelle forhold ved opstart Eksempel 7.8 (multipel regressionsanalyse uden gentagelser) Det månedlige elektriske forbrug Y på en fabrik formodes at være afhængig af den gennemsnitlige udendørs temperatur x1, antal arbejdsdage x2 i måneden , den gennemsnitlige renhed x3 af det fremstillede produkt og det antal tons x4, der produceres i den pågældende måned. Det formodes, at Y er en lineær funktion af x1, x2 , x3 og x4 , dvs. på formen Y 0 1 x1 2 x2 3 x3 4 x4 . Følgende observationer fra det forløbne år foreligger x1 x2 x3 x4 Y -4 22 91 100 836 -1 20 90 95 789 7 21 88 110 883 16 19 87 88 790 18 20 91 94 816 23 19 94 99 859 27 23 87 97 831 29 21 86 96 832 24 22 88 110 897 16 23 91 105 872 10 20 90 100 842 3 20 89 98 821 1) Vurder ud fra forklaringsgraden og "studentized residualer" om ovennævnte model er rimelig. Det antages i det følgende, at ovenstående model gælder. 2) Undersøg om modellen kan reduceres, dvs. kan nogle af koefficienterne antages at være 0. 3) Angiv regressionsligningen i den endelige model. 4) Angiv 95% konfidensintervaller for de regressionskoefficienter der indgår i ovenstående model 5) Angiv et 95% konfidensinterval for Y i punktet ( x1 , x 2 , x 3 , x 4 ) (0,20,90,100) Løsning Data indtastes x1 -1 7 16 18 23 27 29 24 16 10 3 x2 20 21 19 20 19 23 21 22 23 20 20 x3 90 88 87 91 94 87 86 88 91 90 89 x4 95 110 88 94 99 97 96 110 105 100 98 y 789 883 790 816 859 831 832 897 872 842 821 35 Vejledning i SAS-JMP 1) Vælg Analyze Fit model markér “y” og tryk på Y Response markér “x1, x2, x3.x4” og tryk ADD Emphasis: Miniimal report Run Der fremkommer bl.a. følgende udskrift Summary of Fit RSquare RSquare Adj Root Mean Square Error Mean of Response Vælg rød pil 0,965448 0,945705 7,90936 839 Save Columns Studentized residuals I datatabel kan man nu yderligere finde følgende x1 -4 -1 7 16 18 23 27 29 24 16 10 3 x2 22 20 21 19 20 19 23 21 22 23 20 20 x3 91 90 88 87 91 94 87 86 88 91 90 89 x4 100 95 110 88 94 99 97 96 110 105 100 98 y 836 789 883 790 816 859 831 832 897 872 842 821 Studentized Resid y 1,79003969 -2,2547678 0,13625987 1,49780253 -0,6335664 0,52748444 -0,6533457 0,11469765 -0,3300421 0,20781137 0,25236158 -0,0125531 Da kun en enkelt værdi numerisk er større end 2 og ingen er over 3, antages, at der ikke er outliers Da yderligere forklaringsgraden= 0.965 er tæt ved 1 vurderes modellen at være rimelig god. 2) Mulig reduktion af modellen H 0 : 1 2 3 4 0 , H: Mindst en af regressionskoefficienterne er forskellig fra 0. I samme udskrift som under "Summery of Fit" fandtes Response y Summary of Fit Analysis of Variance Source DF Sum of Squares Model 4 12236,094 Error 7 437,906 C. Total 11 12674,000 Parameter Estimates Term Estimate Intercept 175,49949 x1 1,0266425 x2 -0,793015 x3 1,9113126 x4 4,9822626 Mean Square 3059,02 62,56 Std Error 113,8626 0,226819 2,120284 1,145911 0,44901 t Ratio 1,54 4,53 -0,37 1,67 11,10 F Ratio 48,8990 Prob > F <,0001* Prob>|t| 0,1671 0,0027* 0,7195 0,1393 <,0001* Af ovenstående udskrift ses for model, at P - Value <0.0001 < 0.05. 36 1 Generelle forhold ved opstart Heraf følger, at H0 forkastes (stærkt), dvs. mindst en af regressionskoefficienterne er forskellig fra 0. Vi ser nu regressionskoefficienterne Den størrelse, der har størst P-værdi er 2 . H0: 2 = 0 accepteres, da P -værdien = 0.7195> 0.05. x2-leddet bortkastes. Bemærk, at man kun eliminerer én variabel ad gangen. Vi eliminerer nu x2 : (slettes under “ADD”) Effect Tests Source Nparm x1 1 x3 x4 1 1 DF 1 Sum of Squares 1274,177 F Ratio 22,8216 Prob > F 0,0014 1 1 215,715 10796,609 3,8636 193,3764 0,0849 <,0001 Da P-værdien for x3 er 0.0849 > 0.05 eliminerer vi nu x3. Effect Tests Source Nparm x1 1 x4 1 DF 1 Sum of Squares 1083,972 F Ratio 14,7285 Prob > F 0,0040 1 11089,679 150,6814 <,0001 Det er nu ikke muligt at reducere modellen mere. 3) For at kunne angive regressionsligningen betragtes følgende udskrift. Parameter Estimates Term Estimate Intercept 335,65234 x1 0,9016966 x4 4,9401735 Std Error 40,26796 0,234953 0,40245 t Ratio 8,34 3,84 12,28 Prob>|t| <,0001 0,0040 <,0001 Ligningen bliver y 335.65 0.9017 x1 4.9402 x 4 4) Cursor i tabellen ovenfor, højre musetast Parameter Estimates Term Estimate Intercept 335,65234 x1 0,9016966 x4 4,9401735 Columns Upper 95% lower 95% Std Error 40,26796 0,234953 0,40245 t Ratio 8,34 3,84 12,28 Prob>|t| <,0001 0,0040 <,0001 Lower 95% 244,55989 0,370196 4,0297676 Upper 95% 426,74479 1,4331972 5,8505795 . ] . ] , 4 : [4.030 ; 5851 Konfidensintervallerne bliver 1 : [0.3702 ; 14332 5) Cursor på rød pil"Response Y" vælg “Factor Profiling” ved x1, skriv 0, Cursor på rødt tal ved x4, skriv 100 37 Profiler cursor på det røde tal forneden Vejledning i SAS-JMP Prediction Profiler Vi har derfor, at y 829.67 og et 95% konfidensinterval er [820.35 ; 838.99] Eksempel 7.9. Polynomial regressionsanalyse uden gentagelser. Et forsøg udføres, for at finde hvordan størkningstiden T (i minutter) afhænger af antal gram x af et additiv. Man fik følgende forsøgsresultater: x g/l 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 T min. 740 710 610 650 470 540 440 420 400 450 440 480 530 470 420 480 450 490 1) Vurder på basis af ovennævnte observationer, hvilket polynomium T 0 1 x 2 x 2 3 x 3 ... p x p af lavest mulig grad p, der indenfor måleområdet [ 0 ; 8.5 ] giver en tilfredsstillende beskrivelse af T’s variation. 2) Angiv regressionsligningen for den model, man i spørgsmål 1 har fundet frem til. 3) Beregn værdien af T for x = 6.2, og angiv et 95% konfidensinterval for T for x = 6.2. Løsning: 1) Data indtastes a) Analyze Fit Y by X markér “T” og tryk på Y Response markér “x” og tryk på X Factor OK Der fremkommer et “scatterplot”, hvor man i et koordinatsystem kan se punkterne afbildet. Bivariate Fit of T By x 750 700 650 T 600 550 500 450 400 350 -1 0 1 2 3 4 5 6 7 8 9 x 38 1 Generelle forhold ved opstart Cursor på overskrift, højre musetast Fit Polynomial Man kan nu vælge, hvilken grad polynomiet skal have. Ud fra scatterplottet synes en andengradsmodel ikke at være en god model Vi vælger en fjerdegradsmodel Der fremkommer blandt andet følgende udskrift: Summary of Fit RSquare 0,846337 RSquare Adj 0,799056 Root Mean Square Error 45,41548 Mean of Response 510,5556 Observations (or Sum Wgts) 18 Vælges en trediegradsmodel fås tilsvarende Summary of Fit RSquare 0,841256 RSquare Adj 0,807239 Root Mean Square Error 44,48109 Mean of Response 510,5556 Observations (or Sum 18 Wgts) Vi ser, at R-squared (adjusted) nu er steget svagt fra 80,72% til 79,90%. Heraf må sluttes, at fjerdegradsmodellen ikke har givet et væsentligt forbedret bidrag til forklaring af data. For at lave tests, konfidensintervaller m.m. må man indføre 2 nye kolonner x2 = x2 og x3=x3 og gå over i multipel analyse. Hertil benyttes formula (Cursor på kolonneoverskrift højre musetast formula) Vælg Analyze Fit model markér “T” og tryk på Y Response markér “x, x2, x3” og tryk ADD Run Man får bl.a. Parameter Estimates Term Intercept x x2 x3 Estimate Std Error t Ratio Prob>|t| 770,70175 -179,2699 31,336429 -1,692466 34,52201 36,21048 10,07039 0,777816 22,32 -4,95 3,11 -2,18 <,0001* 0,0002* 0,0077* 0,0472* Da vi ser, at P-værdien for 3 = 0.047 < 0.05 forkastes H0: 3 0 , dvs. Vi kan ikke bortkaste trediegradsleddet. Heraf sluttes, at en trediegradsmodel må være det foreløbig bedste bud Grafen for trediegradsmodellen blev følgende 39 Vejledning i SAS-JMP Bivariate Fit of T By x Da punkterne ligger tilfældigt omkring kurven finder vi, at trediegradsmodellen er en acceptabel model For at vurdere om der er outliers, vælges studentized residuals Vælg rød pil(ved response) Save Columns Studentized residuals Resultat blev følgende tabel x T x2 x3 Studentized Resid T 0 740 0 0 -1,0945392 0,5 710 0,25 0,125 0,56154621 1 610 1 1 -0,2737721 1,5 650 2,25 3,375 2,05315659 2 470 4 8 -1,3378076 2,5 540 6,25 15,625 1,19147889 3 440 9 27 -0,7178786 3,5 420 12,25 42,875 -0,8387979 4 400 16 64 -1,123754 4,5 450 20,25 91,125 0,13661908 5 440 25 125 -0,1505792 5,5 480 30,25 166,375 0,71090704 6 530 36 216 1,79418941 6,5 470 42,25 274,625 0,13340982 7 420 49 343 -1,2500319 7,5 480 56,25 421,875 0,12747972 8 450 64 512 -0,6727677 8,5 490 72,25 614,125 0,65672353 Den viser, at ingen numerisk er over 3, og kun en enkelt på 2.05 er numerisk over 2 Konklusion: Trediegradsmodellen er den bedste model 2) Regressionsligningen ses under punkt 2 Polynomial Fit Degree=3 T = 464,53399 - 4,620743 x + 9,7574819 (x-4,25)^2 - 1,6924665 (x-4,25)^3 . x 2 1629 . x 3 .(udregnet på lommeregner) eller T 770.70 179.27 x 31336 3) Beregn værdien af T for x = 6.2, og angiv et 95% konfidensinterval for T for x = 6.2. Skriv 6.2 nederst i datatabel cursor på overskrift på x2, højre musetast Nu kommer automatisk i kolonnerne 6.2^2 osv. Rød pil ved Response T Save Columns Predicted value 40 Mean Confidence Interval 1 Generelle forhold ved opstart Nu dannes i tabellen tre nye kolonner op, hvoraf man aflæser det ønskede x 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 6,2 T 740 710 610 650 470 540 440 420 400 450 440 480 530 470 420 480 450 490 . x2 0 0,25 1 2,25 4 6,25 9 12,25 16 20,25 25 30,25 36 42,25 49 56,25 64 72,25 38,44 x3 Lower 95% Mean T Upper 95% Mean T Predicted T 0 696,659416 844,744093 770,701754 0,125 638,924223 738,454518 688,68937 1 581,420936 660,730766 621,075851 3,375 527,734498 605,449196 566,591847 8 483,773946 564,162071 523,968008 15,625 451,740922 532,129047 491,934985 27 430,771063 507,675789 469,223426 42,875 418,637279 490,490688 454,563983 64 412,60539 480,769223 446,687307 91,125 410,242129 478,405962 444,324045 125 410,278146 482,131555 446,20485 166,375 412,608008 489,512735 451,060372 216 417,427197 497,815321 457,621259 274,625 424,424101 504,812225 464,618163 343 431,924385 509,639083 470,781734 421,875 435,187706 514,497536 474,842621 512 425,766328 525,296623 475,531476 614,125 397,536609 545,621286 471,578947 238,328 420,015059 500,862506 460,438782 Man får T = 460.44 og 95% konfidensinterval [420.0;500.9] Kapitel 8. Statistisk Proceskontrol Eksempel 8.1. Kontrol af stof i levnedsmiddelprodukt. En levnedsmidddelvirksomhed har problemer med at holde koncentrationen af et skadeligt stof A i et konservesprodukt nede under en øvre tolerancegrænse på 12 enheder pr. gram . Man vælger derfor at få foretaget en kontrolkortanalyse. På basis af tidligere erfaringer inddeles målingerne i 30 undergrupper , som hver har deres karakteristika:(råvarecharge, apparatur, tidspunkt på dagen osv.). Hver undergruppe er på 5 målinger. Gruppe Målinger Gruppe Målinger 1 13 8 2 5 8 16 16 11 14 8 17 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 6 1 9 15 4 2 4 3 4 3 15 8 3 5 5 10 5 4 0 9 5 13 7 7 0 4 4 3 9 9 3 0 6 0 14 0 0 5 3 3 9 5 0 2 5 8 0 7 8 3 2 2 7 4 5 11 14 8 3 13 5 5 12 7 7 0 1 0 6 17 18 19 20 21 22 23 24 25 26 27 28 29 30 9 4 4 6 1 1 7 0 5 10 0 10 3 7 5 3 0 10 3 3 0 0 2 3 2 3 5 3 1 4 2 4 5 0 22 7 3 5 9 9 7 10 8 3 7 12 10 5 6 6 4 2 13 2 8 13 9 13 2 7 12 4 9 7 10 4 4 11 6 0 41 Vejledning i SAS-JMP 1) Foretag ved hjælp af x og R - kort en kontrolkortanalyse og opstil kontrolkort, der kan benyttes til en løbende kontrol af indholdet af det skadelige stof. 2) Idet der er fastsat en øvre tolerancegrænse på 12, skal man finde sandsynligheden for at én måling falder udenfor, når processen antages i kontrol med de i punkt 1 fastsatte kontrolgrænser. Løsning Data indtastes på sædvanlig måde: gruppe 1 1 1 1 1 2 2 2 osv. 30 30 30 30 30 indhold af A 13 8 2 5 8 0 1 6 9 7 10 13 0 1) Vælg Analyze Quality and Proces Control Chart X Bar I menu vælg Process = Indhold af A Sample Label = gruppe Marker “Xbar, R, kSigma OK Vi får følgende udskrift Variables Control Chart XBar of Indhold af A U CL=11,17 10 Avg=5,77 5 LC L=0,36 30 27 24 21 18 15 12 9 6 0 3 Mean of Indhold af A 15 gruppe Note: The sigma was calculated using the range. R of Indhold af A 25 20 U CL=19,81 15 10 Avg=9,37 5 0 gruppe 42 30 27 24 21 18 15 12 9 LC L=0,00 6 -5 3 Range of Indhold af A 30 1 Generelle forhold ved opstart Det ses, at gruppe 28 er udenfor kontrolgrænserne på R-kortet. Det kan somme tider være svært umiddelbart at se om et punkt falder indenfor eller udenfor kontrolgrænsen Det er ikke tilfældet her, men ellers kan man gøre følgende Rød pil ved R-kort Test beyond limits Nu bliver alle punkter udenfor markeret Synes man figuren er for lille og uoverskuelig, så Højre musetast på figur Size/Scale Y-axis Angiv Min , Max og Incrediment. Gruppe 28 udskydes. Cursor placeres på gruppe 28 på R-kort venstre musetast, I datatabel markeres nu gruppe 28 med blåt Cursor på gruppen Højre musetast Exclude Gentag med det nye datasæt Control Chart X Bar I menu vælg Process = Indhold af R, kSigma OK Sample Label = gruppe Marker “Xbar, Vi får nye kontrolkort med nye grænser For R-kortet er UCL = 18.88. Vi ser, at nu er der ingen udenfor R-kortet, men stadig en gruppe (gruppe 16) udenfor kontrolgrænserne på x - kortet. Vi udskyder nu dette punkt efter samme metode som før, Derefter er der ingen punkter på hverken x - kortet eller R- kortet, der er udenfor grænserne De to kort kan nu benyttes til den løbende proceskontrol. XBar of Indhold af A R of Indhold af A 30 Range of Indhold af A Mean of Indhold af A 15 UCL=10,56 10 Avg=5,41 5 LCL=0,26 0 25 20 UCL=18,88 15 10 Avg=8,93 5 LCL=0,00 0 30 27 24 21 18 15 9 12 gruppe gruppe K 6 3 30 27 24 21 18 15 9 12 6 3 -5 ontrolgrænserne kan aflæses på kortet. Spredningen kan findes på følgende måde: Vælg rød pil ved “Variable Control Chart” Save sigma ok Cursor på søjleoverskrift”“Indhold af A” højre musetast Column Info Man kan nu aflæse spredningen til 3.8387 43 Vejledning i SAS-JMP 2) Rød pil ved “Variable Control Chart” Capability Upper Spec Limit = 12 OK Control Chart Sigma Sigma = 3,83871 Capability CP CPK CPM CPL CPU Index . 0,572 . . 0,572 Portion Below LSL Above USL Lower CI . 0,485 . . 0,485 Percent . 4,2947 Upper CI . 0,659 . . 0,659 PPM Sigma Quality . . 42947,037 3,217 Heraf ses, at P(X>12) = 0 4.29% Ønskes et s-kort frem for et R kort, så vælg Vælg Graph Analyze Quality and Proces Control Chart X Bar I menu vælg Process = Indhold af A Sample Label = gruppe Marker “Xbar, S, kSigma OK Eksempel 8.3. Løbende kontrol. Der oprettes på sædvanlig måde en ny datatabel. Lad første søjle få navnet målinger.Indsæt de første målinger.Vælg som før Control Chart X Bar I menu vælg Process = målinger Sample Size Constant Vælg stikprøvestørelse (eksempelvis 3) Specify Stats mean(range) = 8,4 og mean(stdv)= 9 OK indsæt eksempelvis Der fremkommer nu nogle kontrolkort for xBar og R (hvis det er valgt) og man kan nu løbende sætte sine måleresultater ind i datatabellen. Vælg “rød pil ved overskrift xBar tests alle test Man kan nu løbende se om der sker en overtrædelse af alarmkriterierne Nedenfor er givet et eksempel, hvor der også er indtastet de tre “Zoner” Mean of Column 1 20 1 15 10 U CL=16,11 A B C Avg=9,89 C B 5 A 1 LC L=3,67 2 3 4 5 6 7 8 9 10 11 12 Sam ple 44 6.7 Sekventiel forsøgsstrategi Eksempel 8.4 (np - kort) En fabrikant af nogle specielle typer keramikfliser som er beregnet til at kunne klare høje temperaturer ønsker udarbejdet et kontrolkort. Ved en løbende produktion af fliser udtoges 40 gange en stikprøve på 100 fliser. De blev undersøgt om de levede op til de forventede kvalitetsmål. Fliser der ikke opfyldte disse krav blev klassificeret som defekte Resultatet var følgende: Gruppe 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Antal defekte 8 6 4 4 3 7 3 6 9 5 7 2 6 11 4 6 7 4 9 6 Gruppe 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Antal defekte 6 2 5 7 6 4 6 10 5 5 7 9 3 8 5 3 14 6 4 5 Løsning Procesvariablen X er bestemt ved : X = antal enheder uden fejl af en produktion på 100 fliser X er binomialfordelt b(100, p) Data indtastes i en kolonne “antal defekte” Vælg Control Chart NP I menu vælg Process = antal defektemålinger Constant Size = 100 Vælg rød pil på øverste overskrift Tests = ALL tests Show Zones OK Der fremkommer følgende kort Number for antal defekte Control Chart NP of antal defekte 15 1 U CL=13,01 10 Avg=5,93 5 0 LC L=0,00 4 8 12 16 20 24 28 32 36 40 44 Sam ple Heraf ses, at der kun er et punkt, hvor alarmkriterierne overtrædes. Ved indførelse på kortet af 2 - grænser og l - grænser ses, at ingen af de alarmgrænser vi omtalte tidligere bliver overtrådt. 45 Vejledning i SAS-JMP Eksempel 8.5.(c - kort) 2 Ved en tekstilproduktion taltes anta1 fejl pr. 100 m klæde. Følgende resultater fandtes (tidsmæssig rækkefølge for produktionen) : nr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 antal fejl 3 3 6 3 0 1 3 5 8 7 4 10 5 5 5 4 2 4 5 1 2 0 1 1 4 Med henblik på en kontrolkortanalyse skal konstrueres et c-kort for processen Løsning Hvis den variable er Poissonfordelt dannes et c-kort på samme måde som np-kortet. Kortet med indførelse af 2 - grænser og l - grænser ses nedenfor. c Chart for Antal fejl 10 UCL = 8,96 8 CTR = 3,42 LCL = 0,00 c 6 4 2 0 0 5 10 15 20 25 Observation Da ingen af de alarmgrænser vi omtalte tidligere bliver overtrådt antages derfor, at det reviderede c-kort kan benyttes til løbende kontrol. Kapitel 9 Der findes ingen programmer til stikprøveplaner. Kapitel 10 Antalstabel Eksempel 10.3. Test af uafhængighed Ved et universitet indstillede et år 500 studerende sig til en årsprøve, der bl.a. omfattede matematik og fysik. De opnåede karakterer i de to fag inddeltes i 4 grupper: Fysikkarakterer Observerede værdier Total - 3, 0 2, 4 7, 10 12 Matematikkarakterer Total -3, 0 2, 4 7, 10 12 18 22 7 2 49 46 60 123 28 257 46 13 42 42 68 165 0 5 16 8 29 77 129 188 106 500 6.7 Sekventiel forsøgsstrategi Undersøg om der er en sammenhæng mellem de opnåede fysikkarakterer og de opnåede matematikkarakterer. Løsning : Data indtastes som vist nedenfor, idet man sørger for at kolonnerne Matamatik og Fysik ændres til typen “Nominal” Cursor på navn, højre musetast Matematik Fysik -3-0 -3-0 -3-0 2-4 -3-0 7-10 -3-0 12 2-4 -3-0 2-4 2-4 2-4 7-10 2-4 12 7-10 -3-0 7-10 2-4 7-10 7-10 7-10 12 12 -3-0 12 2-4 12 7-10 12 12 “Modelling Type” Antal 18 46 13 0 22 60 42 5 7 123 42 16 2 28 68 8 Nominal Vælg “Analyze “ Fit Y By x sæt Matematik som XY sæt Fysik som X sæt antal som Freq ok I den fremkomne tabel sæt cursor på tabel, højre musetast slet markeringer ved “Total”, “Col” og “Row”, og sæt markering ved “expected” ok Resultat: Contingency Analysis of Fysik By Matematik Freq: Antal Contingency Table Matematik By Fysik Count 12 2-4 -3-0 Expected 12 8 28 2 6,148 54,484 10,388 2-4 5 60 22 7,482 66,306 12,642 -3-0 0 46 18 4,466 39,578 7,546 7-10 16 123 7 10,904 96,632 18,424 29 257 49 7-10 68 34,98 42 42,57 13 25,41 42 62,04 165 Tests N 500 DF 9 -LogLike 55,490394 RSquare (U) 0,1008 Test ChiSquare Prob>ChiSq Likelihood Ratio 110,981 <,0001* Pearson 108,917 <,0001* Man kan nu se de forventede værdier, og konstatere, at kun 1 ligger under 5. Man kan derfor stole på at “Pearson’s P - værdi Da P - værdi < 0.05 forkastes nulhypotesen (stærkt ) dvs. der er ikke uafhængighed mellem fysikkaraktererne og matematikkaraktererne. 47 106 129 77 188 500 Vejledning i SAS-JMP Eksempel 11.5 . Kruskal-Wallis test for mere end 2 variable. Et levnedsmiddels smag kan tænkes at afhænge af hvilken af 3 produktionsmetoder der anvendes. For at undersøge om det er tilfældet planlægges følgende forsøg: Med hver af de 3 metoder fremstilles i en forsøgsproduktion 6 prøver. En ekspertsrnager vurderer de i alt 18 smagsprøver enkeltvis og i tilfældig rækkefølge uden kendskab til, hvilken metode der er anvendt i det enkelte tilfælde. Efter hver smagning markeres resultatet ved afsætning af et kryds på et standardliniestykke, hvis ene endepunkt svarer til værst mulig smag, det andet endepunkt til bedst mulig smag. Ved den statistiske analyse af resultaterne transformeres disse til tal, idet hvert af de 18 standardliniestykker inddeles lineært efter en skala fra 0 (værst mulig smag) til 100 (bedst mulig smag). De transformerede resultater er de tal, som angiver krydsernes placering, og kan betragtes som stikprøveværdier af q (=3) kontinuerte statistisk uafhængige variable med ukendte fordelingstyper. De transformerede forsøgsresultater blev: Metode M1 61 69 79 61 59 Metode M2 62 58 47 59 63 Metode M3 57 45 60 54 57 48 Det bemærkes, at der ved forsøget kun fremkom 5 observationer for metoderne Ml og M3 på grund af tekniske fejl ved fremstillingen af 2 prøver. Idet m1, m2 og m3 betegner de 3 fordelingers medianer, ønsker vi på grundlag af stikprøveværdierne at teste nulhypotesen H0: De 3 fordelinger er ens (hvilket indebærer, at ml = m2 = m3) imod den alternative hypotese H: De 3 fordelinger er ikke ens. Løsning: Data indtastes som vist nedenfor metode m1 m1 m1 m1 m1 m2 m2 osv Smag 61 69 79 61 59 62 58 m3 m3 Vælg Analyze 54 57 Fit y by x Indsæt smag i Y og metode i X ok rød pil " Non-parametric Wilconson test ENTER Man får bl.a. følgende udskrift Wilcoxon / Kruskal-Wallis Tests (Rank Sums) Level Count Score Sum m1 5 62,500 m2 6 47,500 m3 5 26,000 Score Mean 12,5000 7,9167 5,2000 (Mean-Mean0)/Std0 2,214 -0,326 -1,817 1-way Test, ChiSquare Approximation ChiSquare DF Prob>ChiSq 6,0484 2 0,0486* Small sample sizes. Refer to statistical tables for tests, rather than large-sample approximations. Da P - værdi = 0.0486 < 0.05 forkastes nulhypotesen (tæt ved accept), og vi må derfor konkludere, at de 3 fordelinger ikke er identiske. Ud fra de fundne summer må man kunne slutte, at metode 1 giver en bedre smag end metode 3. 48
© Copyright 2024