DATORÖVNING 2: SANNOLIKHETSFÖRDELNINGAR. STATISTISK INFERENS. START Logga in och starta Minitab. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående datorövning). SANNOLIKHETSFÖRDELNINGAR Välj en av Sveriges kommuner. Svara sedan på följande frågor. a) Om du skulle välja 30 personer slumpmässigt ur den kommun som du valt, hur stor är sannolikheten att du skulle få minst 5 personer som har minst eftergymnasial utbildning? Ledning: sök den information du behöver på Internet. b) Gör en bedömning av tillförlitligheten hos data (datakvaliteten). Ledning: fundera på datavärdens trovärdighet. STATISTISK INFERENS MED DATORNS HJÄLP Vi skall nu utnyttja ett hyggligt stort datamaterial. Datamaterialet finns i en fil inlagd på hemsidan i Excelformat och heter HUS.xls. Öppna Excelfilen och kopiera hela datafilen. Ställ dig sedan högst upp (i den grå raden i kolumn C1) i Minitabs datablad och klistra in. Datamaterialet innehåller 11 kolumner och antalet observationer (rader) är 522. Datamaterialet avser försäljning av bostadshus i en stad i USA år 2002, och man var främst intresserad av att se samband mellan försäljningspriserna och ett antal variabler som beskriver huset och dess omgivning. I filen ingår följande variabler i tur och ordning. 1. Löpnummer (identifikationsnummer) 2. Försäljningspris (dollar) 3. Bostadsyta (kvadratfot) 4. Antal sovrum 5. Antal badrum 6. Förekomst av luftkonditionering, 1 = luftkonditionering finns, 0 annars 1 7. Antal bilar som garaget är konstruerat för 8. Förekomst av pool, 1 = pool finns, 0 annars 9. Byggår 10. Byggkonstruktionens kvalitet, 1 = hög, 2 = medium, 3 = låg 11. Tomtstorlek (kvadratfot) I Minitab, under Basic Statistics, hittar du 1-Sample t, som kan användas för att beräkna konfidensintervall och testa hypoteser. UPPGIFT 1 Vi ska börja med att granska data. a) Rita lämpliga diagram för att studera variablerna försäljningspris, förekomst av pool samt byggkonstruktionens kvalitets fördelning. b) Beräkna lämpliga beskrivande mått för variablerna försäljningspris, förekomst av pool samt byggkonstruktionens kvalitet. UPPGIFT 2 a) Vi vill undersöka om det förväntade försäljningspriset kan vara 250 000 eller inte. Testet vill vi göra på signifikansnivån 1%, dvs konfidensintervallet skall ha 99% konfidensnivå. Använd 1-Sample t. Studera konfidensintervall och testresultat som kommer ut. Hur tolkar du intervallet? Testvariabelns värde? b) Vi vill göra om testet med en enkelsidig mothypotes, nämligen att väntevärdet är större än 250 000. Genomför ett sådant test på signifikansnivån 1%, genom att göra lämplig justering under Options. Hur tolkar du intervallet? Testvariabelns värde? UPPGIFT 3 Vi vill nu bilda konfidensintervall för försäljningspriset för dels villor med hög konstruktionskvalitet (kod 1) och dels de som inte har denna kvalitet (kod 2 och 3). a) Vi måste därför koda om kvalitetsvariabeln (den näst sista kolumnen) till en ny variabel där t.ex. 1 kan betyda hög kvalitet medan 0 betyder att kvaliteten är ”lägre”. För att göra denna omkodning kan du utnyttja fliken Data och under den Code-Numeric to Numeric. Kolla att den nya kolumnen fick bara värdena 0 och 1 och att det ser korrekt ut. Ge den ett lämpligt namn. b) Vi vill nu ha två kolumner, där den ena innehåller försäljningspriser för alla objekt med kvalitet 1 och den andra priserna för objekt med kvalitet 0. Utnyttja under fliken Data kommandot Copy-Columns to Columns. Ange i rutan Copy from columns Försäljningspris och tryck sedan på knappen Subset the Data. Markera Rows that match och tryck sedan på knappen Condition. Fyll nu i rutan som öppnar sig så att Minitab kopierar de rader där den nya kvalitetsvariabeln antar värdet 1. Tryck OK och sedan OK igen. Under rutan Store Copied Data in Columns, välj In current worksheet, in columns och 2 skriv sedan in den kolumn som ni vill spara de utsorterade försäljningspriserna i. Tryck OK. Gör om för kvalitet 0. Sätt lämpliga rubriker på kolumnerna. c) Beräkna ett 95% konfidensintervall för det förväntade försäljningspriset vid kvalitet 1 och vid kvalitet 0. Utnyttja t-fördelningen och observera att båda beräkningarna kan göras i samma körning. Studera resultaten. Verkligen stor skillnad mellan intervallen, eller hur? (högst naturligt) UPPGIFT 4 Vi går nu över till att göra hypotesprövning och konfidensintervall för andelar. Vi är intresserade av förekomsten av pool och vill se om denna förekomst är olika beroende på husens kvalitet. Åter är det Basic Statistics som kan utnyttjas och under den 1 Proportion. a) Beräkna ett 99% konfidensintervall för andelen hus med pool. Tolka resultatet. b) Jämför andelen hus med pool för hus med högsta kvalitet med motsvarande andel för de som har något lägre kvalitet. Låt konfidensnivån vara 99%. Tolka resultaten som erhålls i utskriften. 3
© Copyright 2024