שם הקורס :יסודות PSPP שם המרצה :ד"ר ירון גילאי נושאי הקורס – חלק א' נושא מס' :1מבוא 3 ................................................................................................ כללי 3............................................................................................................................. עיבודים בסיסיים :טבלת שכיחות 5.................................................................................... תרגיל – דו"חות שכיחות 01 ............................................................................................... נושא מס' 11 ................................................................................... Data editor :2 מבוא 00 .......................................................................................................................... קביעת סוג המשתנה וכינוי 01 ............................................................... Type and Label - קביעת ערכי משתנה וכינויים 01 ................................................................. Value labels - ערכים חסרים – 05 .................................................................................. Missing values תרגיל – הקמת קובץ savחדש 01 ....................................................................................... נושא מס' :3יסודות סטטיסטיקה תיאורית 11 .............................................................. סולמות מדידה 01 ............................................................................................................ סטטיסטיקה תיאורית -משתנים קטגוריאליים 01 ............................................................... סטטיסטיקה תיאורית -משתנים רציפים 11 ........................................... Scale Variables - היסטוגרמה עבור משתנים רציפים (11 .................................................... )Scale Variables תרגיל – חישוב סטטיסטים 13 ........................................................................................... נושא מס' :4עבודה עם 22 .............................................................................. Syntax "הדבקת" סינטקס 15 ....................................................................................................... עריכת סינטקס 11 ............................................................................................................ הקלדת פקודות ,שמירה ופתיחת קובץ סינטקס 12 ............................................................... סינטקס לקביעת התצוגה המספרית בפלט 11 ...................................................................... הרצת קובץ סינטקס 11 ..................................................................................................... תרגיל – עבודה עם סינטקס 11 ........................................................................................... נושא מס' :2ברירת אוכלוסיה בקובץ 31 ............................................................... Data ברירת אוכלוסיה 30 .......................................................................................................... תרגילים – ברירת אוכלוסיה ע"ב ביטויי תנאי 35 ....................... ................................ ................................ בחירת מדגם אקראי 31 ......................... ................................ ................................ ................................ תרגיל – בחירת מדגם אקראי 31 ........................................................................................ פיצול קובץ 11 .................................................................................................................. שינוי מצב הקובץ ממפוצל ללא מפוצל 10 ............................................................................ תרגיל – פיצול קובץ 10 ...................................................................................................... נושא מס' :6סטטיסטיקה תיאורית – 43 ..................................... Descriptives/Explore 13 .............................................................................................................. Descriptives תרגיל – 15 .................................................................................................. Descriptives 11 ..................................................................................................................... Explore תרגיל –( Exploreקובץ 50 ..................................................................... )L2-multiple.sav 1 נושא מס' :7ממוצעים 24 ............................................................................. Means - תרגילים – ממוצעים 55 ....................................................................................... Means - נושא מס' :1משתנים מחושבים בקובץ 25 ............................................................ Data חישוב משתנה חדש (משתנה מחושב) 55 .............................................................................. תרגיל – חישוב פשוט של משתנה חדש 10 ............................................................................ שימוש בפונקציות בביטויים מתמטיים 11 ........................................................................... תרגילים – חישוב משתנה חדש באמצעות פונקציות 11 ......................................................... התניית ביצוע חישוב משתנה באמצעות ביטויי תנאי (או ביטויים לוגיים) 12 ............................ תרגיל – התניית ביצוע חישוב של משתנה חדש 11 ................................................................ קידוד מחדש של משתנה (15 ................................................................................ )Recode תרגיל – קידוד מחדש של משתנה (25 .................................................................... )Recode יצירת משתנה קטגוריאלי ממשתנה רציף 21 ...................................................................... תרגיל – יצירת משתנה קטגוריאלי ממשתנה רציף 25 .......................................................... נושא מס' :5מיון קובץ Dataובקרת נתונים 18 .............................................................. מיון קובץ 11 ........................................................................................................... Data תרגיל – יצירת קובץ משני ומיונו (קובץ 11 ........................................................ )kesher.sav איתור שגיאות הזנה בקובץ Dataותיקונן 13 ....................................................................... מחרוזת שלא הוזנה 13 ........................... ................................ ................................ ................................ משתנה נומרי שגוי או שלא הוזן 15 .......... ................................ ................................ ................................ תרגיל -איתור שגיאות הזנה בקובץ 12 ....................................................................... Data תרגיל – גזירת מדגם מקובץ ומיונו 11 ................................................................................. 3 יסודות PSPP נושא מס' :1מבוא כללי .0הפעל את התוכנה ע"י הקשה על האייקון .1מהתפריט בחר: . File Open ייפתח חלון כדוגמת הבא: .3פתח קובץ ( Dataבעל סיומת )savהמשמש לתרגול. demo.sav : 1 ייפתח החלון הבא (חלקי): .1החלון הנ"ל הוא במצב :Data Viewבראש כל עמודה מופיע שם משתנה (או שדה) ואילו כל שורה מיועדת לייצג תצפית (או רשומה) .במילים אחרות ,כל משתנה מייצג שאלה בשאלון ואילו כל שורה מייצגת משיב אחד (תצפית). .5ע"י הקלקה על ( Variable Viewבפינה השמאלית התחתונה) ,תתקבל התצוגה הבאה: .1בצע שמירה על ה Desktop -בשם חדש.demo-2.sav : 5 .2לחזרה למצב הקודם ,לחץ בתחתית המסך בצד שמאל על .Data Viewהצבעה עם העכבר על כל אחד מהשדות (כותרת העמודה) תיתן פירוט מורחב של אותו משתנה. .1עפ"י ברירת המחדל ,מוצגים ערכי המשתנים ללא Labelsכלומר ללא כינוי למשתנה .כדי לראות את משמעות ערכי המשתנים ,הקלק View Value Labels לחילופין ,ניתן להקליק על האייקון (מלמעלה). הנמצא בצד הימני של שורת התפריט השניה עיבודים בסיסיים :טבלת שכיחות .5תפריט Analyzeכולל אפשרויות רבות לעיבוד וניתוח הנתונים שבקובץ .נתחיל בביצוע עיבוד פשוט להפקת טבלת שכיחויות .מהתפריט הראשי ע"י בחירת: Analyze Descriptive Statistics Frequencies תוצג תיבת השיח של שכיחויות ( .)Frequenciesמשמאל לכל משתנה מוצג סימן המציין את סוג המשתנה (כפי שנדון בהמשך). משמאל לכל משתנה מוצג סימן המציין את סוג המשתנה ( )Data typeוכן את סולם המדידה ( .)Measurement levelמשמעות הסימנים הנ"ל מוצגת בטבלה הבאה: 1 .01ניצור טבלת שכיחויות עבור המשתנים "מגדר" ו"-קטגוריית הכנסה באלפי דולרים" .הקלק על המשתנים ] Gender [genderוכן ] .Income category in thousands [inccatשם המשתנה יוצג כאשר נצביע על ה label-שלו (אם קיים) .אם נקליק על המקש הימני של העכבר ונבטל את האפשרות ,Prefer variable labelsנקבל תצוגה קצרה יותר הכוללת רק את שם המשתנים (ולא את כינוייהם) כדלקמן: עקרונית ,יש לבחור את אותם שדות שברצוננו לכלול בשגרות הניתוח/עיבוד ולהעבירם לרשימת המשתנים שמימין (ע"י שימוש בחץ או הקלקה כפולה) .ניתן להעביר כל משתנה בנפרד או לחילופין ,לסמן כמה מהם (ע"י שימוש במקש Shiftאו )Ctrlואח"כ לבצע העברה ימינה בפעולה אחת (חץ). .00העבר את שני השדות הנ"ל לרשימה מימין: 2 .01ברירת המחדל כוללת בנוסף לטבלת שכיחויות גם את החישובים הסטטיסטיים הבאים: ממוצע ,סטיית תקן ,ערך מינימלי וערך מכסימלי .כיוון שמדובר כרגע במשתנים בדידים, נבטל את 1האפשרויות הללו: .03הקש " ."Okמתקבל הפלט הבא הנוצר בחלון חדש: .01הדו"ח המתקבל מציג שתי טבלאות ,אחת לכל משתנה .כל טבלה ממוינת לפי הקטגוריות של כל משתנה (מגדר וקבוצת הכנסה) ובסרגל מוצגת שכיחות מספרית ( ,)Frequencyאחוזית ( ,(Percentאחוז תקף ( ,)Valid Percentכלומר בניכוי חסרים וכן אחוז מצטבר ( .)Cumulative Percentבדוגמה שלפנינו אין חסרים ולכן שכיחות אחוז תקפה זהה לשכיחות אחוזית. 1 .05אם נרצה לקבל בדו"ח השכיחות גם את החסרים (אם יש כאלה) ,נחזור על הפרוצדורה הקודמת ונסמן בתחתית החלון את :Include missing values .01נקליק שוב על OKונקבל את הפלט הבא (לצורך ההדגמה הוספנו שתי רשומות שבהן מוזן רק המשתנה :)age בדו"ח זה מופיעה גם שורת הכוללת 1חסרים (לא מוזן כל ערך הן עבור genderוהן עבור .Income category in thousands 5 .02כדי לשמור את קובץ הפלט יש לבצע את הפעולות הבאות: א .בתפריט הראשי של דף הפלט ,בחר ב: File Export יתקבל חלון כדוגמת הבא: ב. ג. ד. ה. בחר בתיקייה המתאימה. בתחתית החלון בחר ב"( "HTMLקימות אפשרויות נוספות). רשום למעלה את שם קובץ הפלט ,למשל .output1.html הקלק על .saveיתקבל קובץ htmlשבו ניתן לצפות בדפדפן אינטרנט וכמו כן ,לפתוח אותו במעבד תמלילים וורד .ניתן להעביר קובץ פלט לדו"ח מסכם באמצעות תוכנות שונות ללכידת מסך כגון . FastStone Capture 01 תרגיל – דו"חות שכיחות .0הפק דו"ח שכיחות שביעות רצון מהתפקיד (.)jobsat תשובה: .1הפק דו"ח שכיחות קטגוריות הכנסה ( ,)inccatממוין בסדר יורד של שכיחות. תשובה: 00 נושא מס' Data editor :2 מבוא .0ה Data Editor -מציג את התכנים של קובץ .Dataכדי למנוע בעיות בכתיבת השפה העברית, נפתח קובץ חדש (ריק) ע"י הקלקה על הקישור הבאbasic file : הערה :בלי קשר לסוגיית העברית ,ניתן לפתוח קובץ ריק באמצעות התפריט הראשי כדלקמן: File New Data .1שמור את הקובץ הנ"ל על שולחן העבודה בשם חדשn2 : .3המידע ב Data Editor-מתבסס על משתנים ( )variablesותצפיות ( .)casesישנם שני מצבים אפשריים הניתנים לבחירה ושינוי בצד שמאל למטה של המסך: :Data Viewעמודות מתייחסות למשתנים (שאלות בשאלון) ואילו שורות מייצגות תצפיות (או משיבים). :Variable Viewכל שורה מייצגת משתנה (שאלה) ואילו כל עמודה מתארת תכונה של אותו משתנה. משתנים משתייכים לסוגים שונים כולל מספרים ,מחרוזות ( ,)Stringsמטבע או תאריכים. .1רצוי להקליד נתונים באמצעות Data Editorבעיקר לקבצים קטנים או לביצוע עדכונים קלים בקבצים גדולים .הקלדה מסיבית של נתונים עדיפה בכלי תוכנה אחרים כגון אקסס .בסיום ההקלדה ,ניתן להעביר את הנתונים אוטומטית ל.PSPP - .5הקש על Variable Viewכדי להגדיר את המשתנים .לצורך התרגול נגדיר בשלב זה רק שלושה. age, marital status, income : .1בשורה הראשונה של העמודה הראשונה הקלד .age .2בשורה השניה של העמודה הראשונה הקלד .marital .1בשורה השלישית של העמודה הראשונה הקלד 3 .incomeהמשתנים החדשים קבלו אוטומטית Typeמסוג . Numeric .5הקש על ה Data View -כדי להתחיל בהקלדת הנתונים .השמות שהקלדת במסך Variable Viewהם כעת הכותרות של שלוש העמודות במסך .Data View 01 .01התחל להקליד נתונים בעמודה הראשונה בשורה הראשונה: בעמודת ageהקלד .22 בעמודת maritalהקלד .1 בעמודת incomeהקלד .72000 .00הזז את הסמן לעמודה הראשונה בשורה השניה והמשך להקליד: בעמודת ageהקלד .53 בעמודת maritalהקלד .8 בעמודת incomeהקלד .123888 קביעת סוג המשתנה וכינוי Type and Label - בשלב זה משתני גיל ומצב משפחתי מוצגים עם שתי ספרות מימין לנקודה העשרונית ( )Decimal pointsלמרות שהם אמורים להיות מספרים שלמים ( .)Integersכדי להעלים את הספרות שמימין לנקודה העשרונית ,חזור ל Variable View -ובצע את הפעולות הבאות: בעמודה Decimalsשל השורה ageהקלד .8 בעמודה Decimalsשל השורה maritalהקלד .8 בעמודה Widthשל השורה incomeהקלד ( 5כדי שניתן יהיה להציג מספר בן 1 ספרות ושני מקומות מימין לנקודה – סה"כ 5מקומות כולל הנקודה העשרונית). כעת במסך 1 Data Viewהמשתנים הראשונים מוצגים ע"י מספרים שלמים (ללא ספרות מימין לנקודה העשרונית). נתונים לא מספריים (כגון מחרוזות טקסט) יכולים גם כן להיכנס לקובץ באמצעות ה.Data Editor - 03 .0הקלק על כפתור Variable Viewבתחתית מסך ה.Data Editor - .1בתא הראשון של השורה הריקה הראשונה הקלד genderעבור שם המשתנה. .3הקלק על התא Typeשמימין לתא הקודם .הקלק על הכפתור שבצידו הימני של תא זה כדי לפתוח תיבת שיח בשם .Variable Typeבחר באפשרות Stringכדי להגדיר את סוג המשתנה. .1הקש OKכדי לשמור את הבחירה ולחזור ל.Data Editor - .5בנוסף להגדרת סוג ( )typeהמשתנה ,ניתן גם להגדיר כינוי ( )labelלכל משתנה .חשיבות הכינויי ם הללו היא בעת הפקת דו"חות סטטיסטיים (ה labels-יופיעו אוטומטית בדו"חות). תפקידם הוא לספק תיאור מפורט יותר של המשתנה .תיאורים אלה יכולים להגיע לאורך מכסימלי של 155תווים ובעזרתם ניתן להבחין בפלטים בין המשתנים השונים. .1הקלק על כפתור Variable Viewבתחתית מסך ה.Data Editor - .2בעמודה Labelשל שורת ageהקלד "גיל המשיב". .1בעמודה Labelשל שורת maritalהקלד "מצב משפחתי". .5בעמודה Labelשל שורת incomeהקלד "הכנסה". .01בעמודה Labelשל שורת genderהקלד "מגדר". 01 .00העמודה Typeמציגה את הסוג הנוכחי של המשתנה .הסוגים השכיחים ביותר הינם numeric ו string -אולם למרות זאת ,התוכנה תומכת גם בסוגים רבים נוספים .בקובץ שהכנו עד כה, משתנה ההכנסה מוגדר כנומרי .הקלק על התא Typeבשורה incomeולאחר מכן הקלק על הכפתור מימין כדי לפתוח תיבת שיח .Variable Type .01בחר .Dollar .03פורמטים אפשריים עבור מטבע דולר מוצגים בחלון .בחר בסוג $###,###,###והקש .OK קביעת ערכי משתנה וכינויים Value labels - Value labels .0מאפשרים להצמיד לכל ערך מספרי של המשתנה ,מחרוזת (מלל) הנותנת לו משמעות .למשל ,למשתנה "השכלה" (אינו מצוי בקובץ שלנו) ,ישנם 1ערכים אפשריים: – 0השכלה יסודית ומטה. – 1השכלה תיכונית. - 3השכלה על תיכונית. - 1השכלה אקדמית. המשתנה maritalשבקובץ שלנו (מצב משפחתי) ,יכול לקבל 1ערכים בלבד: - 1רווק - 0נשוי .1 הקלק על התא Valuesעבור שורת ה marital-ואח"כ הקש על הכפתור הימני כך שתפתח תיבת שיח .Value Labelsה Value -הוא הערך המספרי האמיתי ואילו הvalue label - היא המחרוזת (או מלל) המתארת את המשמעות של אותו ערך מספרי. .3הקלק 8ב , Value-ו"-רווק" ב. Label- .1הקלק Addכדי להוסיף את הכינוי הנ"ל לרשימה. .5הקלק 1ב , Value-ו"-נשוי" ב. Label- .1הקלק Addכדי להוסיף את הכינוי הנ"ל לרשימה ולבסוף .OK .2עבור למסך Data Viewומהתפריט הראשי בחר: View Value Labels כעת ניתן לראות את הכינויים ( (Labelsשל המשתנה מצב משפחתי. 05 לחילופין ניתן להקליק בשורת התפריט השניה בצד ימין על האייקון . .1חזור למסך .Variable View .5הקלק על התא Valuesעבור שורת ה gender-ואח"כ הקש על הכפתור הימני כך שתפתח תיבת שיח .Value Labels .01הקלק "נ" ב , Value-ו"-נקבה" ב. Label- .00הקלק Addכדי להוסיף את הכינוי הנ"ל לרשימה. .01הקלק "ז" ב , Value-ו"-זכר" ב. Label- .03הקלק Addכדי להוסיף את הכינוי הנ"ל לרשימה ולבסוף .OK .01חזור למסך . Data View .05בשורה הראשונה ,בחר בתא "."gender .01הזן "ז" – התצוגה תהפוך ל"זכר (בתנאי שהמצה הוא (.)Value Labels .02בשורה השניה ,בחר בתא "."gender .01הזן "נ" – התצוגה תהפוך ל"נקבה". ערכים חסרים – Missing values יש צורך שבעת ביצוע עיבודים סטטיסטיים ,לא יילקחו בחשבון ערכים חסרים או שגויים. משיבים בסקר עלולים לסרב לענות על שאלות מסוימות ,יתכן שלא ידעו לענות על חלק מהשאלות או שיענו בצורה שגויה .אם לא נדאג לסנן או לזהות את אותם נתונים ,הניתוח עלול לספק תוצאות בלתי מדויקות. עבור ערכים נומריים (מספריים) ,שדות ריקים או שגויים מוגדרים ע"י התוכנה כ"חסרים" (.)Missing .0עבור למסך .Variable View .1הקלק על התא " "Missingבשורה " "ageואח"כ הקלק על הכפתור מימין לתא כדי לפתוח את תיבת השיח " ."Missing Valuesבתיבת שיח זו תוכל להגדיר עד 3ערכים חסרים נפרדים או להגדיר תחום ערכים ובנוסף לכך גם ערך בדיד אחד. 01 .3בחר " ,"Discrete missing valuesהקלד 555בתיבת הטקסט הראשונה והשאר את שאר שתי התיבות ריקות .הקלק .OK .1כעת נוסיף לערך החסר גם כינוי ( .)Labelהקלק על התא Valuesבשורה ageואח"כ הקלק על הכפתור הימני לפתיחת תיבת שיח מסוג .Value Labels .5הקלק 555ב , Value-ו"-אין תשובה" ב. Label- .1הקלק Addכדי להוסיף את הכינוי הנ"ל לרשימה ולבסוף .OK ערכים חסרים עבור משתני מחרוזת מטופלים בצורה דומה אולם שלא כמו במשתנים מספריים, שדות ריקים במשתני מחרוזת אינם נחשבים כחסרים אלא כמחרוזת ריקה. .2הקלק על Variable Viewבמסך .Data Editor .1הצבע על התא Missingבשורת ה gender-והקלק על הכפתור הימני כדי לפתוח את תיבת השיח . Missing Values .5סמן Discrete missing values (כלומר ,אין תשובה) בתיבת הטקסט והקלד "את" הראשונה משמאל .הקש .OK .01כעת תוכל להוסיף labelעבור הערך החסר הנ"ל .הקלק על התא Valuesבשורת gender ואז לחץ על הכפתור הימני לפתיחת תיבת שיח .Value Labels .00הקלד "את" בשדה Valueוכן "אין תשובה" ב.Label - .01הקלק Addכדי להוסיף את הכינוי ( )Labelהנ"ל לרשימה ולבסוף .OK תרגיל – הקמת קובץ savחדש בנה קובץ Dataחדש בשם students.savהכולל את המשתנים הבאים: מס' סידורי .num - שם משפחה .)Width=20( family - שם פרטי .)Width=20( private - תאריך לידה .)dd.mm.yyyy( date_birth - שנה =0 :year -א =1 ,ב=3 ,ג=1 ,ד=55 ,אין תשובה (יוגדר כחסר) ,סולם אורדינלי. אזור מגורים =0 :area -צפון=1 ,מרכז=3 ,דרום-55 ,אין תשובה (יוגדר כחסר) סולם שמי. הקלד את הנתונים הבאים לקובץ: Case Summaries אזור מגורים שנה תאריך לידה שם פרטי שם משפחה מס' סידורי צפון א 20.7.1983 משה שמעון 1 1 דרום ב 21.6.1983 מושון רחמים 2 2 מרכז ג 10.7.1984 אביגדור לוי 3 3 צפון ב 24.8.1983 נחמן יוסף 4 4 צפון א 29.4.1983 מרדכי יצחק 5 5 צפון א 20.7.1983 יהודה רביב 6 6 צפון ב 21.6.1983 רחלי לאה 7 7 מרכז א 10.7.1984 ליאון רחל 8 8 דרום ג 10.7.1984 יהודיוף שמחה 9 9 02 מרכז ד 24.8.1983 מושקוביץ ירון 10 10 דרום תשובה אין 10.7.1984 אבנר פזנר 11 11 תשובה אין ג 10.7.1984 משה כהן 12 12 תשובה אין ד 24.8.1983 דוד יואב 13 13 11 12 13 הפק דו"ח שכיחות "אזור מגורים". תשובה: הפק דו"ח שכיחות "שנה". תשובה: 13 13 13 N Total 01 נושא מס' :3יסודות סטטיסטיקה תיאורית סולמות מדידה שיעור זה דן בסטטיסטיקה תיאורית וכיצד סולמות המדידה של משתנה משפיעים על סוג ההצגה הסטטיסטית שבה יש להשתמש .נשתמש בקובץ .demo.savהצגות מספריות שונות מתאימות לסוגי מידע שונים והן מושפעות מסולם המדידה. סולמות מדידה קטגוריאליים :מידע הכולל מספר מוגבל של ערכים בדידים או קטגוריות (למשל ,מגדר או מצב משפחתי) .משתנים קטגוריאליים יכולים להיות מחרוזת (אלפאנומרית) או משתנים מספריים המבוססים על קודים מספריים כדי לייצג קטגוריות (למשל = 1 :רווק, =0נשוי) .ישנם שני סוגים בסיסיים של מידע קטגוריאלי: oנומינלי (או שמי) :מידע קטגוריאלי שעבורו אין משמעות לסדר של הקטגוריות השונות .לדוגמה ,קטגורית תפקיד של "מכירות" אינה גבוהה או נמוכה מקטגוריית תפקיד "שיווק" או "מחקר". oאורדינלי :מידע קטגוריאלי שעבורו יש משמעות לסדר של הקטגוריות השונות אולם אין מרחק בר-מדידה בין הקטגוריות .לדוגמה ,קטגוריות דרגות בצבא: -0 -1 -3 -1 טוראי טר"ש רב"ט סמל אכן דרגה 3גבוהה מדרגה 1אולם אין משמעות למרחק המספרי בין דרגה אחת לשניה. סולמות מדידה מסוג :Scaleמידע נמדד על סקלת אינטרוול או יחס שבה הערכים מצביעים הן על סדר והן על מרחק ביניהם .כך למשל ,משכורת של ₪ 11,111גבוהה ממשכורת של ₪ 05,111והמרחק בין שני ערכים אלה הוא .₪ 5,111סולמות אלה נקראים גם כמותיים או רציפים. סטטיסטיקה תיאורית -משתנים קטגוריאליים למידע קטגוריאלי ,ההצגה הסטטיסטית המקובלת ביותר היא שכיחות מספרית או אחוז של כל קטגוריה .השכיח ( )modeהיא הקטגוריה שבה השכיחות הגבוהה ביותר .לנתונים אורדינליים החציון ( )medianעשוי להיות גם כן שימושי (הערך שמעליו ומתחתיו נמצאים מחצית מהמקרים) כאשר יש מספר רב של קטגוריות .שגרות חישוב שכיחות נותנות טבלאות שכיחות המציגות הן את מספר המקרים והן את חלקם האחוזי עבור כל קטגוריה. .0מהתפריט הראשי בחר : Analyze Descriptive Statistics Frequencies... 05 הקלק עם המקש הימני של העכבר על רשימת המשתנים (בצד שמאל) ובחר באפשרות .Prefer variable labelsבחר במשתנים ]Primary vehicle price category [carcat ו Level of education [ed]-והעבירם לרשימת המשתנים. .1בטל את האפשרויות המופיעות כברירת מחדל: .Mean, Standard deviation, Minimum, Maximum בחר בחציון ( )Medianושכיח (.)Mode 11 .3הקלק OKכדי להריץ את השגרה. הפלט המתקבל: טבלאות השכיחות מראות כי קטגוריית הרכב השכיחה ביותר היא )35.15%( Luxuryוהפחות שכיחה היא .)11.22%( Economyההשכלה השכיחה ביותר היא "סיום בי"ס תיכון" ()31.15% ואילו הפחות שכיחה היא .)5.10%( Post-undergraduate degree סטטיסטיקה תיאורית -משתנים רציפים Scale Variables - ישנם מספר מדדים עבור משתנים רציפים כגון: מדדי נטייה למרכז :הנפוץ ביותר הוא הממוצע ( )meanוהחציון ( - medianהערך שמעליו ומתחתיו נמצאים מחצית מהמקרים). מדדי פיזור :מידת השונות או הפיזור של הנתונים כגון סטית תקן ,ערך מינימלי וערך מכסימלי. .0פתח שוב את תיבת השיח של השכיחויות. .1בחר במשתנה ] Household income in thousands [incomeוהעבר אותו ימינה לרשימת המשתנים. 10 .3הוסף למדדי ברירת המחדל Mean, Std. deviation, Minimum, and Maximum את .Median .1טבלאות שכיחות אינן שימושיות בדרך כלל עבור משתנים רציפים כיוון שמספר הערכים עשוי להיות זהה למספר הרשומות) .כיוון שכך ,לחץ על :Frequency tables 11 .5תחת הכותרת Display frequency tablesבחר באפשרות .Never .1הקלק .Continue .2הקלק OKכדי להריץ את השגרה .יתקבל הפלט הבא: בדוגמה זו ,ישנו הבדל משמעותי בין הממוצע והחציון .הממוצע גבוה בכמעט 15,111מהחציון, דבר המצביע על כך שההתפלגות הנ"ל אינה נורמאלית .ניתן לבחון את ההתפלגות ע"י יצירת היסטוגרמה. היסטוגרמה עבור משתנים רציפים ()Scale Variables .1חזור על הפעולות בסעיפים 0-5בפסקה הקודמת (תיבת השיח של שכיחויות). .1הקלק על .Charts .3סמן Draw histogramsוכן .Superimpose normal curve .4הקלק Continueואח"כ OKבתיבת השיח הראשית כדי להריץ את השגרה. 13 מתקבל הפלט הבא: רוב הרשומות נמצאות בחלק הנמוך של הסקאלה ,רובן מתחת ל .011,111 -ישנם כמובן מספר מקרים באזור ה 511,111 -ואף למעלה מכך (קשה להבחין בכך בהיסטוגרמה במתכונתה הנוכחית. לערכים גבוהים מאד אלה ששכיחותם נמוכה מאד משפיעים מאד על הממוצע אולם אין להם השפעה על החציון .כיוון שכך ,במקרה זה ,החציון מהווה אינדיקטור מרכז טוב יותר. תרגיל – חישוב סטטיסטים קובץ :demo.sav עבור המשתנים גיל ( )ageוכן וותק אצל מעביד נוכחי ( )employחשב את הסטטיסטים הבאים: ממוצע ,חציון ,סטיית תקן ,ערך מינימלי ,ערך מכסימלי ,טווח (=Rangeהפרש בין ערך מכסימלי למינימלי). 11 תשובה: 15 נושא מס' :4עבודה עם Syntax PSPPמספק שפת פקודות רבת עוצמה המאפשרת לשמור ולבצע אוטומטית מספר רב של משימות .שפה זו נקראת סינטקס ורוב פקודותיה ניתנות לביצוע באמצעות מערך התפריטים ותיבות השיח (חלק מהפקודות דורש כתיבה ישירה שלהן) .שפת הפקודות מאפשרת לשמור שגרות ביצוע בקובץ סינטקס כך שניתן לח זור על הניתוח במועד מאוחר יותר ,לחבר מספר פעולות שתבוצענה אחת אחרי השניה ,לבצע שינויים במשימות בלי לחזור לתפריטים וכד'. פקודות סינטקס נשמרות בקובץ טקסט .ניתן לפתוח חלון סינטקס ולהקליד פקודות ישירות אולם בד"כ ,תיבות השיח שבתוכנת PSPPמסוגלות לבצע עבודה זו ביתר קלות .להלן 1מאפיינים חשובים של פקודות סינטקס: כל פקודת סינטקס (ראשית) ,כוללת פקודות משנה וחייבת להסתיים בנקודה. ניתן להוסיף כותרת הסבר (בעברית או באנגלית) לכל פקודה ראשית בקובץ ע"י התחלת ההסבר בכוכבית (*) וסיומו בנקודה .ההסבר יכול להיכתב במספר שורות :הראשונה מתחילה בכוכבית והאחרונה מסתיימת בנקודה (ללא רווח בין השורות). הדוגמאות בשיעור זה מתבססות על הקובץ .demo.sav "הדבקת" סינטקס הדרך הקלה ביותר ליצירת סינטקס היא להשתמש בכפתור Pasteהממוקם ברוב תיבות השיח. .0פתח את הקובץ .demo.sav .1מהתפריט הראשי בחר Analyze Descriptive Statistics Frequencies... נפתחת תיבת השיח של השכיחויות (.)Frequencies 11 .3מהתפריט הראשי בחר ].Marital status [marital .1העבר את המשתנה לצד ימין. .5בטל את 1הסטטיסטים של ברירת המחדל. .1הקלק Pasteכדי להעתיק את הסינטקס הנוצר באמצעות הבחירות שבתיבת השיח לעורך הסינטקס ( .)Syntax Editorנוצרו הפקודות הבאות: FREQUENCIES /VARIABLES= marital /FORMAT=AVALUE TABLE /STATISTICS=NONE. .2ניתן להשתמש בסינטקס זה לבדו ,להוסיפו לקובץ סינטקס אחר .להעתיקו ולבצע בו שינויים וכד'. .1כדי להריץ את כל פקודות הסינטקס המוצגות ,יש לבחור: Run All הפלט המתקבל הוא: עריכת סינטקס .0במסך הסינטקס ,ניתן לערוך את הפקודות ,כלומר לשנות ,להוסיף ,למחוק וכד' .לדוגמה, בשורה השניה ניתן להחליף את המשתנה maritalבמשתנה ( inccatקטגוריית הכנסה שנתית). .1נעתיק את פקודת הסינטקס הקודמת ונבצע את ההחלפה: FREQUENCIES /VARIABLES= inccat /FORMAT=AVALUE TABLE /STATISTICS=NONE. .3נסמן את הסינטקס ונריץ אותו ע"י הפקודות הבאות: Run selection 12 נקבל את הפלט הבא: הקלדת פקודות ,שמירה ופתיחת קובץ סינטקס .0ניתן להקליד סינטקס למסך הסינטקס הפתוח כבר או לפתוח מסך חדש מהתפריט הראשי כדלקמן: File New Syntax... .1כדי לשמור קובץ סינטקס ,בחר מהתפריט הראשי: File Save או File Save As... כל אחת מהחלופות הנ"ל פותחות תיבת שיח לשמירת קבצים .החלופה הראשונה מבצעת שמירה ללא פתיחת תיבת שיח כאשר קיים כבר שם קובץ (ונדרש לעדכנו). .3כדי לפתוח קובץ סינטקס שמור ,בחר: File Open בחר את קובץ הסינטקס הרצוי והקש .Open .4כיוון שהפקודות מתייחסות לקובץ נתונים מסוים ,קובץ זה חייב להיות פתוח לפני הרצת הסינטקס .לחילופין ,ניתן לכלול פקודת סינטקס לפתיחת קובץ נתונים: סינטקס אופייני לפתיחת קובץ בשם demo.savיראה כך: GET FILE='F:\My Documents\yaron\professional\vizo\spss\20122013\files\sav\chapter 4\demo.sav'. 11 סינטקס לקביעת התצוגה המספרית בפלט עפ"י ברירת המחדל ,מספרים מוצגים בפלט של PSPPעם שתי ספרות אחרי הנקודה .ניתן לשנות את ברירת המחדל באמצעות פקודת סינטקס מתאימה כגון: SET FORMAT F8.3. משמעות הפקודה הנ"ל היא שכל התוצאות יוצגו עם 3ספרות אחרי הנקודה העשרונית .הספרה 1 משמעותה שהמספר המוצג יוכל להכיל לכל היותר 1ספרות (מימין ומשמאל נקודה) ,כולל הנקודה העשרונית .כל עוד לא שונתה הפקודה הנ"ל ,היא תישאר שרירה וקיימת .כדי לחזור לברירת המחדל ,נפעיל את הפקודה הבאה (שתי ספרות אחרי הנקודה): SET FORMAT F8.2. הרצת קובץ סינטקס בתוכנת PSPPנפעיל את הסינטקס תמיד מתוך קובץ ה )sav( Data-ולא ישירות ממערכת ההפעלה .בצורה זו ,קובץ הסינטקס ישויך לאותו קובץ Dataשממנו הופעל .כדי למנוע טעויות, רצוי לסגור קבצי Dataשבהם אין שימוש (אם כי ניתן להשאיר כמה קבצים פתוחים במקביל). ישנן מספר חלופות להרצת קובץ סינטקס באמצעות תפריט Runבקובץ הסינטקס ,כדלקמן: .0 .1 .3 .1 :Allמריץ את כל הפקודות הנמצאות במסך הסינטקס. :Selectionמריץ את כל הפקודות שנבחרו (נצבעו). :Current lineמריץ רק את השורה שעליה מצביע הסמן. :To Endמריץ את כל הפקודות ממקום הצבעת הסמן ועד לסוף קובץ הסינטקס. תרגיל – עבודה עם סינטקס קובץ :demo.sav .0בנה פקודת סינטקס עבור חישוב שכיחות קטגוריות הכנסה ( )inccatוהרץ אותה .לאחר מכן, העתק את הפקודה שנוצרה והרץ באמצעותה דו"ח שכיחות רמת השכלה ( )edוכן מספר נפשות בדירה ()reside הערה :ניתן לבצע את כל 3הדו"חות בסינטקס אחד. 15 תשובה: .1חזור על שאלה 0כך שהתוצאות יוצגו עם 3ספרות אחרי הנקודה. 31 תשובה: 30 נושא מס' :2ברירת אוכלוסיה בקובץ Data ברירת אוכלוסיה לעיתים נדרש להגביל את ניתוח הנתונים לתת-קבוצה בודדת או לבצע ניתוחים סימולטנית על תת-קבוצות שונות. הדוגמאות בנושא זה מבוססות על הקובץ .demo.sav ניתן לבחור תת קבוצה ספציפית של הקובץ בהתבסס על קריטריונים הכוללים משתנים וכן ביטויים מורכבים הכוללים שערים לוגיים ( )or, and, notוסוגריים .עפ"י כללי האלגברה הבוליאנית ,שערי andקודמים לשער orאלא אם כן הקדימות שונתה ע"י סוגריים (כמו באלגברה רגילה שבה כפל/חילוק קודמים לחיבור חיסור אלא אם כן ישנם סוגריים). כמו כן ניתן גם לבחור מדגם אקראי מתוך הקובץ. כדי להקל על תהליך ההגדרה של ברירת אוכלוסיה ,כדאי להדפיס את הגדרת הקובץ כדלקמן: .0בחר מהתפריט הראשי: File Display Data File Information Working File פקודת הסינטקס המתאימה היא.DISPLAY DICTIONARY : מתקבלת הטבלה הבאה עבור הקובץ ( demo.savהצגה חלקית של 2המשתנים הראשונים בלבד): עיון בטבלה הנ"ל (ובעיקר במשתנים הבדידים כולל כל הקטגוריות שלהם) ,עשוי להקל על תהליך כתיבת הביטויים הלוגיים בלי צורך לעבור כל פעם לרשימת המשתנים ב.Variable View - 31 כדי לבחור תת-קבוצה של רשומות מתוך הקובץ ,יש לבצע את הר"מ: בדוגמה הראשונה נבחר רק את האנשים שהם גילאי 01עד .11תחילה ,יש לבנות משתנה מחושב שיכלול את הגדרת תת הקבוצה הנ"ל: .1בחר בתפריט הראשי: Transform …Compute ייפתח החלון הבא: .3מתחת לכותרת ( Target Variableבצד שמאל למעלה) ,תן שם למשתנה המחושב למשל .selection1 33 .1מתחת ל Numeric Expressions-רשום את הביטוי הלוגי המתאים: age>=18 and age<=40 .5הקש .Pasteמתקבל הסינטקס הבא: COMPUTE selection1 = age>=18 and age<=40. EXECUTE. .1הרץ את הסינטקס .לקובץ נוסף משתנה בשם selection1המקבל ערך 0עבור כל רשומה העונה על התנאי הנ"ל (גיל בין 01ל )11-וערך 1עבור כל רשומה שאינה עונה על התנאי. .2בחר מהתפריט הראשי: Data Select Cases... פעולה זו פותחת את תיבת השיח של :Select Cases ברירת המחדל היא .All Cases 31 .1סמן את האפשרות .Use filter variable .5בחר בסוף הרשימה את המשתנה selection1והעבר אותו לצד הימני של התיבה: תחת הכותרת ,Unselected Cases Areניתן לבחור אחת מ 1-חלופות עבור התוצאה המתקבלת: :Filteredזוהי ברירת המחדל .במצב זה ,הרשומות שלא נבחרו ,יעברו למצב "מסונן" ( )selection1=0ויופיעו כ"מחוקות" (קו אלכסוני על המספר הסידורי) .מעשית ,כל רשומה כזו אינה נלקחת בחשבון באף עיבוד שיבוצע כל עוד ברירת האוכלוסיה בתוקף .ממצב זה ניתן לחזור למצב שבו היה הקובץ לפני ברירת האוכלוסיה ע"י בחירת All casesבתיבת השיח .Select Casesגם סגירת הקובץ ופתיחתו מחדש תבטל את ברירת האוכלוסיה .מעבר מברירת אוכלוסיה אחת לחדשה מבטל את ההגדרות הקודמות ונותן תוקף רק להגדרות החדשות. :Deletedבמצב זה ,הרשומות שלא נבחרו ,יימחקו .יישארו אם כן רק אלה שנבחרו .כאשר נעשה שימוש בחלופה זו ,יש לנקוט בכל אמצעי הזהירות כדי לא לגרום לנזק בלתי הפיך (יש לשמור את הקובץ המקורי ואת החדש בשמות שונים כדי ששניהם יישמרו). .01השאר את ברירת המחדל Filteredוהקש על .Pasteמתקבל הסינטקס הבא: FILTER BY selection1. .00הרץ את הסינטקס .עיון בקובץ ה Data-יראה כי הרשומות שאינן עונות על התנאי יימחקו (זמנית) ע"י קו אלכסוני .כמו כן תופיע על המסך הראשי בצד ימין למטה אינדיקציה שאנו נמצאים במצב מסונן (:)selection1 35 כאשר נחזור למצב הקודם (ללא מסננת) נקבל בצד ימין למטה הודעה מתאימה.Filter Off : הערה חשובה :כל עוד לא הוגדרה ברירת אוכלוסיה חדשה ,נשארת בתוקף ברירת האוכלוסיה הקודמת .מומלץ לבטל לפני כל הרצה חדשה את ברירת האוכלוסיה הקודמת (אם היתה כזו .אם לא ,ביטול ברירת האוכלוסיה אינו משנה) כדי לא לקבל דו"ח שגוי .ניתן לעשות זאת ע"י תפריט Select Casesאו באמצעות פקודת הסינטקס הבאה: FILTER OFF. תרגילים – ברירת אוכלוסיה ע"ב ביטויי תנאי קובץdemo.sav : בחר את תתי הקבוצות הבאות ולכל אחת הפק דו"ח שכיחות השכלה: .0נשים בנות 35ומעלה ,בעלות הכנסה של 15אלף דולר לפחות ורכב חסכוני. הסינטקס המתקבל: COMPUTE selection2 = gender='f' and age>=35 and inccat>=2 and carcat=1. EXECUTE. FILTER BY selection2. FREQUENCIES /VARIABLES= ed /FORMAT=AVALUE TABLE /STATISTICS=NONE. 31 :הדו"ח . אלף דולר לפחות או בעלי רכב מפואר51 גברים בעלי הכנסה של.1 COMPUTE q2 = gender='m' and (inccat>=3 or carcat=3). EXECUTE. FILTER BY q2. FREQUENCIES /VARIABLES= ed /FORMAT=AVALUE TABLE /STATISTICS=NONE. אלף דולר לפחות ורכב חסכוני וכן גברים בעלי15 בעלות הכנסה של, ומעלה35 נשים בנות.3 . אלף דולר לפחות או בעלי רכב מפואר51 הכנסה של COMPUTE q3 = gender='f' and age>=35 and gender='m' and (inccat>=3 or carcat=3). EXECUTE. inccat>=2 and carcat=1 or FILTER BY q3. FREQUENCIES /VARIABLES= ed /FORMAT=AVALUE TABLE /STATISTICS=NONE. COMPUTE q3 = gender='f' and age>=35 and inccat>=2 and carcat=1 or gender='m' and (inccat>=3 or carcat=3. EXECUTE. 32 FILTER BY q3. FREQUENCIES /VARIABLES= ed /FORMAT=AVALUE TABLE /STATISTICS=NONE. , ומעלה35 (כלומר כולם למעט "נשים בנות3 כל אלה שאינם עונים על ההגדרה בסעיף.1 רכב חסכוני והשכלה תיכונית לפחות וכן גברים, אלף דולר לפחות15 בעלות הכנסה של .)" אלף דולר לפחות או בעלי רכב מפואר51 בעלי הכנסה של COMPUTE q4 = not (gender='f' and age>=35 and inccat>=2 and carcat=1 or gender='m' and (inccat>=3 or carcat=3)). EXECUTE. FILTER BY q4. FREQUENCIES /VARIABLES= ed /FORMAT=AVALUE TABLE /STATISTICS=NONE. 31 בחירת מדגם אקראי כדי לקבל מדגם אקראי (מתוך כלל רשומות הקובץ) ,בצע את הר"מ: .0בחר Random sample of casesמתיבת השיח .Select Cases .1הקלק .Sampleנפתחת תיבת שיח בשם Select Cases: Random Sampleשבה ניתן לבחור אחת מהחלופות הבאות: :Approximatelyיש להקליד את גודל המדגם באחוזים (מתוך כלל הרשומות בקובץ). התוצאה תהיה מדגם אקראי שגודלו יהיה שווה בקירוב לשיעור האחוזי שהוגדר. לחילופין ניתן לעשות זאת ע"י פקודת הסינטקס הבאה עבור מדגם של כ( 28%-הקובץ המקורי נעלם): SAMPLE 0.5. :Exactlyאפשרות זו נגדיר רק באמצעות הסינטקס (ולא דרך התפריט) .כך למשל ,בחירה אקראית של 3111רשומות בדיוק מתוך 1111שבקובץ ,תבוצע באמצעות הסינטקס הבא (הקובץ המקורי נעלם): SAMPLE 3200 FROM 6400. תרגיל – בחירת מדגם אקראי קובץ :L2-multiple.sav בחר מדגם אקראי של 31רשומות בדיוק מתוך כלל הרשומות שבקובץ ( .)051הפק דו"ח שכיחות עבור משתנה השכלה (.)q3 35 תשובה אפשרית: SAMPLE 30 FROM 150 . FREQUENCIES /VARIABLES= q3 /FORMAT=AVALUE TABLE /STATISTICS=NONE. הערה :ניתן לקבל תשובות אפשריות שונות (כיוון שבכל ריצה מתקבל מדגם אקראי אחר) .בסך הכל חייבות להתקבל 31רשומות (כולל ) Missingוצפויה התפלגות שכיחות דומה בכל המדגמים. 11 פיצול קובץ קובץDemo.sav : כדי לפצל קובץ לקבוצות ניתוח נפרדות (סוג של מיון) יש לבצע את הר"מ: .0בחר מהתפריט הראשי: Data Split File... מופיעה תיבת השיח של :Split File .1בחר בחלופה .Compare groups .3בחר ב Gender [gender] -כדי לפצל את הקובץ לקבוצות נפרדות עבור משתנה זה .ניתן לבחור גם יותר ממשתנה פיצול אחד – במקרה כזה ,סדר הופעתם יקבע את מבנה הקבוצות השונות. .1הפעל את שגרת השכיחויות לחישוב ממוצע ,סטיית תקן וחציון של המשתנה ]. Household income in thousands [income יתקבל הסינטקס הבא: SORT CASES BY gender. SPLIT FILE LAYERED BY gender. FREQUENCIES /VARIABLES= income /FORMAT=AVALUE NOTABLE /STATISTICS=MEAN STDDEV MEDIAN. 10 יתקבל הפלט הבא: הערה :הקובץ חייב לעבור מיון לפי משתנה/משתני הפיצול .אם הקובץ כבר ממוין ,ניתן לוותר על שגרת המיון (בדוגמה שלפנינו ,לפי מגדר )gender-ולחסוך זמן עיבוד. שינוי מצב הקובץ ממפוצל ללא מפוצל לאחר הפעלת פקודת הפיצול ,היא נשארת בתוקף כל עוד אינה מבוטלת וכל עוד הקובץ אינו נסגר. אם הקובץ נסגר ואח"כ נפתח שוב ,מצב הפיצול מתבטל .כדי לבטל את פיצול הקובץ יש לבחור .Analyze all cases פקודת סינטקס המתאימה: SPLIT FILE OFF. כדי להחזיר את הקובץ למצב מפוצל ,יש לבחור באחת משתי החלופות Compare groupsאו .Organize output by groupsכאשר מצב הפיצול תקף ,ההודעה Split by ….מופיעה בצד הימני התחתון של המסך (עם שם משתנה הפיצול). תרגיל – פיצול קובץ קובץ :L2-multiple.sav פצל את הקובץ לפי מצב משפחתי .הפק דו"ח שכיחות הכולל ממוצע ,סטיית תקן וחציון עבור הכנסה חודשית מעבודה (.)h1 11 תשובה: 13 נושא מס' :6סטטיסטיקה תיאורית – Descriptives/Explore נושא 1כולל דוגמאות עבור פרוצדורות סטטיסטיות נבחרות מתחום הסטטיסטיקה התיאורית. הדוגמאות בנושא זה מבוססות על הקובץ demo.savוכן על קבצים נוספים כמפורט בהמשך .תת התפריט Descriptive Statisticsמתחת לתפריט Analyzeמספק טכניקות לסיכום נתונים והצגתם בצורה מספרית וגרפית .טכניקה אחת הוצגה קודם לכן -שכיחויות (.)Frequencies טכניקה נוספת הנקראת ,Descriptivesמציגה סיכום סטטיסטי עבור מספר משתנים בטבלה אחת .המשתנים יכולים להיות מוצגים לפי הממוצע ,סטיית תקן וכד' (בסדר עולה או יורד) ,לפי אלף-בית או לפי סדרם בקובץ (ברירת המחדל) .בהמשך תוצג טכניקה נוספת בשם Explore השייכת גם כן לתת התפריט .Descriptive Statistics Descriptives כדי לקבל ,Descriptivesבצע את הר"מ (מקובץ :)demo.sav .0מהתפריט הראשי בחר Analyze Descriptive Statistics Descriptives... נבחר במשתנה ].Household income in thousands [income 11 .1הקש .OKיתקבל הפלט הבא: אפשרויות הDescriptives- .0מתחת לכותרת Statisticsניתן לבחור בכמה אפשרויות ( 1הראשונים מסומנים כברירת מחדל – ניתן לבטלם): משמעות אפשרויות הבחירה: :Meanהממוצע החשבוני (ברירת מחדל). - Dispersionמדדי פיזור הכוללים סטיית תקן ,שונות ,טווח ,מינימום ,מכסימום ושגיאת תקן של הממוצע: :Std. deviationסטיית תקן (ברירת מחדל) – מידת הפיזור סביב הממוצע .בהתפלגות נורמלית 11% ,מהאוכלוסיה/מדגם נמצאים במרחק של סטיית תקן אחת מהממוצע (מעל או מתחת) ואילו 55%נמצאים בטווח של 1סטיות תקן .כך למשל אם הגיל הממוצע הוא 15 וסטיית התקן היא ,01אזי 55%מהאוכלוסיה הם בגיל שבין 15ל( 15 -בתנאי שהגיל מתפלג נורמלית). 15 :Varianceשונות -מידת הפיזור סביב הממוצע ,שווה לסכום ריבועי הסטיות מהממוצע מחולק בגודל המדגם פחות אחד .סטיית התקן שווה לשורש ריבועי של השונות. :Rangeההפרש בין הערך המכסימלי למינימלי. :)Standard error of the mean( S.E. meanמידת השונות של הממוצע כאשר עוברים ממדגם למדגם מאותה אוכלוסיה. Kurtosisו skewness -הם סטטיסטים המאפיינים את הצורה :Distribution והסימטריה של ההתפלגות .סטטיסטים אלה מוצגים עם השגיאה התקנית שלהם: :Kurtosis oהמידה שבה התצפיות מתרכזות סביב המרכז .בהתפלגות נורמלית, ערכו אפס. :Skewness oמידת האסימטריה של ההתפלגות .התפלגות נורמלית היא סימטרית ויש לה skewnessשערכו אפס( .ערך חיובי גבוה משמעותו זנב ימני ארוך וערך שלילי גבוה -זנב שמאלי ארוך .ככלל skewness ,שערכו גבוה מפעמיים שגיאת התקן שלו נחשב כמצביע על סטייה מסימטריה. :Display Orderאופציה זו אינה מופיעה בתפריט וניתן להפעילה באמצעות סינטקס מתאים .ברירת המחדל היא שהמשתנים מוצגים עפ"י הסדר שנבחרו .אופציונאלית ,ניתן למיינם כדלקמן: /SORT=NAME .1לפי סדר א"ב (של שמות המשתנים): )/SORT=MEAN(D .2עפ"י סדר יורד של הממוצע: )/SORT=MEAN(A .3עפ"י סדר עולה של הממוצע: הפקת ציוני תקן באמצעות Descriptivesניתן לחשב ציוני תקן לכל משתנה שנבחר .ציון תקן מוגדר ע"י הנוסחה: _ xi x x Z כאשר = xiערך התצפית _ = xממוצע המדגם = xסטיית התקן משמעות ציון תקן היא מרחק התצפית מהממוצע במונחי סטיות תקן .סטיית התקן של "ציון תקן" היא 0והממוצע שלו .1כדי להפיקו יש לסמן בתיבת השיח הראשית של Descriptivesאת האפשרות .Save standardized values as variables תרגיל – Descriptives קובץ :L2-multiple.sav עבור המשתנים הכנסה חודשית מעבודה ,מההורים ומריבית ( )h1, h2, h3חשב ממוצע ,סטיית תקן ,ערך מכסימלי ,ערך מינימלי Kurtosis ,וכן .Skewnessכמו כן ,דרג את ערכי הממוצע בסדר יורד וחשב ציון תקן עבור כל אחד מהם .לאחר חישוב ציוני התקן ,הראה שהממוצע שלהם שווה אפס וסטיית התקן .0 11 תשובה: ממוצע וס"ת של ציוני התקן הם 1ו 0-בהתאמה. Explore השגרה Exploreמיועדת לתת מידע סטטיסטי עח התפלגות משתנים כמותיים .הדבר חשוב לפני ביצוע בדיקות של השערות שכן יתכן כי קיימת במדגם שלנו שונות גדולה מאד או ערכים קיצוניים .בדיקת ההתפלגות עשויה לסייע לנו כיצד לעבוד עם הנתונים בהמשך .כך נוכל לבדוק האם המשתנים שלנו מתפלגים נורמאלית (זהו תנאי עבור חלק מהמבחנים הסטטיסטיים שיוצגו בהמשך הקורס). קובץDemo.sav : נניח כי ברצוננו לבחון לעומק את התפלגות מספר השנים אצל מעסיק .פרוצדורת Explore מאפשרת לבחון את התפלגות השנים אצל מעסיק נתון ולקבל פירוט רב ,כפי שיוצג בהמשך. .0בחר מהתפריט הראשי: Analyze Descriptive Statistics Explore... 12 נפתחת תיבת השיח הבאה: .1בחר ] Years with current employer [employוהזז אותו ל. Dependent List- .3הקלק על Statisticsבתיבת השיח של ( Exploreמשמאל למטה) .נפתחת תיבת השיח הבאה: .1סמן את .Descriptives .5ברירת המחדל כוללת רווח בר סמך של .55%זו גם רמת הביטחון המקובלת במחקר במדעי החברה .ניתן להגדיר רווח בר סמך אחר ע"י הוספת הסינטקס הבא (הדוגמה מתאימה עבור :)55% /CINTERVAL .99 .1הקלק על Continueואח"כ על .Paste מתקבל הסינטקס: EXAMINE /VARIABLES= employ /STATISTICS = DESCRIPTIVES /MISSING=LISTWISE. 11 הפלט: משמעות הגדרה של 55%היא שקיימת ההסתברות של 1.55שממוצע האוכלוסיה נמצא באינטרוול (טווח הערכים) שהפלט מציג (נתוני מדגם). עפ"י הפלט ,ממוצע השנים אצל מעסיק נוכחי הוא 01.52והטווח הוא ( 01.33-01.11כלומר .) 10.57 0.235ערכים גבוהים יותר מ 55% -נותנים רמת ביטחון גבוהה יותר לטווח המוצג בפלט (עבור אותם נתונים ,הטווח ילך ויגדל ככל שרמת הביטחון גדלה). האופציה ( Descriptivesבתוך )Exploreכוללת את מדדי הנטייה למרכז ואת מדדי הפיזור הבאים: נטייה למרכז :ממוצע ,חציון וכן ממוצע מקוצץ :5% trimmed mean -מהווה פשרה בין הממוצע לחציון .מוגדר כממוצע המחושב ע"י "זריקת" 5%מנתוני הקצוות (המכסימום והמינימום) .הדבר מאפשר לשפר את העיוות הנגרם לממוצע ע"י ערכים קיצוניים. מדדי פיזור :מראים את השונות שבין הערכים וכוללים וריאנס ,סטיית תקן ,מינימום ,מכסימום, טווח( interquartile range ,ההפרש בין רבעון שלישי לרבעון ראשון) וכן skewnessוkurtosis- (ראה הסבר בעמ' .)15 ניתן לסמן בתיבת השיח ( Statisticsב )Explore -גם את האפשרויות הבאות: :Extremesמציג את חמישה הערכים הגבוהים ביותר ואת חמישה הנמוכים ביותר. :Percentilesמציג אוטומטית את האחוזונים הבאים,51% ,25% ,51% ,15% ,01% ,5% : .55% Explore: Options .2הקלק על Optionsבתיבת השיח של .Exploreתפתח תיבת השיח הבאה: 15 .1בחר את אחת מהחלופות הבאות (שתפקידן לשלוט בעיבוד של ערכים חסרים): :Exclude cases listwiseרשומות עם ערכים חסרים עבור משתנה תלוי או פקטור מוצאות מהניתוח .זוהי ברירת המחדל. :Exclude cases pairwiseנכללות רשומות שלהן אין ערכים חסרים לאותה קבוצה .הרשומה יכולה לכלול ערכים חסרים למשתנים השייכים לקבוצות אחרות. :Report valuesערכים חסרים של משתנה פקטור מוצגים כקטגוריה נפרדת. ניתן לבחור מס' משתנים תלויים במסגרת Dependent Listובמקביל לבחור Factor Listאחד או כלל לא .במצב זה נקבל פירוט של כל אחד מהמשתנים שנבחרו (עם או בלי מיון לפי הפקטור). לחילופין ,ניתן לבחור משתנה תלוי יחיד (במסגרת )Dependent Listובמקביל לבחור מספר פקטורים ב( Factor List -או כלל לא) .במצב זה נקבל פירוט של המשתנה שנבחר בכל פעם עם מיון לפי הפקטור. לדוגמה :נריץ שגרת Exploreעבור המשתנה ( ageגיל) במיון לפי ( maritalמצב משפחתי): .0בחר ] Age in years [ageוהזז אותו ל. Dependent List- .1בחר ] Marital status [maritalוהזז אותו ל. Factor List- .3הקלק על Statisticsבתיבת השיח של ( Exploreמשמאל למטה) וסמן את כל שלוש האפשרויות (.)Descriptives, Extremes, Percentiles .1הקלק על Continueועל .Paste .5הרץ את הסינטקס .מתקבל הפלט הבא: EXAMINE /VARIABLES= age BY marital /STATISTICS = DESCRIPTIVES EXTREME /PERCENTILES /MISSING=LISTWISE. 51 50 תרגיל –( Exploreקובץ )L2-multiple.sav הרץ שגרת Exploreמלאה עבור הכנסה חודשית מעבודה ( )h1בחלוקה למגדר. תשובה: 51 53 51 נושא מס' :7ממוצעים Means - בקובץ הדמו ישנם מספר משתנים המאפשרים לחלק אנשים לקבוצות .ניתן לחשב סטטיסטים אחדים כדי לבצע השוואה בין הקבוצות .למשל ,ניתן לחשב את ההכנסה השנתית הממוצעת של נשים וגברים. .0פתח את הקובץ demo.savובחר מהתפריט הראשי: Analyze Compare Means Means... הדבר פותח את תיבת השיח הבאה: .1בחר ] Household income in thousands [incomeוהעבירו ל.Dependent List - .3בחר ] Gender [genderוהעבירו ל Independent List -בשכבה .)layer 1( 0 .1בחר ] Owns PDA [ownpdaוהזז אותו ל Independent List-באותה שכבה .)0 .5הקלק OKכדי להריץ את הפרוצדורה .הסינטקס המתאים הוא: MEANS TABLES = income BY gender ownpda. 55 הפלט המתקבל הוא: כדי להוסיף או להוריד סטטיסטים או לשנות את סדר הופעתם בפלט ,ניתן להוסיף לסינטקס /CELLS MEAN STDDEV COUNT MIN MAX. הקודם ,שורת סינטקס כדוגמת הבאה: במקרה כזה הפלט המתקבל יהיה הבא: להלן רשימת כל הסטטיסטים שניתן להוסיף לפקודת :MEANS ][MEAN] [COUNT] [STDDEV] [SEMEAN] [SUM] [MIN] [MAX] [RANGE ][VARIANCE] [KURT] [SEKURT ][SKEW] [SESKEW] [FIRST] [LAST ][HARMONIC] [GEOMETRIC ][DEFAULT ][ALL הוספת ALLבמקום הרשימה תגרום להצגת כולם. ברירת המחדל היא ממוצע ,שכיחות וסטיית תקן (ביצוע דרך התפריט ,ללא צורך בפקודה .)/CELLS תרגילים – ממוצעים Means - קובץs-klali-5 scale-rek.sav : .0הפק דו"ח המציג את הממוצע בלבד (ללא סטיית תקן וללא )Nשל 1שאלות q1-q4במיון הבא :קבוצה ( ,)groupבית-ספר ( )schoolומגדר (.)gender 51 :תשובה MEANS TABLES = q1 q2 q3 q4 BY group school gender /CELLS MEAN. 52 . הפק את הדו"ח הנ"ל עבור סטיית תקן בלבד.1 :תשובה MEANS TABLES = q1 q2 q3 q4 BY group school gender /CELLS STDDEV. 51 .3הפק דו"ח הכולל ממוצע N ,וסטיית תקן עבור שאלות q1-q2כדלקמן: אוכלוסיה :תלמידי בית-ספר א' בלבד (לא כולל הורים). :שכבה. מיון תשובה: MEANS TABLES = q1 q2 BY grade. 55 נושא מס' :1משתנים מחושבים בקובץ Data נתוני קובץ ה data-שאיתם מתחילים אינם תמיד מאורגנים בדרך הטובה ביותר לצורך הניתוח או דיווח הממצאים .כך ,יכול להתעורר צורך לבצע את הפעולות הבאות: ליצור משתנה חדש ע"ב משתנים קיימים (למשל :הפרש בין תאריכים). לקודד מחדש משתנה קיים (למשל :לצרף כמה קטגוריות תשובה לקטגוריה אחת). ליצור משתנה קטגוריאלי ממשתנה רציף (לדוגמה :להפוך את המשתנה הרציף "גיל" למספר קטגוריות גיל). הדוגמה הבאה מתבססת על הקובץ .demo.sav חישוב משתנה חדש (משתנה מחושב) באמצעות אוסף נרחב של פונקציות מתמטיות ,ניתן ליצור משתנים מחושבים חדשים .נתחיל בדוגמה פשוטה שבה נחשב משתנה חדש שהוא ההפרש בין ערכי שני משתנים קיימים .קובץ הדוגמה demo.savכולל משתנה עבור גיל המשיב וכן משתנה עבור הוותק (בשנים) בתפקיד הנוכחי .הקובץ אינו כולל את גיל המשיב בעת שהחל את תפקידו .ניתן ליצור משתנה חדש המחושב ע"י ההפרש שבין הגיל (הנוכחי) לבין מספר השנים בתפקיד .נתון זה יכול לשמש כקירוב לגיל שבו העובד החל את תפקידו. .0מהתפריט הראשי במסך Data Editorבחר: Transform Compute Variable... .1עבור ל Target Variable -והקלד ( jobstartזהו השם של המשתנה החדש). .3הקלק על .Type & Labelייפתח החלון הבא: .1סמן את Labelורשום "וותק בתפקיד". .5הקלק על .Continue .1בחר מתוך הרשימה במשתנה ] Age in years [ageוהעתיקו באמצעות החץ לתיבת הטקסט .Numeric Expressionהקש סימן מינוס )–( באמצעות המחשבון (או לחץ על מקש מינוס במקלדת). 11 .2בחר במשתנה ] Years with current employer [employוהעתיקו באמצעות החץ אל הביטוי המתמטי. הערה :שים לב לבחור את משתנה התפקיד הנכון .ישנו גם משתנה קטגוריאלי שאינו מתאים למקרה שלפנינו .הביטוי המתמטי צריך להיות ( age-employולא .)age-empcat .1הקלק OK/Pasteכדי לחשב את המשתנה החדש .המשתנה החדש מוצג כעת ב.Data Editor - כיוון שהוא נוסף לסוף הקובץ ,הוא מוצג בעמודה הימנית הרחוקה ב Data View-ובשורה האחרונה ב . Variable View-הסינטקס עבור פעולה זו הוא: NUMERIC jobstart. '.וותק בתפקיד' VARIABLE LABEL jobstart COMPUTE jobstart = age-employ. EXECUTE. 10 .5הרץ דו"ח שכיחות שיחשב ממוצע ,סטיית תקן ,שכיח חציון עבור המשתנה .jobstart יתקבל הפלט הבא: FREQUENCIES /VARIABLES= jobstart /FORMAT=AVALUE NOTABLE /STATISTICS=MEAN STDDEV MODE MEDIAN. תרגיל – חישוב פשוט של משתנה חדש קובץ :L2-multiple.sav בנה משתנה מחושב ( )gapהשווה לפער שבין הכנסה רצויה לסך כל ההכנסה בפועל: (q5-(h1+h2+h3 הצג טבלה הכוללת את ממוצע הפער ,חציון ,שכיח ,סטיית תקן ,ערך מינימלי ומכסימלי. תשובה: COMPUTE gap = q5-(h1+h2+h3(. EXECUTE. FREQUENCIES /VARIABLES= gap /FORMAT=AVALUE NOTABLE /STATISTICS=DEFAULT MODE MEDIAN. 11 שימוש בפונקציות בביטויים מתמטיים ניתן להשתמש בפונקציות מוכנות בביטויים המתמטיים כגון פונקציות אריתמטיות ,סטטיסטיות, התפלגות ,לוגיות ,הפרש וחיבור תאריכים ,מחרוזות ועוד. הפונקציות מסודרות לפי א"ב. הדבקת פונקציה לביטוי :כדי להדביק פונקציה שנבחרה לביטוי ,יש לבצע את הר"מ: למקם את הסמן באזור כתיבת הביטוי המתמטי ,באותה נקודה שבה עליו להופיע. לבחור את הפונקציה המתאימה. להקיש הקשה כפולה על הפונקציה הרצויה (או לבחור את הפונקציה ולהקליק על החץ הסמוך) ב .Functions-הפונקציה מוכנסת לביטוי המתמטי .אם נצבע חלק מהביטוי הקיים בתיבת ,Numeric Expressionולאחר מכן נכניס משתנה ,החלק הצבוע של הביטוי ישמש כארגומנט ראשון בפונקציה. עריכת פונקציה בביטוי :הפונקציה אינה מושלמת עד שלא נכניס את כל הארגומנטים המסומנים ע"י סימני שאלה בתיבת .Numeric Expressionמספר סימני השאלה מצביע על המספר המינימלי של ארגומנטים הדרושים להשלים את הפונקציה. פונקצית סכום :נפתח את הקובץ L5.savוניצור משתנה מחושב המתאר את ההכנסה הכוללת: .0ב ,Target Variable -כתוב ( totalincomeהכנסה כוללת). .1בחר את הפונקציה .Sum .3לתוך הסוגריים הכנס הביטוי ( q3,q4,q5כלומר הפונקציה תחשב את הסכום . q3+q4+q5 .1הקלק ( OKאו Pasteליצירת סינטקס) .נוצר כעת משתנה חדש בשם totalincomeשערכו שווה לסכום .q3+q4+q5 13 הסינטקס: COMPUTE totalincome = SUM(q1,q2,q3). EXECUTE. הצג טבלה הכוללת את ממוצע ההכנסה הכוללת ,סטיית תקן ,ערך מינימלי ומכסימלי. תשובה: FREQUENCIES /VARIABLES= totalincome /FORMAT=AVALUE NOTABLE. הפרש בין תאריכים: דוגמה א' :בקובץ L5.savניצור משתנה מחושב המתאר וותק בלימודים ע"י חישוב ההפרש בין התאריך של היום ( )$TIMEלבין תאריך תחילת הלימודים (בשנים). .0ב ,Target Variable -כתוב ( vetek1וותק בלימודים). .1בחר את הפונקציה .DATEDIFF .3בחר את הפונקציה $TIMEוהכנס אותה לארגומנט הראשון של הפונקציה .DATEDIFF .1את המשתנה q1הכנס כארגומנט שני של הפונקציה הנ"ל .כארגומנט שלישי הכנס את הביטוי ' .'yearsבתיבה Numeric Expressionיתקבל הביטוי הבא: )' .DATEDIFF($TIME,q1,'yearsמשמעות הביטוי היא שהפרש הזמן בין היום לתחילת הלימודים יובע בשנים .ניתן להביע את הפרש הזמן גם ברבעונים ,חודשים, שבועות ,ימים ,שעות ,דקות ,ושניות ,כדלקמן: ‘quarters’, ‘months’, ‘weeks’, ‘days’, ‘hours’, ‘minutes’, ‘seconds’. .5הקלק ( OKאו Pasteליצירת סינטקס) .נוצר כעת משתנה חדש בשם vetek1שערכו שווה להפרש בין תאריך נוכחי לתאריך תחילת הלימודים (בשנים). הסינטקס: NUMERIC vetek1. '.וותק בלימודים' VARIABLE LABEL vetek1 COMPUTE vetek1 = DATEDIFF($TIME,q1,'years'). EXECUTE. 11 .1הצג טבלה הכוללת את ממוצע הוותק ,סטיית תקן ,ערך מינימלי ומכסימלי. תשובה: FREQUENCIES /VARIABLES= vetek1 /FORMAT=AVALUE NOTABLE. דוגמה ב' :בקובץ L5.savניצור משתנה מחושב המתאר וותק בלימודים נכון לתאריך מסוים (לא היום כבדוגמה הקודמת) .נבצע זאת ע"י חישוב ההפרש בין התאריך 0.0.1100לתאריך תחילת הלימודים (בחודשים). .0ב ,Target Variable -כתוב ( vetek2וותק בחודשים). .1בחר את הפונקציה .DATEDIFF .3בחר את הפונקציה ,DATE.DMYהכנס אותה לארגומנט הראשון של הפונקציה ,DATEDIFFוהגדר את שלושת הארגומנטים שלה עבור 0.0.1100כדלקמן: ).DATE.DMY(1,1,2011 .1את המשתנה q1הכנס כארגומנט שני של הפונקציה הנ"ל .כארגומנט שלישי הכנס את הביטוי ' .'yearsבתיבה Numeric Expressionיתקבל הביטוי הבא: )' .DATEDIFF(DATE.DMY(1,1,2011),q1,'monthsמשמעות הביטוי היא שהפרש הזמן בין היום לתחילת הלימודים יובע בחודשים. .5הקלק ( OKאו Pasteליצירת סינטקס) .נוצר כעת משתנה חדש בשם vetek2שערכו שווה להפרש בין תאריך נוכחי לתאריך תחילת הלימודים (בשנים). הסינטקס: NUMERIC vetek2. '.וותק בחודשים' VARIABLE LABEL vetek2 COMPUTE vetek2 = DATEDIFF(DATE.DMY(1,1,2011),q1,'months'). EXECUTE. .2הצג טבלה הכוללת את ממוצע הוותק ,סטיית תקן ,ערך מינימלי ומכסימלי. תשובה: FREQUENCIES /VARIABLES= vetek2 /FORMAT=AVALUE NOTABLE. 15 ממוצע של מספר משתנים :בקובץ L5.savניצור משתנה מחושב המתאר ציון ממוצע של 1 הציונים הקיימים בקובץ. .0ב ,Target Variable -כתוב ( meangradeציון ממוצע). .1בחר בקבוצה Statisticalאת הפונקציה .Mean .3בתיבה ,Numeric Expressionצור את הביטוי. MEAN(q6,q7,q8,q9) : .1הקלק ( OKאו Pasteליצירת סינטקס) .נוצר כעת משתנה חדש בשם meangradeשערכו שווה ל ממוצע של 3הציונים. הסינטקס: NUMERIC meangrade. '.ציון ממוצע' VARIABLE LABEL meangrade COMPUTE meangrade = MEAN(q6,q7,q8,q9). EXECUTE. .1הצג טבלה הכוללת את ממוצע ה ,meangrade-סטיית תקן ,ערך מינימלי ומכסימלי. 11 תרגילים – חישוב משתנה חדש באמצעות פונקציות :L2-multiple.sav קובץ .) מהורים ומריבית,) השווה לממוצע ההכנסות (מעבודהmeanincome( בנה משתנה מחושב.0 .הצג טבלה הכוללת ממוצע וסטיית תקן של ממוצע ההכנסה הנ"ל :תשובה NUMERIC meanincome. VARIABLE LABEL meanincome 'MEAN(h1,h2,h3('. COMPUTE meanincome = MEAN(h1,h2,h3(. EXECUTE. FREQUENCIES /VARIABLES= meanincome /FORMAT=AVALUE NOTABLE /STATISTICS=MEAN STDDEV. , הצג טבלה הכוללת ממוצע. שיציג גיל בשנים נכון להיוםage בנה משתנה מחושב בשם.1 .age סטיית תקן וחציון עבור המשתנה :תשובה NUMERIC age. VARIABLE LABEL age ''גיל. COMPUTE age = DATEDIFF($TIME,q1,'years'). EXECUTE. FREQUENCIES /VARIABLES= age /FORMAT=AVALUE NOTABLE /STATISTICS=MEAN STDDEV MEDIAN. הצג טבלה הכוללת.0.0.1112 שיציג גיל בשנים נכון ליוםage2 בנה משתנה מחושב בשם.3 .age1 סטיית תקן וחציון עבור המשתנה,ממוצע 12 תשובה: NUMERIC age2. '.גיל'VARIABLE LABEL age2 )'COMPUTE age2 = DATEDIFF(DATE.DMY(1,1,2007),q1,'years EXECUTE. FREQUENCIES /VARIABLES= age2 /FORMAT=AVALUE NOTABLE /STATISTICS=MEAN STDDEV MEDIAN. התניית ביצוע חישוב משתנה באמצעות ביטויי תנאי (או ביטויים לוגיים) ניתן להשתמש בביטויי תנאי (או כפי שהם נקראים לעיתית ,ביטויים לוגיים) ,כדי שפקודת Compute Variableתתבצע רק עבור חלק מהרשומות (ולא בכולן) העונות על תנאי מסוים. נתייחס לקובץ :L5.sav נדרש לחשב ממוצע שונה עבור בנים ובנות .עבור בנים הממוצע יחושב עבור כל 1המקצועות בעוד שהממוצע של הבנות יחושב רק עבור 3המקצועות הראשונים (ללא מתמטיקה). .0רשום את הסינטקס הבא: NUMERIC meangrade_2. '.ממוצע מותנה' VARIABLE LABEL meangrade_2 IF q2=1 meangrade_2 = MEAN(q6,q7,q8,q9). IF q2=2 meangrade_2 = MEAN(q6,q7,q8). EXECUTE . .1הרץ את הסינטקס. הרצת השגרה הנ"ל תחשב ממוצע בשיטות שונות לבנים ולבנות ולגבי אלה שחסר להם מגדר – לא יחושב ממוצע כלל. .3הרץ דו"ח שכיחות שיציג ממוצע וסטיית תקן של המשתנה meangrade_2ממוין לפי מגדר כדלקמן: א. פצל את הקובץ לפי מגדר. ב. הרץ דו"ח שכיחות עבור ממוצע מותנה אשר יכלול ממוצע וסטיית תקן. 11 יתקבל הדו"ח הבא: SORT CASES BY q2. SPLIT FILE LAYERED BY q2. FREQUENCIES /VARIABLES= meangrade_2 /FORMAT=AVALUE NOTABLE /STATISTICS=MEAN STDDEV. תרגיל – התניית ביצוע חישוב של משתנה חדש קובץ :L2-multiple.sav בנה משתנה מחושב בשם ( total_incomeכינוי :הכנסה כוללת מותנה) המחושב עפ"י ההגדרה הבאה: עבור רווק :סך ההכנסה החודשית מעבודה ,מהורים ומריבית. עבור מי שאינו רווק :סך ההכנסה החודשית מעבודה ומריבית בלבד. הצג טבלה הכוללת ממוצע ,סטיית תקן וחציון עבור המשתנה הנ"ל. 15 תשובה: NUMERIC total_income. '.הכנסה כוללת מותנה' VARIABLE LABEL total_income IF q4=2 total_income = h1+h2+h3. IF q4<>2 total_income = h1+h3. EXECUTE. FREQUENCIES /VARIABLES= total_income /FORMAT=AVALUE NOTABLE /STATISTICS=MEAN STDDEV MEDIAN. ישנן שתי חלופות נוספות לשורה הרביעית בסינטקס הנ"ל: 1) IF not q4=2 total_income = h1+h3. 2) IF q4~=2 total_income = h1+h3. קידוד מחדש של משתנה ()Recode פקודת Recodeמשמשת לצמצום מספר קטגוריות של משתנה ,לשינוי קטגוריות קיימות (לאחר שתשובות הנבדקים הוקלדו) או להפיכת משתנה רציף למשתנה בדיד (ע"י יצירת קטגוריות). שימוש נפוץ בפקודה זו הוא ל"הפוך" שאלות "הפוכות" כך שכל השאלות בשאלון יהיו באותה מגמה .הדוגמה הראשונה תתייחס לקובץ .Cars.savנדרש לקודד מחדש את שנת הייצור של הרכב ( )Yearלשתי קטגוריות בלבד :מכוניות שיוצרו עד 0525ועד בכלל ומכוניות שיוצרו משנת 0511ואילך: .0מהתפריט הראשי בחר: Transform Recode into Different Variables... .2בחר את המשתנה yearוהעבירו תחת הכותרת .Old .3הצבע עם העכבר על המשתנה .year .4תחת הכותרת Output Variableהגדר את שם המשתנה החדש yearcatואת הLabel- שלו :שנת ייצור-קטגוריות. 21 .5הקלק על … .Old and New Valuesייפתח החלון הבא: .1תחת הכותרת Old Valueבחר באפשרות Range, LOWEST through valueוהקלד ( 25כלומר ,כל הערכים עד למכסימום . )25 .2תחת הכותרת New Valueהקלד .0משמעות :כל הערכים הישנים עד 25ועד בכלל יהפכו לקוד חדש .0 .1הקש על .Add .5תחת הכותרת Old Valueבחר באפשרות Range, value through HIGHEST: והקלד ( 11כלומר ,כל הערכים מ 11-ומעלה) . .01תחת הכותרת New Valueהקלד .1משמעות :כל הערכים הישנים מ 11-ומעלה יהפכו לקוד חדש .1 20 .00הקש על .Addיתקבל החלון הבא: .01הקש על .Continue .03בתיבת השיח הראשית Recode into Different Variablesהקש על .Changeתחת הכותרת Variablesיתקבל הכיתוב הבא: yearcat year 21 .44הקש .Pasteיתקבל הסינטקס: RECODE year )(LOWEST THRU 79 = 1) (80 THRU HIGHEST = 2 INTO yaercat. ".שנת ייצור-קטגוריות" VARIABLE LABELS yaercat EXECUTE. .05הפעל את הסינטקס .נוצר בקובץ משתנה חדש בשם yearcatאשר ערכיו הם ( 0עד שנת )25או ( 1שנת 11ומעלה) .ה Label -של המשתנה החדש הוא "שנת ייצור-קטגוריות". ניתן להוסיף את הכינוי של כל קטגוריה באמצעות .Variable Labelנשנה גם את סולם המדידה לאורדינאלי ואת מספר הספרות אחרי הנקודה ל.1- .01הרץ דו"ח שכיחות עבור המשתנה החדש .yearcatמתקבל הדו"ח הבא: FREQUENCIES /VARIABLES= yaercat /FORMAT=AVALUE TABLE /STATISTICS=NONE. נדגים כעת שימוש בפקודת Recodeהמשלבת ערכים בדידים וטווחי ערכים .נשתמש בקובץ 1991 U.S. General Social Survey.savכדי לקודד מחדש את המשתנה השכלה ] .Highest Year of School Completed [educע"ב בדיקת התפלגות המשתנה ,נדרש לקודד אותו מחדש כדלקמן: .0 .1 .3 .1 .5 עד 5שנות לימוד. .01-00 .01 .03-05 01ומעלה. .0מהתפריט הראשי בחר: Transform Recode into Different Variables... .2בחר את המשתנה educוהעבירו תחת הכותרת .Old 23 .3תחת הכותרת Output Variableהגדר את שם המשתנה החדש educatואת הLabel- שלו :השכלה-קטגוריות. .4הקלק על ….Old and New Values .5תחת הכותרת Old Valueבחר באפשרות Range, LOWEST through value: והקלד ( 5כלומר ,כל הערכים עד למכסימום . )5 .1תחת הכותרת New Valueהקלד .0הקש על .Add משמעות :כל הערכים הישנים עד 5ועד בכלל יהפכו לקוד חדש .0 .2תחת הכותרת Old Valueבחר באפשרות Rangeוהקלד ( 00 through 10כלומר ,כל הערכים מ 01-עד ל. )00 - .1תחת הכותרת New Valueהקלד .1הקש על .Add משמעות :כל הערכים הישנים בתחום 01-00יהפכו לקוד חדש .1 .5תחת הכותרת Old Valueבחר באפשרות Valueוהקלד ( 12כלומר ,הערך 01בדיוק) . .01תחת הכותרת New Valueהקלד .3הקש על .Add משמעות :כל הערכים הישנים שערכם 01יהפכו לקוד חדש .3 .00תחת הכותרת Old Valueבחר באפשרות Rangeוהקלד ( 05 through 13כלומר ,כל הערכים מ 03-עד ל. )05 - .01תחת הכותרת New Valueהקלד .1הקש על .Add משמעות :כל הערכים הישנים בתחום 03-05יהפכו לקוד חדש .1 .03תחת הכותרת Old Valueבחר באפשרות Range, value through HIGHESTוהקלד ( 16כלומר ,כל הערכים מ 01-ומעלה) . .01תחת הכותרת New Valueהקלד .5הקש על .Add משמעות :כל הערכים הישנים בתחום 01ומעלה יהפכו לקוד חדש .5בשלב זה המסך יראה כך: 21 .Continue הקש על.05 תחת.Change הקש עלRecode into Different Variables בתיבת השיח הראשית.01 : יתקבל הכיתוב הבאNumeric Variable Output Variable הכותרת educ educat : יתקבל הסינטקס.Paste הקש.41 RECODE educ (LOWEST THRU 9 = 1) (10 THRU 11 = 2) (12 = 3) (13 THRU 15 = 4) (16 THRU HIGHEST = 5) INTO educat. VARIABLE LABELS educat X'D794D7A9D79BD79CD7942DD7A7D798D792D795D7A8D799D795D7AA.' EXECUTE. .5 עד0 אשר ערכיו הםeducat נוצר בקובץ משתנה חדש בשם. הפעל את הסינטקס.01 ."קטגוריות- של המשתנה החדש הוא "השכלהLabel -ה ועדכן את הכינויים של כל הקודיםVariable View עבור למסך, כדי לסיים את הפעולה.05 : כדלקמןValues - בeducat החדשים במשתנה 5 עד 01-00 01 03-05 ומעלה01 .0 .1 .3 .1 .5 25 .11לחילופין ניתן לעדכן את הכינויים באמצעות הסינטקס הבא: VALUE LABELS /educat ' 1עד 11' 1 '13-11' 4 '12' 3 '11-11' 2 '9ומעלה'. כדי שמספר הספרות מימין לנקודה העשרונית במשתנה החדש יהיה אפס ,ניתן לכוון זאת ידנית במסך Variable Viewאו להריץ את הסינטקס הבא: FORMATS educat (F8.0). הרץ דו"ח שכיחות עבור המשתנה החדש .מתקבל הדו"ח הבא: FREQUENCIES /VARIABLES= educat /FORMAT=AVALUE TABLE /STATISTICS=NONE. תרגיל – קידוד מחדש של משתנה ()Recode קובץ :L2-multiple.sav באמצעות פקודת Recodeבנה משתנה מחושב בשם ( ed_newהשכלה) שיתבסס על המשתנה .q3המשתנה החדש יכלול 1קטגוריות בלבד: =0 .0יסודית =1 .1תיכונית. =3 .3אקדמית. =55 .1אין תשובה (הגדר כ.)Missing- ההמרה תבוצע כמוגדר בטבלה הבאה: מס' q3 ed_new 0 =0יסודית =0יסודית 1 =1תיכונית =1תיכונית 3 =3על תיכונית =3אקדמית 1 =1תואר ראשון =3אקדמית 5 =5תואר שני =3אקדמית 1 =1תואר שלישי =3אקדמית 2 =55אין תשובה =55אין תשובה הפק דו"ח שכיחות עבור המשתנה החדש. 21 תשובה: FREQUENCIES /VARIABLES= ed_new /FORMAT=AVALUE TABLE /STATISTICS=NONE. יצירת משתנה קטגוריאלי ממשתנה רציף מספר משתנים קטגוריאליים בקובץ הנתונים demo.savנגזרים למעשה ממשתנים רציפים בקובץ .למשל ,המשתנה inccatהוא פשוט המשתנה incomeהמקובץ ל 1-קטגוריות .המשתנה הקטגוריאלי עושה שימוש ב 1-קטגוריות כדי לייצג את קטגוריות ההכנסה הבאות: פחות מ 15,111 -דולר בשנה. .15,111-15,111 .51,111-21,111 25,111 ומעלה. כדי ליצור את המשתנה הקטגוריאלי inccatע"ב המשתנה הקיים ,incomeבצע את הר"מ: .10מהתפריט הראשי בחר: Transform Recode into Different Variables... .22בחר את המשתנה incomeוהעבירו תחת הכותרת .Old .23תחת הכותרת Output Variableהגדר את שם המשתנה החדש inccat2ואת הLabel- שלו :קטגוריות הכנסה. 22 .24הקלק על ….Old and New Values .15תחת הכותרת Old Valueבחר באפשרות Range, LOWEST through value: והקלד ( 11כלומר ,כל הערכים עד למכסימום . )11 .11תחת הכותרת New Valueהקלד .0הקש על .Add משמעות :כל הערכים הישנים עד 11ועד בכלל יהפכו לקוד חדש .0 .12תחת הכותרת Old Valueבחר באפשרות Rangeוהקלד ( 15 through 15כלומר ,כל הערכים מ 15-עד ל. )15 - .11תחת הכותרת New Valueהקלד .1הקש על .Add משמעות :כל הערכים הישנים בתחום 15-15יהפכו לקוד חדש .1 .15תחת הכותרת Old Valueבחר באפשרות Rangeוהקלד ( 21 through 51כלומר ,כל הערכים מ 51-עד ל. )21 - .31תחת הכותרת New Valueהקלד .3הקש על .Add משמעות :כל הערכים הישנים בתחום 51-21יהפכו לקוד חדש .3 .30תחת הכותרת Old Valueבחר באפשרות Range, value through HIGHESTוהקלד ( 25כלומר ,כל הערכים מ 25-ומעלה) . .31תחת הכותרת New Valueהקלד .1הקש על .Add משמעות :כל הערכים הישנים בתחום 25ומעלה יהפכו לקוד חדש .1בשלב זה המסך יראה כך: .33הקש על .Continue .31בתיבת השיח הראשית Recode into Different Variablesהקש על .Changeתחת הכותרת Variablesיתקבל הכיתוב הבא: 21 inccat2 income .33הקש .Pasteיתקבל הסינטקס: RECODE income (LOWEST THRU 24 = 1) (25 THRU 49 = 2) (50 THRU 74 = 3) (75 )THRU HIGHEST = 4 INTO inccat2 . ".קטגוריות הכנסה" VARIABLE LABELS inccat2 EXECUTE. .31כדי לסיים את הפעולה ,עבור למסך Variable Viewועדכן את הכינויים של כל הקודים החדשים במשתנה inccat2ב Values -כדלקמן: .0 .1 .3 .1 עד 11 15-15 51-21 25ומעלה .32לחילופין ניתן לעדכן את הכינויים באמצעות הסינטקס הבא: VALUE LABELS /inccat2 ' 1עד 41' 4 '11-44' 3 '21-49' 2 '24ומעלה'. כדי שמספר הספרות מימין לנקודה העשרונית במשתנה החדש יהיה אפס ,ניתן לכוון זאת ידנית במסך Variable Viewאו להריץ את הסינטקס הבא: FORMATS inccat2 (F8.0). מתקבל הדו"ח הבא: FREQUENCIES /VARIABLES= inccat2 /FORMAT=AVALUE TABLE /STATISTICS=NONE. 25 תרגיל – יצירת משתנה קטגוריאלי ממשתנה רציף :L2-multiple.sav קובץ המשתנה.)h1( בנה משתנה קטגוריאלי בהתבסס על המשתנה הרציף הכנסה חודשית מעבודה :) יכלול את הקטגוריות הבאותh1_cat( החדש .1111-פחות מ .1111-3555 .1111-5555 .1111-2555 . ומעלה1111 .0 .1 .3 .1 .5 .הצג טבלת שכיחות עבור המשתנה החדש :תשובה RECODE h1 (LOWEST THRU 1999 = 1) (2000 THRU 3999 = 2) (4000 THRU 5999 = 3) (6000 THRU 7999 = 4) (8000 THRU HIGHEST = 5) INTO h1_cat . VARIABLE LABELS h1_cat X'D794D79BD7A0D7A1D79420D79ED7A2D791D795D793D794'. EXECUTE. VALUE LABELS / h1_cat 0111' 1 '1111-4999' 4 '4111-1999' 3 '2111-3999' 2 '1999 'עד1 .'ומעלה FORMATS h1_cat (F8.0). FREQUENCIES /VARIABLES= h1_cat /FORMAT=AVALUE TABLE /STATISTICS=NONE. 11 נושא מס' :5מיון קובץ Dataובקרת נתונים נושא 5כולל אפשרויות למיין את קובץ ה data -כדי להציג את הרשומות במיון רצוי .כמו כן נעסוק ביצירת כלי בקרה שיסייעו באיתור שגיאות הזנה ובתיקונן. מיון קובץ Data קבצים אינם מאורגנים תמיד בצורה האידיאלית עבור צרכים ספציפיים .כדי להכין את הנתונים לניתוח ,ניתן למיין רשומות בהתבסס על ערך של משתנה אחד או יותר. מיון רשומות (מיון שורות בקובץ ה )data-הוא לעיתים שימושי או אף הכרחי עבור סוגי ניתוח מסוימים .כדי לשנות את סדר הרשומות ע"ב משתנה אחד או יותר ,בחר מהתפריט הראשי (קובץ :)demo.sav Data Sort Cases... הוסף את המשתנים ] Age in years [ageוכן ]Household income in thousands [income לרשימת המיון ( .)Sort byכאשר מוסיפים יותר ממשתנה מיון אחד ,סדר הופעתם קובע את סדר מיונם .בדוגמה שלפנינו ,לכל גיל יהיה מיון לפי הכנסה .משתני מחרוזת ימוינו בסדר אלפא ביתי (באנגלית ,אות גדולה קודמת לקטנה) .לגבי כל משתנה מיון ,ניתן לקבוע אם הוא ימוין בסדר עולה ( )Ascendingאו יורד ( .)Descendingהקלק ( OKאו Pasteולאחר מכן הרץ את הסינטקס). הסינטקס המתקבל הוא: SORT CASES BY age income(A). האות Aבסוגריים מצביעה על ,Ascendingכלומר מיון בסדר עולה .אם המיון הוא בסדר יורד, תופיע האות Dבסוגריים (.)Descending הקובץ במיון החדש (בסדר עולה) יראה כך: 10 הסינטקס הבא יבצע מיון ראשי לפי גיל יורד ומיון משני לפי הכנסה עולה: SORT CASES BY age(D) income(A). לא ניתן לבצע את הפעולה הנ"ל ישירות מהתפריט (אלא רק כאשר סוג המיון זהה לכל המשתנים). 11 )kesher.sav תרגיל – יצירת קובץ משני ומיונו (קובץ : הפק את הקובץ הבאkesher.sav מהקובץ . דתיים רווקים, גברים:אוכלוסיה . א"ב של שם פרטי, א"ב של שם משפחה:מיון :תשובה COMPUTE select1 = gender=1 and religion=1 and family=1. EXECUTE. SELECT IF (select1 <> 0). SORT CASES BY mishpaha prati(A). 13 איתור שגיאות הזנה בקובץ Dataותיקונן לאחר הקלדת נתונים לקובץ Dataיש צורך לבצע בקרה על איכות הנתונים ,לאתר שגיאות הקלדה ולתקנן .דו"חות מפורטים עשויים לסייע באיתור רשומות שגויות .נפריד בין שני סוגי שגיאות הזנה: א. מחרוזת ( )Stringשלא הוזנה :מחרוזת כזו אינה נחשבת ב PSPP-כ .Missing-למשל שם משפחה שלא הוזן ,אינו נחשב ל כ Missing-אולם למרות זאת יש צורך לאתרו ולהשלים את החסר. ב. משתנה נומרי שלא הוקלד או שהוזן עבורו ערך שגוי :כל אחד מהמצבים הללו נחשב כ .Missing-משתנה נומרי חסר נחשב תמיד כ Missing -בעוד שמשתנה נומרי שגוי יחשב כ Missing -רק אם הוגדר כך ע"י המשתמש .כך למשל ,אם בסקלת תשובות של 0-5 התחום שמעל 5הוגדר מראש (ב )Variable View-כ ,Missing -אזי הקלדה של ערך 2 תחשב ע"י התוכנה כ( Missing -ולא תילקח בחשבון בחישובים הסטטיסטיים). מחרוזת שלא הוזנה כיוון שמחרוזת כזו אינה נחשבת כ ,Missing-יש לאתר את הרשומה שבה חסרה מחרוזת באופן הבא :נניח שנדרש לאתר את כל השמות הפרטיים ( )pratiבקובץ שלא הוזנו .לשם כך ,יש להגדיר ב Select cases-את ביטוי התנאי הבא. prati=' ' : נאתר כעת את כל הרשומות בקובץ kesher-haser.savשבהן לא הוקלד שם פרטי או שם משפחה: .0בשלב ראשון יש לבצע ברירת אוכלוסיה עבור כל הרשומות שבהן חסר שם פרטי או שם משפחה .לשם כך ,בחר מהתפריט הראשי: Transform …Compute .1מתחת לכותרת ( Target Variableבצד שמאל למעלה) ,תן שם למשתנה המחושב למשל .selection1 .3מתחת ל Numeric Expressions-רשום את הביטוי הלוגי המתאים: ' '=Prati= ' ' or mishpaha .1הקש .Pasteמתקבל הסינטקס הבא: COMPUTE selection1 = prati=' ' or mishpaha=' '. EXECUTE. .5הרץ את הסינטקס .לקובץ נוסף משתנה בשם selection1המקבל ערך 0עבור כל רשומה העונה על התנאי הנ"ל (חסר שם פרטי או שם משפחה) וערך 1עבור כל רשומה שאינה עונה על התנאי. .1בחר מהתפריט הראשי: Data Select Cases... פעולה זו פותחת את תיבת השיח של .Select Cases 11 .2סמן את האפשרות .Use filter variable .1בחר בסוף הרשימה את המשתנה selection1והעבר אותו לצד הימני של התיבה: .5מתחת לכותרת Unselected Cases Areבחר באפשרות . .01הקש על .Pasteמתקבל הסינטקס הבא: SELECT IF (selection1 <> 0). .00הרץ את הסינטקס .מתקבל הקובץ הבא הכולל 1רשומות בלבד: כלומר ,אותרו 1רשומות (מס' )135 ,131 ,11 ,11שבהן חסר שם פרטי או שם משפחה. .01כעת נדרש לנסות ולהשלים את החסר .בהנחה שמדובר בתקלת הקלדה ,יש לחזור למקור הנתונים ,לבדוק את הרשומות הללו (למשל ע"י בדיקת טפסי השאלונים הממוספרים) ולהשלים את החסר .לצורך התרגיל ,נעיין בקובץ "התקין" בשם kesher.savונבדוק האם השמות החסרים מופיעים ברשומות הנ"ל. כעת ניתן לתקן את הרשומות הנ"ל בקובץ .kesher-haser.sav 15 משתנה נומרי שגוי או שלא הוזן קובץ.relations-partial-shgiot-huge.sav : להבדיל ממשתנה מחרוזת ,משתנה נומרי שלא הוזן נחשב ע"י התוכנה כחסר ( .)Missingכך הדבר גם לגבי משתנה נומרי הנמצא בתחום שהוגדר ע"י המשתמש כ( Missing -במסך .)Variable Viewכדי לאתר רשומות בקובץ relations-partial-shgiot-huge.savשבהן ישנם משתנים נומריים חסרים או שלא בתחום שהוגדר ע"י המשתמש ,יש לפעול בדרך הבאה: .0בשלב ראשון יש לאתר את המשתנים הנומריים שבהם יש Missingאחד לפחות .כדי לעשות זאת ,נריץ דו"ח frequenciesמינימלי (כולל רק ממוצע) עבור כל המשתנים הנומריים: FREQUENCIES /VARIABLES= attach01 attach02 attach03 attach04 attach05 gender age religion family educ /FORMAT=AVALUE NOTABLE /STATISTICS=MEAN. יתקבל הפלט הבא: 11 משמעות הפלט :המשתנים attach01 עד attach05 מתייחסים לשאלות בסקלה של .2 – 0 כלומר ,כל ערך גבוה מ 2-או נמוך מ 0-נחשב כ .Missing -כך הדבר גם לגבי ערכים שלא הוקלדו .הפלט מצביע על כך שלגבי שאלות attach04 ,attach03 ,attach02 וכן gender נמצאה רשומה אחת (לכל משתנה) שבה יש . Missingכעת נדרש לאתר את הרשומות הנ"ל כדי לתקנן .משמעות נוספת של הפלט היא שלגבי כל שאר המשתנים ,אין Missingבאף רשומה כך שאין צורך להמשיך ולבדוק אותם .1כעת יש אם כן צורך להפיק דו"ח איתור חסרים עבור המשתנים הנ"ל בלבד .לשם כך, נעשה שימוש בפונקציה MISSINGאשר הפעלתה על משתנה נומרי מחזירה ערך 0 כלומר חסר או 1שמשמעותו "לא חסר" .כדי לאתר את הרשומות שבהן ישנם משתנים חסרים ,נגדיר משתנה s1הכולל את ברירת האוכלוסייה הבאה: MISSING(attach02)=1 or MISSING(attach03)=1 or MISSING(attach04)=1 or MISSING(gender)=1 לחילופין ,ניתן לכתוב גם את הביטוי הבא (מבצע את אותה פעולה): or )MISSING(attach04 or )MISSING(attach03 or )MISSING(attach02 )MISSING(gender הביצוע יהיה כדלקמן: .3בחר מהתפריט הראשי: Transform …Compute .1מתחת לכותרת ( Target Variableבצד שמאל למעלה) ,תן שם s1למשתנה המחושב. .5מתחת ל Numeric Expressions-רשום את הביטוי הלוגי המתאים: or )MISSING(attach04 or )MISSING(attach03 or )MISSING(attach02 )MISSING(gender .1הקש .Pasteמתקבל הסינטקס הבא: COMPUTE s1 = MISSING(attach02) or MISSING(attach03) or MISSING(attach04) or MISSING(gender). EXECUTE. .2הרץ את הסינטקס .לקובץ נוסף משתנה בשם s1המקבל ערך 0עבור כל רשומה העונה על התנאי הנ"ל (אם באחד המשתנים הנ"ל יש )Missingוערך 1עבור כל רשומה שאינה עונה על התנאי. .1בחר מהתפריט הראשי: Data Select Cases... פעולה זו פותחת את תיבת השיח של .Select Cases .5סמן את האפשרות .Use filter variable .01בחר בסוף הרשימה את המשתנה s1והעבר אותו לצד הימני של התיבה. 12 . .00מתחת לכותרת Unselected Cases Areבחר באפשרות .01הקש על .Pasteמתקבל הסינטקס הבא: SELECT IF (s1 <> 0). .03הרץ את הסינטקס .מתקבל הקובץ הבא הכולל 1רשומות בלבד: מהקובץ ניתן ללמוד כי ישנן שגיאות בהזנת 1הרשומות הבאות: :287ערך 1למשתנה attach04הינו שגוי (התחום המותר.)0-2 : :236לא הוקלד ערך למשתנה .attach02 :657ערך 1למשתנה "מגדר" הינו שגוי (התחום המותר.)0-1 : :517ערך 1למשתנה attach03הינו שגוי (התחום המותר.)0-2 : כעת נדרש לתקן את השגיאות בקובץ ע"י בדיקת נתוני המקור (כגון טפסי השאלונים) ,איתור הרשומה המתאימה בקובץ והזנת ערך נכון בשדה השגוי. תרגיל -איתור שגיאות הזנה בקובץ Data קובץkesher-shelon-haser.sav : אתר בקובץ kesher-shelon-haser.savרשומות שבהן יש משתנים חסרים/שגויים .הצבע על המשתנים החסרים/שגויים. תשובה: דו"ח Frequenciesמצביע על כך שישנם 1שדות נומריים חסרים ברשומה אחת (כל אחד): genderו.education - הקובץ המתקבל מצביע על 1רשומות שבהן יש משתנים נומריים או מחרוזתיים שלא הוזנו/שגויים. 11 תרגיל – גזירת מדגם מקובץ ומיונו קובץseker.sav : הקובץ seker.savכולל את רשימת 511תלמידי בית ספר שש-שנתי (השמות פיקטיביים). הקובץ כולל מס' סידורי ,שם פרטי ומשפחה ,מגדר ושכבה בלבד .בצע את הר"מ: גזור מתוך הקובץ הראשי מדגם אקראי של 51תלמידים בלבד שרק להם יימסרו שאלוני מחקר. מיין את קובץ המדגם לפי שכבה ,שם משפחה ושם פרטי. תשובה אפשרית (מוצג רק חלק מקובץ המדגם): SAMPLE 90 FROM 900. SORT CASES BY grade mishpaha prati(A).
© Copyright 2024