סטטיסטיקה 1 שיעור ראשון

‫(סטטיסטיקה ‪ – 1‬בית הספר למנהל עסקים)‬
‫(שלומי מזרחי)‬
‫סטודנט יקר‪:‬‬
‫מערך זה הוכן על ידי מדריך הלימודיה שלכם במטרה לסכם את החומר בתמציתיות‬
‫וכתוצאה מכך לנצל את זמן התרגולים בצורה האופטימאלית שתסייע להצלחתכם‪.‬‬
‫הלימודיה מוגשת לכם כחלק מפעילותה הענפה של מחלקת אקדמיה באגודת‬
‫הסטודנטים במטרה להיות לכם לעזר במהלך תקופת הבחינות הקרבה‪ .‬אנו מקווים כי‬
‫תפיקו ממנה את המרב‪.‬‬
‫בהצלחה בבחינות‬
‫דור חיים‬
‫יו"ר אגודת הסטודנטים‬
‫איה ברד‬
‫רמ"ח אקדמיה‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪1‬‬
‫מפגש ראשון ‪18.05.15‬‬
‫מערכי הלימודיה נערכו בעזרתו הנדיבה של מר שמיל זילברשטיין‬
‫וחוברת העזר שנערכה על ידו בשנת הלימודים תשע"ד‪.‬‬
‫מבוא והגדרות‪:‬‬
‫סטטיסטיקה‬
‫תיאורית‬
‫היסקית‬
‫מושגי יסוד‪-‬‬
‫אוכלוסייה‪ -‬אוסף של פריטים אליהם מתייחס המחקר‪.‬‬
‫מדגם‪ -‬אוסף פריטים (תצפיות) מהאוכלוסיה אותה מבקש המחקר לבחון‪ ,‬המשמש להסקה‬
‫על אותה אוכלוסיה‪.‬‬
‫משתנה‪ -‬התכונה אותה מודד החוקר באוכלוסייה‪ /‬במדגם‪( .‬הרציונל שערכיה בקרב‬
‫הנבדקים יהיו שונים)‬
‫תצפית‪ -‬ערך בפועל של משתנה נחקר‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪2‬‬
‫סיווג משתנים‪-‬‬
‫* שמי דיכוטומי‬
‫תרגול‪-‬‬
‫דרגה בצהל‪-‬‬
‫גובה‪-‬‬
‫משקל‪-‬‬
‫מצב משפחתי‪-‬‬
‫מס המכוניות בבית אב‪-‬‬
‫אזור מגורים‪-‬‬
‫מספר ת"ז‪-‬‬
‫מגדר‪-‬‬
‫שביעות רצון‪-‬‬
‫מס קו אוטובוס‪-‬‬
‫ארגון והצגה של נתונים‬
‫טבלת שכיחות ‪ -‬טבלה המקשרת בין כל ערך של המשתנה למס' הפעמים שהוא הופיע‬
‫בנתונים‪.‬‬
‫דיאגרמת עוגה ‪ -‬גרף בו כל ערך של המשתנה מקבל פלח בהתאם לשכיחות היחסית שלו‪.‬‬
‫דיאגרמת מקלות ‪ -‬גרף בו ערכי המשתנה נמצאים על ציר ה‪ X -‬ומעל כל ערך יש מקל ‪/‬‬
‫עמודה בגובה השכיחות או השכיחות היחסית (ציר ה‪.) Y -‬‬
‫שכיחות (‪( – )f‬תדירות) כמות תצפיות בעלות ערך זהה במשתנה נתון‪.‬‬
‫שכיחות מצטברת (‪ – )F‬כמות הנבדקים עד לאותו ערך כולל‪ ,‬כאשר בערך האחרון צוברים‬
‫לגודל המדגם‪.‬‬
‫שכיחות יחסית (‪ – )f %‬הצגת השכיחות באחוזים‪.‬‬
‫שכיחות יחסית מצטברת (‪ – )F%‬הצגת השכיחות המצטברת באחוזים‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪3‬‬
‫טבלאות שכיחות ותצוגה גרפית עפ"י משתנים וסולמות מדידה‬
‫משתנה שמי‪-‬‬
‫טבלת שכיחות ללא שכיחות מצטברת‪ .‬הצגה גרפית באמצעות דיאגרמת מקלות או עוגה‪.‬‬
‫שכיחות‬
‫יחסית‬
‫במעלות ‪F%‬‬
‫‪360º‬‬
‫‪107.496‬‬
‫‪94.464‬‬
‫‪158.04‬‬
‫שכיחות‬
‫יחסית‬
‫מצטברת‬
‫‪F%‬‬
‫‪= 66/221‬‬
‫‪29.86%‬‬
‫‪=124/221‬‬
‫‪56.10%‬‬
‫‪=221/221‬‬
‫‪100%‬‬
‫שכיחות‬
‫מצטברת‬
‫‪F‬‬
‫‪66‬‬
‫‪124 =66+58‬‬
‫‪221=124+97‬‬
‫‪360‬‬
‫שכיחות‬
‫יחסית‬
‫‪f%‬‬
‫‪Percent‬‬
‫‪= 66/221‬‬
‫‪29.86%‬‬
‫‪= 58/221‬‬
‫‪26.24%‬‬
‫‪= 97/221‬‬
‫‪43.90%‬‬
‫‪100%‬‬
‫שכיחות‬
‫‪f‬‬
‫‪Frequency‬‬
‫משתנה‪-‬‬
‫תחום‬
‫התמחות‬
‫בתואר‬
‫שיווק‬
‫‪58‬‬
‫מימון‬
‫‪97‬‬
‫חשבונאות‬
‫‪66‬‬
‫‪n = 221‬‬
‫‪Total‬‬
‫* עבור המשתנה הנ"ל אין משמעות לשכיחות היחסית המצטברת‪.‬‬
‫דיאגרמת מקלות‬
‫‪50.00%‬‬
‫‪45.00%‬‬
‫‪40.00%‬‬
‫‪35.00%‬‬
‫‪30.00%‬‬
‫שכיחות יחסית‬
‫‪25.00%‬‬
‫‪43.90%‬‬
‫‪20.00%‬‬
‫‪26.24%‬‬
‫‪29.86%‬‬
‫‪15.00%‬‬
‫‪10.00%‬‬
‫‪5.00%‬‬
‫‪0.00%‬‬
‫חשבונאות‬
‫‪‬‬
‫‪‬‬
‫מימון‬
‫שיווק‬
‫בדיאגרמת מקלות‪ /‬עמודות אין משמעות לעובי המקלות והן בהכרח מופרדים זה‬
‫מזה‪.‬‬
‫על ציר ה ‪ X -‬נציג את ערכי המשתנה‪ .‬על ציר ה‪ Y -‬נציג את השכיחות ‪ /‬השכיחות‬
‫היחסית‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪4‬‬
‫דיאגרמת עוגה‬
‫‪29.86%‬‬
‫שיווק‬
‫‪43.90%‬‬
‫מימון‬
‫חשבונאות‬
‫‪26.24%‬‬
‫‪‬‬
‫כאשר נדרש לצייר דיאגרמת עוגה – נוסיף טור לטבלה שמבטא את השכיחות‬
‫היחסית ע"י מעלות מתוך ‪ 360º‬שבעיגול שלם‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪5‬‬
‫משתנה סודר‪-‬‬
‫טבלת שכיחות עם שכיחות מצטברת‪ .‬הצגה גרפית באמצעות דיאגרמת מקלות או עוגה‪.‬‬
‫(עדיפה ההצגה בדיאגרמת מקלות שתאפשר התרשמות מהמהלך של ההתפלגות)‬
‫שכיחות‬
‫יחסית‬
‫במעלות ‪F%‬‬
‫‪360º‬‬
‫‪19.512‬‬
‫‪45.476‬‬
‫‪117.252‬‬
‫‪96.12‬‬
‫‪81.54‬‬
‫‪360‬‬
‫שכיחות‬
‫יחסית‬
‫מצטברת‬
‫‪F%‬‬
‫‪5.42%‬‬
‫‪18.08%‬‬
‫‪50.65%‬‬
‫‪77.35%‬‬
‫‪100%‬‬
‫שכיחות‬
‫מצטברת‬
‫‪F‬‬
‫‪12‬‬
‫‪40‬‬
‫‪112‬‬
‫‪171‬‬
‫‪221‬‬
‫שכיחות‬
‫יחסית‬
‫‪f%‬‬
‫‪Percent‬‬
‫‪5.42%‬‬
‫‪12.66%‬‬
‫‪32.57%‬‬
‫‪26.70%‬‬
‫‪22.65%‬‬
‫‪100%‬‬
‫שכיחות‬
‫‪f‬‬
‫‪Frequency‬‬
‫משתנה‪-‬‬
‫שביעות‬
‫רצון‬
‫‪12‬‬
‫‪28‬‬
‫‪72‬‬
‫‪59‬‬
‫‪50‬‬
‫‪n = 221‬‬
‫נמוכה מאד‬
‫נמוכה‬
‫בינונית‬
‫גבוהה‬
‫גבוהה מאד‬
‫‪Total‬‬
‫דיאגרמת מקלות‬
‫‪35.00%‬‬
‫‪32.57%‬‬
‫‪30.00%‬‬
‫‪26.70%‬‬
‫‪25.00%‬‬
‫‪22.65%‬‬
‫‪20.00%‬‬
‫שביעות רצון‬
‫‪15.00%‬‬
‫‪12.66%‬‬
‫‪10.00%‬‬
‫‪5.42%‬‬
‫‪5.00%‬‬
‫‪0.00%‬‬
‫גבוהה מאד‬
‫‪‬‬
‫‪‬‬
‫גבוהה‬
‫בינונית‬
‫נמוכה‬
‫נמוכה מאד‬
‫ניתן לחבר את קצוות המקלות בקו מרוסק על מנת לקבל התרשמות מהמהלך הכללי‬
‫של התופעה ‪ /‬המשתנה‪( .‬רלבנטי עבור משתנה סודר ולא עבור משתנה שמי)‬
‫ניתן להשוות בין ‪ 2‬התפלגויות באמצעות הצבת העומדות זו לצד זו‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪6‬‬
‫עבור משתנה כמותי בדיד העמודות שנציג בטבלת השכיחות תהיינה זהות כמו כן גם דרך‬
‫הצגת הנתונים הגרפיים‪( .‬ערכי המשתנה יהיו מספריים כמובן)‪.‬‬
‫טבלת שכיחות‬
‫א צומה תחפשמב םידלי 'סמ ‪CHI LDR EN‬‬
‫‪Cumulativ e‬‬
‫‪Percent‬‬
‫‪5.8‬‬
‫‪40.8‬‬
‫‪78.6‬‬
‫‪94.2‬‬
‫‪98.1‬‬
‫‪100.0‬‬
‫‪Valid Percent‬‬
‫‪5.8‬‬
‫‪35.0‬‬
‫‪37.9‬‬
‫‪15.5‬‬
‫‪3.9‬‬
‫‪1.9‬‬
‫‪100.0‬‬
‫‪Percent‬‬
‫‪5.8‬‬
‫‪34.6‬‬
‫‪37.5‬‬
‫‪15.4‬‬
‫‪3.8‬‬
‫‪1.9‬‬
‫‪99.0‬‬
‫‪1.0‬‬
‫‪100.0‬‬
‫‪Frequency‬‬
‫‪6‬‬
‫‪36‬‬
‫‪39‬‬
‫‪16‬‬
‫‪4‬‬
‫‪2‬‬
‫‪103‬‬
‫‪1‬‬
‫‪104‬‬
‫‪Valid‬‬
‫‪1.00‬‬
‫‪2.00‬‬
‫‪3.00‬‬
‫‪4.00‬‬
‫‪5.00‬‬
‫‪6.00‬‬
‫‪Total‬‬
‫‪Sy stem‬‬
‫‪Missing‬‬
‫‪Total‬‬
‫דיאגרמת מקלות‬
‫מס' ילדים במ ש פחת המוצא‬
‫‪50‬‬
‫‪40‬‬
‫‪39‬‬
‫‪36‬‬
‫‪30‬‬
‫‪20‬‬
‫‪16‬‬
‫‪6‬‬
‫‪4‬‬
‫‪6.00‬‬
‫‪5.00‬‬
‫‪0‬‬
‫‪4.00‬‬
‫‪3.00‬‬
‫‪2.00‬‬
‫‪1.00‬‬
‫מס' ילדים במשפחת המוצ א‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫‪Frequency‬‬
‫‪10‬‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪7‬‬
‫משתנה כמותי רציף‪-‬‬
‫י רטמוכיספ ןויצ ‪PSYCH‬‬
‫‪Cumulativ e‬‬
‫‪Percent‬‬
‫‪1.0‬‬
‫‪2.9‬‬
‫‪3.9‬‬
‫‪4.9‬‬
‫‪5.8‬‬
‫‪7.8‬‬
‫‪8.7‬‬
‫‪9.7‬‬
‫‪10.7‬‬
‫‪12.6‬‬
‫‪13.6‬‬
‫‪16.5‬‬
‫‪18.4‬‬
‫‪20.4‬‬
‫‪22.3‬‬
‫‪23.3‬‬
‫‪27.2‬‬
‫‪29.1‬‬
‫‪31.1‬‬
‫‪34.0‬‬
‫‪35.9‬‬
‫‪37.9‬‬
‫‪39.8‬‬
‫‪41.7‬‬
‫‪45.6‬‬
‫‪46.6‬‬
‫‪49.5‬‬
‫‪51.5‬‬
‫‪52.4‬‬
‫‪53.4‬‬
‫‪54.4‬‬
‫‪55.3‬‬
‫‪56.3‬‬
‫‪57.3‬‬
‫‪61.2‬‬
‫‪62.1‬‬
‫‪64.1‬‬
‫‪66.0‬‬
‫‪67.0‬‬
‫‪68.0‬‬
‫‪70.9‬‬
‫‪71.8‬‬
‫‪72.8‬‬
‫‪73.8‬‬
‫‪75.7‬‬
‫‪77.7‬‬
‫‪79.6‬‬
‫‪81.6‬‬
‫‪82.5‬‬
‫‪83.5‬‬
‫‪85.4‬‬
‫‪87.4‬‬
‫‪88.3‬‬
‫‪90.3‬‬
‫‪91.3‬‬
‫‪92.2‬‬
‫‪93.2‬‬
‫‪94.2‬‬
‫‪95.1‬‬
‫‪97.1‬‬
‫‪98.1‬‬
‫‪99.0‬‬
‫‪100.0‬‬
‫כל הזכויות שמורות ©‬
‫‪Valid‬‬
‫‪Percent‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪2.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪3.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪2.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪3.9‬‬
‫‪1.0‬‬
‫‪2.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪3.9‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪2.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪100.0‬‬
‫‪Percent‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪2.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪3.8‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪2.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪3.8‬‬
‫‪1.0‬‬
‫‪2.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪3.8‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪2.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪1.0‬‬
‫‪99.0‬‬
‫‪1.0‬‬
‫‪100.0‬‬
‫‪Frequency‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪1‬‬
‫‪4‬‬
‫‪2‬‬
‫‪2‬‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪4‬‬
‫‪1‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪4‬‬
‫‪1‬‬
‫‪2‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪3‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪2‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪103‬‬
‫‪1‬‬
‫‪104‬‬
‫‪542‬‬
‫‪543‬‬
‫‪544‬‬
‫‪546‬‬
‫‪547‬‬
‫‪552‬‬
‫‪553‬‬
‫‪554‬‬
‫‪559‬‬
‫‪560‬‬
‫‪563‬‬
‫‪564‬‬
‫‪565‬‬
‫‪566‬‬
‫‪568‬‬
‫‪569‬‬
‫‪571‬‬
‫‪572‬‬
‫‪576‬‬
‫‪578‬‬
‫‪581‬‬
‫‪582‬‬
‫‪583‬‬
‫‪584‬‬
‫‪586‬‬
‫‪587‬‬
‫‪588‬‬
‫‪591‬‬
‫‪592‬‬
‫‪593‬‬
‫‪596‬‬
‫‪598‬‬
‫‪599‬‬
‫‪601‬‬
‫‪604‬‬
‫‪605‬‬
‫‪608‬‬
‫‪609‬‬
‫‪613‬‬
‫‪614‬‬
‫‪616‬‬
‫‪617‬‬
‫‪620‬‬
‫‪621‬‬
‫‪622‬‬
‫‪626‬‬
‫‪629‬‬
‫‪632‬‬
‫‪634‬‬
‫‪636‬‬
‫‪637‬‬
‫‪641‬‬
‫‪647‬‬
‫‪650‬‬
‫‪651‬‬
‫‪658‬‬
‫‪663‬‬
‫‪673‬‬
‫‪674‬‬
‫‪678‬‬
‫‪689‬‬
‫‪703‬‬
‫‪710‬‬
‫‪Total‬‬
‫‪System‬‬
‫‪Valid‬‬
‫‪Missing‬‬
‫‪Total‬‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪8‬‬
‫משתנה כמותי רציף‪-‬‬
‫נתאר ע"י טבלת שכיחויות עם קטגוריות ‪ /‬מחלקות והיסטוגרמה‪.‬‬
‫במשתנה רציף‪ ,‬או משתנה בדיד עם הרבה מאד ערכים‪ ,‬לא ניתן לארגן את הנתונים לתוך‬
‫טבלת שכיחויות רגילה מכיוון שלמרבית הערכים יש מספר תצפיות נמוך‪ .‬לכן נהוג לקבץ‬
‫אותם למחלקות ‪ /‬קטגוריות‪.‬‬
‫מבחינה סטטיסטית נעדיף לקבץ למחלקות שוות רוחב על מנת לשמור על צורת ההתפלגות‬
‫של הנתונים הגולמיים‪ .‬עם זאת‪ ,‬ניתן לקבץ את הנתונים למחלקות שאינן שוות רוחב‪.‬‬
‫טבלת שכיחויות לפי קיבוץ לקטגוריות‬
‫ת וירוגטקל ץבוקמ ירטמוכיספ ןויצ ‪PSYCH_1‬‬
‫‪Cumulat iv e‬‬
‫‪Percent‬‬
‫‪10.7‬‬
‫‪34.0‬‬
‫‪56.3‬‬
‫‪71.8‬‬
‫‪85.4‬‬
‫‪92.2‬‬
‫‪97.1‬‬
‫‪98.1‬‬
‫‪100.0‬‬
‫‪Percent‬‬
‫‪10.6‬‬
‫‪23.1‬‬
‫‪22.1‬‬
‫‪15.4‬‬
‫‪13.5‬‬
‫‪6.7‬‬
‫‪4.8‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪99.0‬‬
‫‪1.0‬‬
‫‪100.0‬‬
‫‪Valid Percent‬‬
‫‪10.7‬‬
‫‪23.3‬‬
‫‪22.3‬‬
‫‪15.5‬‬
‫‪13.6‬‬
‫‪6.8‬‬
‫‪4.9‬‬
‫‪1.0‬‬
‫‪1.9‬‬
‫‪100.0‬‬
‫‪Frequency‬‬
‫‪550‬‬
‫‪11‬‬
‫‪570‬‬
‫‪24‬‬
‫‪590‬‬
‫‪23‬‬
‫‪610‬‬
‫‪16‬‬
‫‪630‬‬
‫‪14‬‬
‫‪650‬‬
‫‪7‬‬
‫‪670‬‬
‫‪5‬‬
‫‪690‬‬
‫‪1‬‬
‫‪710‬‬
‫‪2‬‬
‫‪103‬‬
‫‪1‬‬
‫‪104‬‬
‫עצמא תדוקנ ‪PSYCH_1‬‬
‫ץבוקמ ירטמוכיספ ןויצ‬
‫לקט גוריות‬
‫‪Valid‬‬
‫‪540-560‬‬
‫‪560-580‬‬
‫‪580-600‬‬
‫‪600-620‬‬
‫‪620-640‬‬
‫‪640-660‬‬
‫‪660-680‬‬
‫‪680-700‬‬
‫‪700-720‬‬
‫‪Total‬‬
‫‪Missing‬‬
‫‪Sy stem‬‬
‫‪Total‬‬
‫היסטוגרמה‬
‫ציון פסי כומטרי מקוב ץ לקטגוריות‬
‫‪25‬‬
‫‪24‬‬
‫‪23‬‬
‫‪20‬‬
‫‪16‬‬
‫‪15‬‬
‫‪14‬‬
‫‪11‬‬
‫‪10‬‬
‫‪7‬‬
‫‪5‬‬
‫‪2‬‬
‫‪640-620 660-640 680-660 700-680 720-700‬‬
‫כל הזכויות שמורות ©‬
‫‪0‬‬
‫‪620-600‬‬
‫‪Frequency‬‬
‫‪5‬‬
‫‪560-540 580-560 600-580‬‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫עמוד | ‪9‬‬
‫לימודיה | ‪2015‬‬
‫נקודת אמצע‪ -‬אמצע הטווח של המחלקה ‪ /‬הקטגוריה‪ .‬משמש לחישוב מדדים‪.‬‬
‫היסטוגרמה‪ -‬דיאגרמה להצגת משתנה כמותי רציף‪ .‬זו דיאגרמה בה על ציר ה‪ X -‬מצויים‬
‫ערכי המשתנה ומעל לכל מחלקה משורטט מלבן ששטחו מייצג את השכיחות של המחלקה‪.‬‬
‫‪‬‬
‫‪‬‬
‫מחלקות שוות רוחב‪ -‬שכיחות ‪ /‬שכיחות יחסית בציר ה‪. Y -‬‬
‫מחלקות שאינן שוות רוחב‪ -‬יש לחשב את הצפיפות של כל מחלקה ולהציגה ע"ג ציר‬
‫ה‪ Y -‬בהיסטוגרמה‪.‬‬
‫צפיפות‪( -‬שכיחות חלקי רוחב המחלקה) ‪ – ) density ( d =f/L‬היחס שבין שכיחות‬
‫המחלקה לטווח שלה‪ .‬מתקבל ערך שמייצג את מס' התצפיות ‪ /‬הנבדקים עבור יחידת מדידה‬
‫‪ /‬משתנה באותה מחלקה‪.‬‬
‫פוליגון‪ -‬מצולע שכיחויות המחבר את נקודת האמצע בגובה המלבנים וממנו ניתן ללמוד על‬
‫צורת ההתפלגות של המשתנה‪.‬‬
‫שלבים לפני בניית טבלת השכיחויות במחלקות ‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫קביעת טווח הערכים ‪Range Xmax−Xmin‬‬
‫קביעת מספר המחלקות (הקטגוריות)‬
‫קביעת רוחב כל קטגוריה ‪ = L‬מספר המחלקות ‪Range /‬‬
‫תנאים הכרחיים ‪:‬‬
‫‪‬‬
‫‪‬‬
‫על הקטגוריות להיות ממצות‪ -‬לכל ערך אפשרי יהיה מקום בקטגוריה כלשהי‪.‬‬
‫על הקטגוריות להיות מוציאות‪ -‬לכל ערך אפשרי יהיה מקום בקטגוריה אחת בלבד‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪10‬‬
‫הדגמה של בניית היסטוגרמה עבור קטגוריות שאינן שוות רוחב‬
‫צפיפות ‪d‬‬
‫‪f/L‬‬
‫שכיחות‪/‬רוחב‬
‫המחלקה‬
‫‪6/2 = 2‬‬
‫‪8/10 = 0.8‬‬
‫‪16/31 = 0.52‬‬
‫שכיחות‬
‫יחסית ‪f %‬‬
‫‪Percent‬‬
‫שכיחות ‪f‬‬
‫‪Frequency‬‬
‫רוחב‬
‫המחלקה‬
‫‪L‬‬
‫נקודת‬
‫אמצע‬
‫‪X‬‬
‫‪20%‬‬
‫‪26.67%‬‬
‫‪53.33%‬‬
‫‪100%‬‬
‫‪6‬‬
‫‪8‬‬
‫‪16‬‬
‫‪n = 30‬‬
‫‪3‬‬
‫‪10‬‬
‫‪31‬‬
‫‪22.5‬‬
‫‪29‬‬
‫‪49.5‬‬
‫משתנה‪-‬‬
‫גיל‬
‫‪21-24‬‬
‫‪24-34‬‬
‫‪34-65‬‬
‫‪Total‬‬
‫היסטוגרמה נכונה‬
‫‪d‬‬
‫‪2.2‬‬
‫‪2‬‬
‫‪1.8‬‬
‫‪1.6‬‬
‫‪1.4‬‬
‫‪1.2‬‬
‫‪1‬‬
‫‪0.8‬‬
‫‪0.6‬‬
‫‪0.4‬‬
‫‪0.2‬‬
‫‪0‬‬
‫‪70‬‬
‫‪60‬‬
‫‪70‬‬
‫‪60‬‬
‫‪50‬‬
‫‪40‬‬
‫‪30‬‬
‫‪20‬‬
‫‪0‬‬
‫היסטוגרמה שגויה‬
‫‪f‬‬
‫‪20‬‬
‫‪19‬‬
‫‪18‬‬
‫‪17‬‬
‫‪16‬‬
‫‪15‬‬
‫‪14‬‬
‫‪13‬‬
‫‪12‬‬
‫‪11‬‬
‫‪10‬‬
‫‪9‬‬
‫‪8‬‬
‫‪7‬‬
‫‪6‬‬
‫‪5‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪0‬‬
‫כל הזכויות שמורות ©‬
‫‪50‬‬
‫‪40‬‬
‫‪30‬‬
‫‪20‬‬
‫‪0‬‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪11‬‬
‫סיכום תיאור גרפי עפ"י סיווג משתנים‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫איכותי שמי ‪ -‬עוגה ‪ /‬מקלות‬
‫איכותי סודר‪ -‬עוגה ‪ /‬מקלות (עדיפות למקלות)‬
‫כמותי בדיד ‪ -‬עוגה ‪ /‬מקלות (עדיפות למקלות)‬
‫כמותי רציף‪ -‬היסטוגרמה‬
‫‪ o‬מחלקות שוות רוחב – שכיחות ע"ג ציר ה‪Y -‬‬
‫‪ o‬מחלקות שונות רוחב – צפיפות ע"ג ציר ה‪Y -‬‬
‫‪‬‬
‫שאלה חשובה‪ -‬מה ההבדל העיקרי בין דיאגרמת מקלות להיסטוגרמה?‬
‫שאלה מתוך בחינה שהתקיימה בתאריך‪28.01.13 -‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪12‬‬
‫צורות התפלגות של משתנים כמותיים רציפים‬
‫‪‬‬
‫סימטרית חד‪-‬שיאית‬
‫קיים ריכוז של מקרים על ערכים בינוניים‪ ,‬והצפיפות פוחתת בשני הכיוונים בצורה‬
‫סימטרית ככל שמתרחקים לקצוות‪.‬‬
‫‪Histogram‬‬
‫‪20‬‬
‫‪19‬‬
‫‪12‬‬
‫‪10‬‬
‫‪10‬‬
‫‪10‬‬
‫‪9‬‬
‫‪8‬‬
‫‪7‬‬
‫‪Frequency‬‬
‫‪6‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪29.00‬‬
‫‪28.75‬‬
‫‪28.50‬‬
‫‪28.25‬‬
‫‪28.00‬‬
‫‪27.75‬‬
‫‪27.50‬‬
‫‪27.25‬‬
‫‪27.00‬‬
‫‪26.75‬‬
‫‪26.50‬‬
‫‪26.25‬‬
‫‪26.00‬‬
‫‪25.75‬‬
‫‪25.50‬‬
‫‪25.25‬‬
‫‪25.00‬‬
‫ג יל הסט ודנט‬
‫‪‬‬
‫א‪-‬סימטרית ימנית ‪ /‬חיובית‬
‫קיים ריכוז של מקרים על ערכים נמוכים של המשתנה וזנב ההתפלגות מתמשך לכיוון‬
‫הערכים הגבוהים‪.‬‬
‫‪Histogram‬‬
‫‪30‬‬
‫‪24‬‬
‫‪20‬‬
‫‪21‬‬
‫‪10‬‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4 4‬‬
‫‪5‬‬
‫‪Frequency‬‬
‫‪9 9‬‬
‫‪5‬‬
‫‪2 2‬‬
‫‪0‬‬
‫‪9750‬‬
‫‪9250‬‬
‫‪9500‬‬
‫‪8250‬‬
‫‪8500‬‬
‫‪8750‬‬
‫‪9000‬‬
‫‪7000‬‬
‫‪7250‬‬
‫‪7500‬‬
‫‪7750‬‬
‫‪8000‬‬
‫‪6250‬‬
‫‪6500‬‬
‫‪6750‬‬
‫‪5250‬‬
‫‪5500‬‬
‫‪5750‬‬
‫‪6000‬‬
‫‪4250‬‬
‫‪4500‬‬
‫‪4750‬‬
‫‪5000‬‬
‫‪4000‬‬
‫משכ ורת‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫‪‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪13‬‬
‫א‪-‬סימטרית שמאלית ‪ /‬שלילית‬
‫קיים ריכוז של מקרים על ערכים גבוהים של המשתנה וזנב ההתפלגות מתמשך‬
‫לכיוון הערכים הנמוכים‪.‬‬
‫‪Histogram‬‬
‫‪30‬‬
‫‪23‬‬
‫‪20‬‬
‫‪18‬‬
‫‪13‬‬
‫‪11‬‬
‫‪12‬‬
‫‪10‬‬
‫‪10‬‬
‫‪3‬‬
‫‪2‬‬
‫‪Frequency‬‬
‫‪3‬‬
‫‪2‬‬
‫‪0‬‬
‫‪99.0‬‬
‫‪100.0‬‬
‫‪98.0‬‬
‫‪97.0‬‬
‫‪96.0‬‬
‫‪95.0‬‬
‫‪94.0‬‬
‫‪93.0‬‬
‫‪92.0‬‬
‫‪91.0‬‬
‫‪90.0‬‬
‫‪89.0‬‬
‫‪88.0‬‬
‫‪87.0‬‬
‫‪86.0‬‬
‫ממ וצע צ י ונ י הבגר ות‬
‫‪‬‬
‫התפלגות אחידה‬
‫קיימת צפיפות שווה על כל ערכי המשתנה‪ .‬זו התפלגות סימטרית בה התחלקות‬
‫המקרים אחידה על כל ערכי המשתנה‪.‬‬
‫‪Histogram‬‬
‫‪14‬‬
‫‪12‬‬
‫‪12‬‬
‫‪12‬‬
‫‪11‬‬
‫‪11‬‬
‫‪10‬‬
‫‪10‬‬
‫‪9‬‬
‫‪10‬‬
‫‪10‬‬
‫‪9‬‬
‫‪10‬‬
‫‪8‬‬
‫‪6‬‬
‫‪4‬‬
‫‪0‬‬
‫‪99‬‬
‫‪95‬‬
‫‪90‬‬
‫‪86‬‬
‫‪82‬‬
‫‪78‬‬
‫‪74‬‬
‫‪69‬‬
‫‪65‬‬
‫‪Frequency‬‬
‫‪2‬‬
‫‪61‬‬
‫ממ וצע צ י ונ ים במקצ וע ות ה ומנ יי ם‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫‪‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪14‬‬
‫התפלגות דו‪-‬שיאית סימטרית (‪(U‬‬
‫קיימים שני ריכוזים של מקרים בשני קצוות ההתפלגות‪.‬ריכוז על ערכים גבוהים של‬
‫המשתנה וריכוז על ערכים נמוכים שלו‪ .‬במרכז ההתפלגות הצפיפות מועטה‪.‬‬
‫‪Histogram‬‬
‫‪50‬‬
‫‪40‬‬
‫‪30‬‬
‫‪20‬‬
‫‪Frequency‬‬
‫‪10‬‬
‫‪0‬‬
‫מדדים‪:‬‬
‫מדד – ערך או מספר שמסכם ומבליט תופעה או תכונה מסוימת בנתונים‪.‬‬
‫‪‬‬
‫מדדי מיקום מרכזי‪ -‬מדדים המלמדים אותנו על הנטייה של הרוב ‪ /‬המרכז‪.‬‬
‫סביב ערכים אלו יתרכזו מרבית הנתונים‪.‬‬
‫‪‬‬
‫מדדי פיזור – מדדים שמתארים את גודל ההבדלים בין הנתונים לעצמם‪ ,‬או בין‬
‫ערך מרכזי מסוים לבין הכלל‪( .‬מודדים את הטרוגניות התצפיות במדגם)‬
‫‪‬‬
‫מדדים למיקום יחסי – מתארים מיקום יחסי של פרט מסוים לעומת אחרים‬
‫בהתפלגות‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪15‬‬
‫מדדי מיקום מרכזי ‪ /‬מדדי מרכז‬
‫מדדים המתארים באמצעות ערך אחד את כל קבוצת הנתונים‪.‬‬
‫‪ ‬שכיח ‪MO = )MODE( :‬‬
‫ערך בהתפלגות שתדירות הופעתו היא הגבוהה ביותר‪.‬‬
‫תכונות השכיח ‪:‬‬
‫‪‬‬
‫קל לאיתור‪.‬‬
‫‪‬‬
‫אפשר לחשב אותו בכל סולמות המדידה‪.‬‬
‫‪‬‬
‫השכיח לא מושפע מערכים קיצוניים‪.‬‬
‫‪‬‬
‫ישנם התפלגויות שאין לנו שכיח (אחידה)‪.‬‬
‫‪‬‬
‫ישנם התפלגויות שיש בהם מספר שיאים‪.‬‬
‫‪‬‬
‫מתי נשתמש‪ :‬כאשר הוא מספיק בולט (דומיננטיות)‬
‫‪‬‬
‫היחיד ממדדי המרכז שניתן לחשב בסולם שמי‪.‬‬
‫‪‬‬
‫במקרה של משתנה רציף עם מחלקות רוחב שאינן שוות‪ -‬השכיח הינו בעלת‬
‫הצפיפות הגבוהה ביותר‪ ,‬במקרה שהמחלקות שוות – זוהי המחלקה‬
‫(הקטגוריה) בעלת השכיחות ‪ /‬השכיחות היחסית הגבוהה ביותר‪.‬‬
‫‪ ‬חציון ‪)ME( = )MD( = )MEDIAN( :‬‬
‫הערך שעד אליו ומעליו (לא כולל אותו) יש אותה כמות תצפיות‪ .‬הערך האמצעי של‬
‫סדרת תצפיות המסודרות בסדר עולה של ערכים (מהנמוך לגבוה)‪.‬‬
‫הערך של המשתנה שבו נמצא ‪ 50%‬שכיחות יחסית מצטברת‪.‬‬
‫‪‬‬
‫סדרת תצפיות אי זוגית‬
‫‪‬‬
‫סדרת תצפיות זוגית‬
‫‪‬‬
‫שימוש בפלטים ‪ /‬עפ"י שכיחות יחסית מצטברת‬
‫‪‬‬
‫תכונות החציון ‪:‬‬
‫‪ ‬ניתן לחישוב רק על סולם סודר ומעלה‬
‫‪ ‬החציון נמצא במרכז ההתפלגות (התצפיות) ולא במרכז הערכים‪.‬‬
‫‪ ‬החציון מושפע מסדר הערכים ולא מהערכים עצמם‪.‬‬
‫‪ ‬לא מושפע מערכים קיצונים‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪16‬‬
‫‪ ‬ממוצע ‪) X ( = )MEAN / AVERAGE( :‬‬
‫סכום כל הערכים של המשתנה חלקי מס' התצפיות‪.‬‬
‫‪c‬‬
‫‪* fi‬‬
‫‪i‬‬
‫‪X‬‬
‫‪n‬‬
‫‪i 1‬‬
‫‪n‬‬
‫‪‬‬
‫‪i‬‬
‫‪X‬‬
‫‪i 1‬‬
‫‪n‬‬
‫‪X ‬‬
‫‪X 1  X 2  X 3  ...... X n‬‬
‫‪X ‬‬
‫‪‬‬
‫‪n‬‬
‫‪‬‬
‫תכונות הממוצע ‪:‬‬
‫‪ ‬ניתן לחישוב על משתנים כמותיים בלבד‪.‬‬
‫‪ ‬לעיתים אינו ערך הקיים בנתונים‬
‫‪ ‬מחושב על כל התצפיות ולכן מושפע מערכים קיצוניים‪.‬‬
‫‪ ‬חשוב‪ -‬הגדרה נוספת לממוצע‪ -‬זהו הערך שסכום הסטיות ממנו שווה ל‪.0-‬‬
‫‪ ‬ממוצע משוקלל ‪ :‬ממוצע הממוצעים = ( ‪) X‬‬
‫חישוב ממוצע כללי על סמך מס' ממוצעי קבוצות ‪:‬‬
‫‪c‬‬
‫‪* ni‬‬
‫‪i‬‬
‫‪X‬‬
‫‪i 1‬‬
‫‪c‬‬
‫‪n‬‬
‫‪i‬‬
‫כל הזכויות שמורות ©‬
‫‪X‬‬
‫‪i 1‬‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪17‬‬
‫צורות התפלגות והשוואת המדדים ‪:‬‬
‫התפלגות סימטרית‪-‬‬
‫‪mo  me  X‬‬
‫א‪-‬סימטרית ימנית‪-‬‬
‫‪7200‬‬
‫‪mo > me > X‬‬
‫ממוצע מעט שכיח‬
‫ימינה‬
‫א‪-‬סימטרית שמאלית‪-‬‬
‫‪mo‬‬
‫התפלגות אחידה ‪ /‬מלבנית?‬
‫כל הזכויות שמורות ©‬
‫> ‪me‬‬
‫‪X‬‬
‫התפלגות סימטרית דו‪ -‬שיאית?‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫עמוד | ‪18‬‬
‫לימודיה | ‪2015‬‬
‫השפעת הוספה ‪ /‬גריעת ‪ /‬שינוי ערכים על המדדים ‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫הוספת תצפית בערכו של המדד (ממוצע‪ ,‬חציון‪ ,‬שכיח) לא יביא עמו כל שינוי במדד‬
‫עצמו‪.‬‬
‫הוספה או החסרה של תצפית בודדת בצד אחד בלבד של ההתפלגות עשויה‬
‫להשפיע על החציון (מושפע מסדר הנתונים במדגם) ועל הממוצע (מושפע מערכים‬
‫קיצוניים)‪ .‬לפיכך‪ -‬צורת ההתפלגות עשויה להשתנות‪.‬‬
‫הוספת תצפיות במרחקים זהים לפני ואחרי המדדים אינה תשפיע עליהם‪.‬‬
‫הוספה של תצפית בעלת ערך קיצוני תשפיע על הממוצע ותמשוך אותו לכיוונה‬
‫העוצמה תלויה בקיצוניות הערך ובכמות הנבדקים במדגם (‪.(n‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪19‬‬
‫מדדי פיזור‬
‫מדדים שמאפיינים את מידת הפיזור של קבוצת נתונים‪.‬‬
‫ככל שערך המדד גדול יותר ‪ -‬הקבוצה מגוונת (הטרוגנית) יותר (פיזור גדול)‪.‬‬
‫ככל שערך המדד נמוך יותר ‪ -‬הקבוצה אחידה (הומוגנית) יותר (פיזור קטן)‪.‬‬
‫‪Range Xmax −Xmin‬‬
‫‪ ‬תחום (‪- )Range‬‬
‫ההפרש בין הערך המקסימלי בנתונים לערך המינימלי‪.‬‬
‫רגיש לערכים קיצוניים‪.‬‬
‫‪ ‬תחום בין‪-‬רבעוני (תב"ר) (‪– )IRQ‬‬
‫‪IRQ = 3Q - 1Q‬‬
‫טווח הערכים של המשתנה בו נמצאות ‪ 50%‬מהתצפיות שבמרכז ההתפלגות מסביב‬
‫לחציון‪.‬‬
‫מתעלם מהקצוות (ערכים קיצוניים)‪.‬‬
‫לצורך חישוב התב"ר יש לחשב את הרבעון הראשון והשלישי של ההתפלגות ‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ – Q1‬הרביע (הרבעון) הראשון‪ :‬הערך שעד אליו ‪ 25%‬מההתפלגות ומעליו‬
‫‪ 75%‬מההתפלגות‪.‬‬
‫‪ – 3Q‬הרביע (הרבעון) השלישי‪ :‬הערך שעד אליו ‪ 75%‬מההתפלגות ומעליו‬
‫‪ 25%‬מההתפלגות‪.‬‬
‫התב"ר הוא ההפרש בערך מוחלט בין הרביע השלישי לראשון‪.‬‬
‫‪ ‬שונות וסטיית תקן‪-‬‬
‫מדדי פיזור המחושבים על סמך סטיית התצפיות מממוצע הנתונים‪.‬‬
‫‪ nX 2‬‬
‫‪n‬‬
‫‪2‬‬
‫‪i‬‬
‫‪X‬‬
‫‪n 1‬‬
‫‪i 1‬‬
‫‪n‬‬
‫‪‬‬
‫‪( X i  X )2‬‬
‫‪i 1‬‬
‫‪n 1‬‬
‫‪c‬‬
‫‪‬‬
‫‪ ( xi  X ) 2 * f i‬‬
‫‪i 1‬‬
‫‪n 1‬‬
‫‪Sˆ  Sˆ 2 ‬‬
‫‪‬‬
‫שונות – ממוצע ריבועי הסטיות מהממוצע‪.‬‬
‫‪‬‬
‫סטיית תקן – (שורש חיובי של השונות) ‪ -‬מדד המבטא את הפיזור ביחידות‬
‫של המשתנה ונותן הערכה ל"סטייה הממוצעת" של התצפיות מממוצע‬
‫הסדרה‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪20‬‬
‫מדדי מיקום יחסי‬
‫מדדים שמצביעים על המיקום היחסי של תצפית ‪ /‬פרט ‪ /‬ערך מסוים בהתפלגות הנתונים‪.‬‬
‫‪ ‬מאון ‪ /‬אחוזון (‪Xp – )Percentile‬‬
‫הערך שעד אליו נמצאים ‪ P‬אחוזים מההתפלגות (הערכים מסודרים בסדר עולה‪-‬‬
‫מהנמוך לגבוה) ומעליו ‪. 100 - P%‬‬
‫ניתן לאתר אותו באמצעות השכיחות היחסית המצטברת‪.‬‬
‫סיכום ושאלות חשיבה‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫מהו הרבעון השני?‬
‫האם ייתכן שהתחום (‪ )Range‬שונה מ‪ 0 -‬בעוד התב"ר שווה ל‪? 0 -‬‬
‫מהו המאון ה‪? 75 -‬‬
‫מהו הרבעון התחתון?‬
‫האם תיתכן סטיית תקן שלילית?‬
‫האם תיתכן שונות שווה ל‪? 0 -‬‬
‫האם סכום הסטיות מהממוצע שווה ל‪? 0 -‬‬
‫בהתפלגות התקבל ממוצע שנמצא במאון ה‪ .60-‬מהי צורת ההתפלגות?‬
‫‪‬‬
‫שמונה אנשים נבחנו במבחן שניתן לקבל בו ציון ‪ 7 ,6‬או ‪.8‬‬
‫אם ידוע שממוצע הציונים ‪ , 8‬אזי סטיית התקן של הציונים היא‪:‬‬
‫א‪0 .‬‬
‫‪,‬‬
‫ב‪1/2 .‬‬
‫‪,‬‬
‫ג‪2 .‬‬
‫‪,‬‬
‫ד‪4 .‬‬
‫ה‪ .‬בשאלה אין מספיק אינפורמציה על מנת לחשב את סטיית התקן‪.‬‬
‫ו‪ .‬אף לא אחת מבין התשובות א'‪-‬ה' נכונה‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫עמוד | ‪21‬‬
‫לימודיה | ‪2015‬‬
‫שאלה מבחינה שהתקיימה בתאריך‪28.08.12 -‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪22‬‬
‫טרנספורמציה לינארית לנתונים והשפעתה על המדדים‬
‫שינוי לינארי (הוספה‪ ,‬החסרה‪ ,‬כפל וחילוק בקבוע) שעורכים לסדרת הנתונים כולה (ערכי‬
‫המשתנה)‪.‬‬
‫כך יוצרים למעשה משתנה חדש לפי פונקציה לינארית ‪X'= a+b*X‬‬
‫אז מה קורה למדדים שלנו?‬
‫מדדי מרכז‪ -‬מושפעים גם מהוספה ‪ /‬החסרה וגם מכפל ‪ /‬חילוק‪.‬‬
‫‪'= a+b* X‬‬
‫‪X‬‬
‫‪Me'= a+b*Me‬‬
‫‪Mo'= a+b*Mo‬‬
‫מדדי פיזור‪ -‬מושפעים רק מקבוע המכפלה (‪ – )b‬כפל וחילוק‪.‬‬
‫‪RANGE'= |b|*RANGE‬‬
‫‪IQR'= |b|*IQR‬‬
‫‪2‬‬
‫ˆ‪'= b²* S‬‬
‫‪Sˆ 2‬‬
‫ˆ‪'= |b|* S‬‬
‫ˆ‪S‬‬
‫* חשוב לוודא שהטרנספורמציה לינארית ובוצעה על כל הנתונים‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫עמוד | ‪23‬‬
‫לימודיה | ‪2015‬‬
‫שאלה מבחינה שהתקיימה בתאריך‪23.02.14 -‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫עמוד | ‪24‬‬
‫לימודיה | ‪2015‬‬
‫קשרים בין משתנים‬
‫כאשר שינוי בערכים של משתנה אחד גורר עמו שינוי בערכי המשתנה השני‪.‬‬
‫הגדרות חשובות‪:‬‬
‫משתנה בלתי תלוי‪ :‬המשתנה המשפיע‪ ,‬המנבא או המסביר את המשתנה האחר‪.‬‬
‫משתנה תלוי‪ :‬המשתנה המושפע‪ ,‬המנובא או המוסבר על ידי המשתנה הבלתי תלוי‪.‬‬
‫כיצד נאבחן את המשתנה הב"ת והתלוי?‬
‫‪ ).1‬היגיון בריא‬
‫‪ ).2‬הקדימות הכרונולוגית‬
‫‪ ).3‬ניסוח השאלה‬
‫האופן שבו נבדוק קשר בין משתנים תלוי בסוגם‪:‬‬
‫‪ ).1‬קשר בין משתנה איכותי למשתנה כמותי‪.‬‬
‫הבדיקה תעשה באמצעות השוואת צורת ההתפלגות‪ ,‬מדדי מרכז ופיזור של‬
‫המשתנה הכמותי בכל ערך (קטגוריה) של המשתנה האיכותי‪.‬‬
‫‪ ).2‬קשר בין שני משתנים כמותיים‪.‬‬
‫בדיקה באמצעות דיאגרמת פיזור‪ ,‬בהתאם לצורת הקשר המתקבלת נשתמש‬
‫במקדם המתאם הקווי (הלינארי) ובמשוואת הקו הישר (משוואת הניבוי)‪.‬‬
‫‪ ).3‬קשר בין משתנה איכותי לבין משתנה איכותי‪.‬‬
‫הבדיקה תעשה באמצעות ניתוח טבלאות‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪25‬‬
‫קשר בין שני משתנים כמותיים‬
‫‪ ‬דיאגרמת פיזור‪-‬‬
‫מאפשרת התרשמות ראשונית על דפוס הקשר‪ ,‬כיוונו ועוצמתו‪.‬‬
‫לרוב על ציר ה‪ X -‬יופיע המשתנה הב"ת תלוי ועל ציר ה‪ Y -‬יופיע המשתנה התלוי‪.‬‬
‫‪ ‬השונות המשותפת ‪- COV(X,Y) COVARIANCE‬‬
‫השונות המשותפת מתארת בו זמנית את ההשתנות של המשתנים (‪)Y,X‬‬
‫)‪ X )  ( yi  y‬‬
‫‪n‬‬
‫‪i‬‬
‫‪(X‬‬
‫‪i 1‬‬
‫)‪(n  1‬‬
‫‪‬‬
‫‪‬‬
‫‪COV ( X , y ) ‬‬
‫אם בין שני המשתנים קיים יחס ישר (חיובי)‪ ,‬כלומר ‪ Y‬עולה כאשר ‪ X‬עולה ‪-‬‬
‫השונות המשותפת תקבל ערך חיובי‪.‬‬
‫אם בין שני המשתנים קיים יחס הפוך (שלילי)‪ ,‬כלומר ‪ Y‬קטן כאשר ‪ X‬עולה ‪-‬‬
‫השונות המשותפת תקבל ערך שלילי‪.‬‬
‫ניתן ללמוד ממנה רק על כיוון הקשר‪ ,‬לא על עוצמתו‪ -‬לשם כך נשתמש במקדם‬
‫המתאם של פירסון‪.‬‬
‫‪ ‬מקדם המתאם של פירסון (‪)r‬‬
‫מקדם המתאם הינו מדד מתוקנן לכיוון ועוצמת הקשר הקווי (הלינארי)‪.‬‬
‫)‪Y‬‬
‫) ‪COV ( X , Y‬‬
‫‪Sˆ X * SˆY‬‬
‫‪‬‬
‫‪n‬‬
‫‪ (x  X ) *( y‬‬
‫‪i‬‬
‫‪i‬‬
‫‪(n  1) * Sˆ X * SˆY‬‬
‫‪i 1‬‬
‫‪rP ‬‬
‫מקדם המתאם הקווי הינו מדד סימטרי ויכול לנוע בין ‪ -1‬ל‪.1-‬‬
‫‪/‬‬
‫‪-1‬‬
‫‪+1‬‬
‫קשר חיובי מושלם‬
‫קשר שלילי מושלם‬
‫‪ = 0‬העדר‪/‬חוסר קשר קווי‬
‫חזק‬
‫‪+0.3‬‬
‫‪+0.7‬‬
‫‪1‬‬
‫חלש‬
‫בינוני‬
‫‪-0.3‬‬
‫בינוני‬
‫‪-0.7‬‬
‫חזק‬
‫‪-1‬‬
‫חלש‬
‫‪0‬‬
‫ככל שקרוב יותר ל‪ 1-‬הקשר חזק יותר (או ל‪ )-1-‬לחילופין‪.‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
2015 | ‫לימודיה‬
26 | ‫עמוד‬
1 ‫סטטיסטיקה‬
‫קשר בין שני משתנים כמותיים‬
‫מתאמים בעוצמות שונות וכיצד זה מתבטא בדיאגרמת הפיזור‬
‫ קשר חיובי חזק‬.‫א‬
14
Correlations
12
X
X
10
Y3
Pearson Correlation
N
Pearson Correlation
N
1
109
.979
109
Y3
.979
109
1
109
8
Y3
6
2
4
6
8
10
12
14
16
18
X
‫ קשר חיובי בינוני‬.‫ב‬
Correlations
25
X
X
20
Y4
15
Pearson Correlation
N
Pearson Correlation
N
1
109
.518
109
Y4
.518
109
1
109
10
Y4
5
0
2
4
6
8
10
12
14
16
18
X
‫ קשר חיובי חלש‬.‫ג‬
30
Correlations
20
X
X
10
Y5
Y5
0
Pearson Correlation
N
Pearson Correlation
N
1
109
.122
109
Y5
.122
109
1
109
-10
2
4
6
8
10
12
14
16
18
X
‫שמיל זילברשטיין | שלומי מזרחי‬
© ‫כל הזכויות שמורות‬
2015 | ‫לימודיה‬
27 | ‫עמוד‬
1 ‫סטטיסטיקה‬
)‫ קשר שאינו ליניארי (פרבולי‬.‫ד‬
80
60
40
Correlations
X
20
X
0
Y6
Y6
-20
2
4
6
8
10
12
14
16
18
Pearson Correlation
N
Pearson Correlation
N
Y6
-.043
120
1
120
1
120
-.043
120
X
‫ חוסר קשר‬.‫ה‬
18
16
14
12
Correlations
10
X
8
X
6
Y
Y
4
2
2
4
6
8
10
12
14
16
Pearson Correlation
N
Pearson Correlation
N
1
120
.000
120
Y
.000
120
1
120
18
X
‫שמיל זילברשטיין | שלומי מזרחי‬
© ‫כל הזכויות שמורות‬
‫סטטיסטיקה ‪1‬‬
‫לימודיה | ‪2015‬‬
‫עמוד | ‪28‬‬
‫רגרסיה – מציאת משוואת הקו הישר (קו הניבוי ‪ /‬רגרסיה) לחיזוי ‪ Y‬על סמך ‪X‬‬
‫קיום קשר לינארי בין שני משתנים מאפשר מציאת משוואת ניבוי לתיאור תחזית מהמשתנה‬
‫הב"ת למשתנה התלוי‪.‬‬
‫‪Yˆ  a  b * X i‬‬
‫‪SˆY‬‬
‫* ‪b  rP‬‬
‫‪Sˆ X‬‬
‫) ‪a  Y  (b * X‬‬
‫‪ ‬השיפוע (‪ - )b‬משמעות השיפוע היא בכמה יחידות ישתנה ‪ Y‬לכל שינוי של יחידה‬
‫אחת ב‪.X -‬‬
‫‪ ‬החותך (הקבוע) (‪ – )a‬משמעותו היא ערכו של ‪ Y‬כאשר ‪X=0‬‬
‫‪ ‬המונה של השונות‪ -‬סכום הריבועים (‪- Sum Of Squares ) SSY / SSX‬‬
‫‪n‬‬
‫‪n‬‬
‫‪i 1‬‬
‫‪i 1‬‬
‫‪SSX   ( xi  X ) * ( xi  X )   ( xi  X ) 2‬‬
‫‪ ‬המונה של השונות המשותפת‪- Cross Products – ) CP( -‬‬
‫‪n‬‬
‫) ‪  ( xi  X ) * ( yi  Y‬‬
‫‪i 1‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
2015 | ‫לימודיה‬
29 | ‫עמוד‬
1 ‫סטטיסטיקה‬
‫ קשר בין ציוני הבגרות לציוני התואר הראשון‬:1 ‫דוגמא‬
‫דיאגרמת פיזור‬
100
‫ממוצע ציוני תואר ראשון‬
90
80
70
60
84
86
88
90
92
94
96
98
100
‫ממו צע ציוני הב גרות‬
Correlations ‫מתאם ליניארי‬
Descriptive Statisti cs
Mean
Std. Dev iation
N
BAGRUT ‫ינויצ עצוממ‬
‫הבג רות‬
96.4091
2.66274
103
BA ‫ןושאר ראות ינויצ עצוממ‬
82.9374
4.46616
103
Correlationsa
BAGRUT ‫ינויצ עצוממ‬
‫הבגרות‬
Pearson Correlation
Sum of Squares and
Cross-products
BAGRUT
‫ממוצע ציוני‬
‫הבגרות‬
1
723.199
Cov ariance
Pearson Correlation
Sum of Squares and
Cross-products
BA ‫ןושאר ראות ינויצ עצוממ‬
BA ‫ינויצ עצוממ‬
‫תואר ראשון‬
.833**
1011.037
7.090
.833**
Cov ariance
9.912
1
1011.037
2034.547
9.912
19.947
**. Correlation is signif icant at the 0.01 lev el (2-tailed).
a. Listwise N=103
Coefficientsa
Model
1
(Constant)
BAGRUT ‫עצוממ‬
‫ציוני הבגרות‬
Unstandardized
Coef f icients
B
-51.843
Standardized
Coef f icients
Beta
1.398
a. Depend ent Variable: BA ‫ןושאר ראות ינויצ עצוממ‬
‫שמיל זילברשטיין | שלומי מזרחי‬
.833
‫משוואת הישר‬
© ‫כל הזכויות שמורות‬
2015 | ‫לימודיה‬
30 | ‫עמוד‬
1 ‫סטטיסטיקה‬
‫ קשר בין גיל הסטודנט למצב החשבון בבנק‬:2 ‫דוגמא‬
‫דיאגרמת פיזור‬
6000
4000
2000
0
‫מצב הע ו" ש בבנק‬
-2000
-4000
-6000
-8000
24
25
26
27
28
29
30
‫ג יל הסט ודנט‬
Correlations ‫מתאם ליניארי‬
Descriptive Statistics
AGE ‫טנדוטסה ליג‬
OVD ‫קנבב ש" ועה בצמ‬
Mean
27.0216
-328.5773
Std. Dev iat ion
.82403
2616.11551
N
103
103
Correlationsa
AGE ‫טנדוטסה ליג‬
OVD ‫קנבב ש" ועה בצמ‬
Pearson Correlation
Sum of Squares and
Cross-product s
AGE ‫ליג‬
‫הסטודנט‬
1
69.261
OVD ‫בצמ‬
‫העו"ש בבנק‬
-.343**
-75499.453
Cov ariance
Pearson Correlation
Sum of Squares and
Cross-product s
-75499.5
6.98E+08
Cov ariance
-740.191
6844060. 3
.679
-.343**
-740.191
1
**. Correlation is signif icant at the 0.01 lev el (2-t ailed).
a. Listwise N=103
Coefficientsa
Model
1
(Constant)
AGE ‫טנדוטסה ליג‬
Unstandardized
Coef f icients
B
29126.822
-1090.070
a. Depend ent Variable: OVD ‫קנבב ש" ועה בצמ‬
‫שמיל זילברשטיין | שלומי מזרחי‬
Standardized
Coef f icients
Beta
-.343
‫משוואת הישר‬
© ‫כל הזכויות שמורות‬
‫סטטיסטיקה ‪1‬‬
‫עמוד | ‪31‬‬
‫לימודיה | ‪2015‬‬
‫שאלה מבחינה שהתקיימה בתאריך‪28.08.12 -‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬
‫סטטיסטיקה ‪1‬‬
‫עמוד | ‪32‬‬
‫לימודיה | ‪2015‬‬
‫שאלה מתוך בחינה שהתקיימה בתאריך‪28.01.13 -‬‬
‫כל הזכויות שמורות ©‬
‫שמיל זילברשטיין | שלומי מזרחי‬