(סטטיסטיקה – 1בית הספר למנהל עסקים) (שלומי מזרחי) סטודנט יקר: מערך זה הוכן על ידי מדריך הלימודיה שלכם במטרה לסכם את החומר בתמציתיות וכתוצאה מכך לנצל את זמן התרגולים בצורה האופטימאלית שתסייע להצלחתכם. הלימודיה מוגשת לכם כחלק מפעילותה הענפה של מחלקת אקדמיה באגודת הסטודנטים במטרה להיות לכם לעזר במהלך תקופת הבחינות הקרבה .אנו מקווים כי תפיקו ממנה את המרב. בהצלחה בבחינות דור חיים יו"ר אגודת הסטודנטים איה ברד רמ"ח אקדמיה סטטיסטיקה 1 לימודיה | 2015 עמוד | 1 מפגש ראשון 18.05.15 מערכי הלימודיה נערכו בעזרתו הנדיבה של מר שמיל זילברשטיין וחוברת העזר שנערכה על ידו בשנת הלימודים תשע"ד. מבוא והגדרות: סטטיסטיקה תיאורית היסקית מושגי יסוד- אוכלוסייה -אוסף של פריטים אליהם מתייחס המחקר. מדגם -אוסף פריטים (תצפיות) מהאוכלוסיה אותה מבקש המחקר לבחון ,המשמש להסקה על אותה אוכלוסיה. משתנה -התכונה אותה מודד החוקר באוכלוסייה /במדגם( .הרציונל שערכיה בקרב הנבדקים יהיו שונים) תצפית -ערך בפועל של משתנה נחקר. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 2 סיווג משתנים- * שמי דיכוטומי תרגול- דרגה בצהל- גובה- משקל- מצב משפחתי- מס המכוניות בבית אב- אזור מגורים- מספר ת"ז- מגדר- שביעות רצון- מס קו אוטובוס- ארגון והצגה של נתונים טבלת שכיחות -טבלה המקשרת בין כל ערך של המשתנה למס' הפעמים שהוא הופיע בנתונים. דיאגרמת עוגה -גרף בו כל ערך של המשתנה מקבל פלח בהתאם לשכיחות היחסית שלו. דיאגרמת מקלות -גרף בו ערכי המשתנה נמצאים על ציר ה X -ומעל כל ערך יש מקל / עמודה בגובה השכיחות או השכיחות היחסית (ציר ה.) Y - שכיחות (( – )fתדירות) כמות תצפיות בעלות ערך זהה במשתנה נתון. שכיחות מצטברת ( – )Fכמות הנבדקים עד לאותו ערך כולל ,כאשר בערך האחרון צוברים לגודל המדגם. שכיחות יחסית ( – )f %הצגת השכיחות באחוזים. שכיחות יחסית מצטברת ( – )F%הצגת השכיחות המצטברת באחוזים. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 3 טבלאות שכיחות ותצוגה גרפית עפ"י משתנים וסולמות מדידה משתנה שמי- טבלת שכיחות ללא שכיחות מצטברת .הצגה גרפית באמצעות דיאגרמת מקלות או עוגה. שכיחות יחסית במעלות F% 360º 107.496 94.464 158.04 שכיחות יחסית מצטברת F% = 66/221 29.86% =124/221 56.10% =221/221 100% שכיחות מצטברת F 66 124 =66+58 221=124+97 360 שכיחות יחסית f% Percent = 66/221 29.86% = 58/221 26.24% = 97/221 43.90% 100% שכיחות f Frequency משתנה- תחום התמחות בתואר שיווק 58 מימון 97 חשבונאות 66 n = 221 Total * עבור המשתנה הנ"ל אין משמעות לשכיחות היחסית המצטברת. דיאגרמת מקלות 50.00% 45.00% 40.00% 35.00% 30.00% שכיחות יחסית 25.00% 43.90% 20.00% 26.24% 29.86% 15.00% 10.00% 5.00% 0.00% חשבונאות מימון שיווק בדיאגרמת מקלות /עמודות אין משמעות לעובי המקלות והן בהכרח מופרדים זה מזה. על ציר ה X -נציג את ערכי המשתנה .על ציר ה Y -נציג את השכיחות /השכיחות היחסית. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 4 דיאגרמת עוגה 29.86% שיווק 43.90% מימון חשבונאות 26.24% כאשר נדרש לצייר דיאגרמת עוגה – נוסיף טור לטבלה שמבטא את השכיחות היחסית ע"י מעלות מתוך 360ºשבעיגול שלם. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 5 משתנה סודר- טבלת שכיחות עם שכיחות מצטברת .הצגה גרפית באמצעות דיאגרמת מקלות או עוגה. (עדיפה ההצגה בדיאגרמת מקלות שתאפשר התרשמות מהמהלך של ההתפלגות) שכיחות יחסית במעלות F% 360º 19.512 45.476 117.252 96.12 81.54 360 שכיחות יחסית מצטברת F% 5.42% 18.08% 50.65% 77.35% 100% שכיחות מצטברת F 12 40 112 171 221 שכיחות יחסית f% Percent 5.42% 12.66% 32.57% 26.70% 22.65% 100% שכיחות f Frequency משתנה- שביעות רצון 12 28 72 59 50 n = 221 נמוכה מאד נמוכה בינונית גבוהה גבוהה מאד Total דיאגרמת מקלות 35.00% 32.57% 30.00% 26.70% 25.00% 22.65% 20.00% שביעות רצון 15.00% 12.66% 10.00% 5.42% 5.00% 0.00% גבוהה מאד גבוהה בינונית נמוכה נמוכה מאד ניתן לחבר את קצוות המקלות בקו מרוסק על מנת לקבל התרשמות מהמהלך הכללי של התופעה /המשתנה( .רלבנטי עבור משתנה סודר ולא עבור משתנה שמי) ניתן להשוות בין 2התפלגויות באמצעות הצבת העומדות זו לצד זו. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 6 עבור משתנה כמותי בדיד העמודות שנציג בטבלת השכיחות תהיינה זהות כמו כן גם דרך הצגת הנתונים הגרפיים( .ערכי המשתנה יהיו מספריים כמובן). טבלת שכיחות א צומה תחפשמב םידלי 'סמ CHI LDR EN Cumulativ e Percent 5.8 40.8 78.6 94.2 98.1 100.0 Valid Percent 5.8 35.0 37.9 15.5 3.9 1.9 100.0 Percent 5.8 34.6 37.5 15.4 3.8 1.9 99.0 1.0 100.0 Frequency 6 36 39 16 4 2 103 1 104 Valid 1.00 2.00 3.00 4.00 5.00 6.00 Total Sy stem Missing Total דיאגרמת מקלות מס' ילדים במ ש פחת המוצא 50 40 39 36 30 20 16 6 4 6.00 5.00 0 4.00 3.00 2.00 1.00 מס' ילדים במשפחת המוצ א כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי Frequency 10 סטטיסטיקה 1 לימודיה | 2015 עמוד | 7 משתנה כמותי רציף- י רטמוכיספ ןויצ PSYCH Cumulativ e Percent 1.0 2.9 3.9 4.9 5.8 7.8 8.7 9.7 10.7 12.6 13.6 16.5 18.4 20.4 22.3 23.3 27.2 29.1 31.1 34.0 35.9 37.9 39.8 41.7 45.6 46.6 49.5 51.5 52.4 53.4 54.4 55.3 56.3 57.3 61.2 62.1 64.1 66.0 67.0 68.0 70.9 71.8 72.8 73.8 75.7 77.7 79.6 81.6 82.5 83.5 85.4 87.4 88.3 90.3 91.3 92.2 93.2 94.2 95.1 97.1 98.1 99.0 100.0 כל הזכויות שמורות © Valid Percent 1.0 1.9 1.0 1.0 1.0 1.9 1.0 1.0 1.0 1.9 1.0 2.9 1.9 1.9 1.9 1.0 3.9 1.9 1.9 2.9 1.9 1.9 1.9 1.9 3.9 1.0 2.9 1.9 1.0 1.0 1.0 1.0 1.0 1.0 3.9 1.0 1.9 1.9 1.0 1.0 2.9 1.0 1.0 1.0 1.9 1.9 1.9 1.9 1.0 1.0 1.9 1.9 1.0 1.9 1.0 1.0 1.0 1.0 1.0 1.9 1.0 1.0 1.0 100.0 Percent 1.0 1.9 1.0 1.0 1.0 1.9 1.0 1.0 1.0 1.9 1.0 2.9 1.9 1.9 1.9 1.0 3.8 1.9 1.9 2.9 1.9 1.9 1.9 1.9 3.8 1.0 2.9 1.9 1.0 1.0 1.0 1.0 1.0 1.0 3.8 1.0 1.9 1.9 1.0 1.0 2.9 1.0 1.0 1.0 1.9 1.9 1.9 1.9 1.0 1.0 1.9 1.9 1.0 1.9 1.0 1.0 1.0 1.0 1.0 1.9 1.0 1.0 1.0 99.0 1.0 100.0 Frequency 1 2 1 1 1 2 1 1 1 2 1 3 2 2 2 1 4 2 2 3 2 2 2 2 4 1 3 2 1 1 1 1 1 1 4 1 2 2 1 1 3 1 1 1 2 2 2 2 1 1 2 2 1 2 1 1 1 1 1 2 1 1 1 103 1 104 542 543 544 546 547 552 553 554 559 560 563 564 565 566 568 569 571 572 576 578 581 582 583 584 586 587 588 591 592 593 596 598 599 601 604 605 608 609 613 614 616 617 620 621 622 626 629 632 634 636 637 641 647 650 651 658 663 673 674 678 689 703 710 Total System Valid Missing Total שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 8 משתנה כמותי רציף- נתאר ע"י טבלת שכיחויות עם קטגוריות /מחלקות והיסטוגרמה. במשתנה רציף ,או משתנה בדיד עם הרבה מאד ערכים ,לא ניתן לארגן את הנתונים לתוך טבלת שכיחויות רגילה מכיוון שלמרבית הערכים יש מספר תצפיות נמוך .לכן נהוג לקבץ אותם למחלקות /קטגוריות. מבחינה סטטיסטית נעדיף לקבץ למחלקות שוות רוחב על מנת לשמור על צורת ההתפלגות של הנתונים הגולמיים .עם זאת ,ניתן לקבץ את הנתונים למחלקות שאינן שוות רוחב. טבלת שכיחויות לפי קיבוץ לקטגוריות ת וירוגטקל ץבוקמ ירטמוכיספ ןויצ PSYCH_1 Cumulat iv e Percent 10.7 34.0 56.3 71.8 85.4 92.2 97.1 98.1 100.0 Percent 10.6 23.1 22.1 15.4 13.5 6.7 4.8 1.0 1.9 99.0 1.0 100.0 Valid Percent 10.7 23.3 22.3 15.5 13.6 6.8 4.9 1.0 1.9 100.0 Frequency 550 11 570 24 590 23 610 16 630 14 650 7 670 5 690 1 710 2 103 1 104 עצמא תדוקנ PSYCH_1 ץבוקמ ירטמוכיספ ןויצ לקט גוריות Valid 540-560 560-580 580-600 600-620 620-640 640-660 660-680 680-700 700-720 Total Missing Sy stem Total היסטוגרמה ציון פסי כומטרי מקוב ץ לקטגוריות 25 24 23 20 16 15 14 11 10 7 5 2 640-620 660-640 680-660 700-680 720-700 כל הזכויות שמורות © 0 620-600 Frequency 5 560-540 580-560 600-580 שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 עמוד | 9 לימודיה | 2015 נקודת אמצע -אמצע הטווח של המחלקה /הקטגוריה .משמש לחישוב מדדים. היסטוגרמה -דיאגרמה להצגת משתנה כמותי רציף .זו דיאגרמה בה על ציר ה X -מצויים ערכי המשתנה ומעל לכל מחלקה משורטט מלבן ששטחו מייצג את השכיחות של המחלקה. מחלקות שוות רוחב -שכיחות /שכיחות יחסית בציר ה. Y - מחלקות שאינן שוות רוחב -יש לחשב את הצפיפות של כל מחלקה ולהציגה ע"ג ציר ה Y -בהיסטוגרמה. צפיפות( -שכיחות חלקי רוחב המחלקה) – ) density ( d =f/Lהיחס שבין שכיחות המחלקה לטווח שלה .מתקבל ערך שמייצג את מס' התצפיות /הנבדקים עבור יחידת מדידה /משתנה באותה מחלקה. פוליגון -מצולע שכיחויות המחבר את נקודת האמצע בגובה המלבנים וממנו ניתן ללמוד על צורת ההתפלגות של המשתנה. שלבים לפני בניית טבלת השכיחויות במחלקות : קביעת טווח הערכים Range Xmax−Xmin קביעת מספר המחלקות (הקטגוריות) קביעת רוחב כל קטגוריה = Lמספר המחלקות Range / תנאים הכרחיים : על הקטגוריות להיות ממצות -לכל ערך אפשרי יהיה מקום בקטגוריה כלשהי. על הקטגוריות להיות מוציאות -לכל ערך אפשרי יהיה מקום בקטגוריה אחת בלבד. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 10 הדגמה של בניית היסטוגרמה עבור קטגוריות שאינן שוות רוחב צפיפות d f/L שכיחות/רוחב המחלקה 6/2 = 2 8/10 = 0.8 16/31 = 0.52 שכיחות יחסית f % Percent שכיחות f Frequency רוחב המחלקה L נקודת אמצע X 20% 26.67% 53.33% 100% 6 8 16 n = 30 3 10 31 22.5 29 49.5 משתנה- גיל 21-24 24-34 34-65 Total היסטוגרמה נכונה d 2.2 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 70 60 70 60 50 40 30 20 0 היסטוגרמה שגויה f 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 כל הזכויות שמורות © 50 40 30 20 0 שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 11 סיכום תיאור גרפי עפ"י סיווג משתנים איכותי שמי -עוגה /מקלות איכותי סודר -עוגה /מקלות (עדיפות למקלות) כמותי בדיד -עוגה /מקלות (עדיפות למקלות) כמותי רציף -היסטוגרמה oמחלקות שוות רוחב – שכיחות ע"ג ציר הY - oמחלקות שונות רוחב – צפיפות ע"ג ציר הY - שאלה חשובה -מה ההבדל העיקרי בין דיאגרמת מקלות להיסטוגרמה? שאלה מתוך בחינה שהתקיימה בתאריך28.01.13 - כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 12 צורות התפלגות של משתנים כמותיים רציפים סימטרית חד-שיאית קיים ריכוז של מקרים על ערכים בינוניים ,והצפיפות פוחתת בשני הכיוונים בצורה סימטרית ככל שמתרחקים לקצוות. Histogram 20 19 12 10 10 10 9 8 7 Frequency 6 4 3 2 2 2 2 2 0 29.00 28.75 28.50 28.25 28.00 27.75 27.50 27.25 27.00 26.75 26.50 26.25 26.00 25.75 25.50 25.25 25.00 ג יל הסט ודנט א-סימטרית ימנית /חיובית קיים ריכוז של מקרים על ערכים נמוכים של המשתנה וזנב ההתפלגות מתמשך לכיוון הערכים הגבוהים. Histogram 30 24 20 21 10 3 2 2 3 4 4 5 Frequency 9 9 5 2 2 0 9750 9250 9500 8250 8500 8750 9000 7000 7250 7500 7750 8000 6250 6500 6750 5250 5500 5750 6000 4250 4500 4750 5000 4000 משכ ורת כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 13 א-סימטרית שמאלית /שלילית קיים ריכוז של מקרים על ערכים גבוהים של המשתנה וזנב ההתפלגות מתמשך לכיוון הערכים הנמוכים. Histogram 30 23 20 18 13 11 12 10 10 3 2 Frequency 3 2 0 99.0 100.0 98.0 97.0 96.0 95.0 94.0 93.0 92.0 91.0 90.0 89.0 88.0 87.0 86.0 ממ וצע צ י ונ י הבגר ות התפלגות אחידה קיימת צפיפות שווה על כל ערכי המשתנה .זו התפלגות סימטרית בה התחלקות המקרים אחידה על כל ערכי המשתנה. Histogram 14 12 12 12 11 11 10 10 9 10 10 9 10 8 6 4 0 99 95 90 86 82 78 74 69 65 Frequency 2 61 ממ וצע צ י ונ ים במקצ וע ות ה ומנ יי ם כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 14 התפלגות דו-שיאית סימטרית ((U קיימים שני ריכוזים של מקרים בשני קצוות ההתפלגות.ריכוז על ערכים גבוהים של המשתנה וריכוז על ערכים נמוכים שלו .במרכז ההתפלגות הצפיפות מועטה. Histogram 50 40 30 20 Frequency 10 0 מדדים: מדד – ערך או מספר שמסכם ומבליט תופעה או תכונה מסוימת בנתונים. מדדי מיקום מרכזי -מדדים המלמדים אותנו על הנטייה של הרוב /המרכז. סביב ערכים אלו יתרכזו מרבית הנתונים. מדדי פיזור – מדדים שמתארים את גודל ההבדלים בין הנתונים לעצמם ,או בין ערך מרכזי מסוים לבין הכלל( .מודדים את הטרוגניות התצפיות במדגם) מדדים למיקום יחסי – מתארים מיקום יחסי של פרט מסוים לעומת אחרים בהתפלגות. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 15 מדדי מיקום מרכזי /מדדי מרכז מדדים המתארים באמצעות ערך אחד את כל קבוצת הנתונים. שכיח MO = )MODE( : ערך בהתפלגות שתדירות הופעתו היא הגבוהה ביותר. תכונות השכיח : קל לאיתור. אפשר לחשב אותו בכל סולמות המדידה. השכיח לא מושפע מערכים קיצוניים. ישנם התפלגויות שאין לנו שכיח (אחידה). ישנם התפלגויות שיש בהם מספר שיאים. מתי נשתמש :כאשר הוא מספיק בולט (דומיננטיות) היחיד ממדדי המרכז שניתן לחשב בסולם שמי. במקרה של משתנה רציף עם מחלקות רוחב שאינן שוות -השכיח הינו בעלת הצפיפות הגבוהה ביותר ,במקרה שהמחלקות שוות – זוהי המחלקה (הקטגוריה) בעלת השכיחות /השכיחות היחסית הגבוהה ביותר. חציון )ME( = )MD( = )MEDIAN( : הערך שעד אליו ומעליו (לא כולל אותו) יש אותה כמות תצפיות .הערך האמצעי של סדרת תצפיות המסודרות בסדר עולה של ערכים (מהנמוך לגבוה). הערך של המשתנה שבו נמצא 50%שכיחות יחסית מצטברת. סדרת תצפיות אי זוגית סדרת תצפיות זוגית שימוש בפלטים /עפ"י שכיחות יחסית מצטברת תכונות החציון : ניתן לחישוב רק על סולם סודר ומעלה החציון נמצא במרכז ההתפלגות (התצפיות) ולא במרכז הערכים. החציון מושפע מסדר הערכים ולא מהערכים עצמם. לא מושפע מערכים קיצונים. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 16 ממוצע ) X ( = )MEAN / AVERAGE( : סכום כל הערכים של המשתנה חלקי מס' התצפיות. c * fi i X n i 1 n i X i 1 n X X 1 X 2 X 3 ...... X n X n תכונות הממוצע : ניתן לחישוב על משתנים כמותיים בלבד. לעיתים אינו ערך הקיים בנתונים מחושב על כל התצפיות ולכן מושפע מערכים קיצוניים. חשוב -הגדרה נוספת לממוצע -זהו הערך שסכום הסטיות ממנו שווה ל.0- ממוצע משוקלל :ממוצע הממוצעים = ( ) X חישוב ממוצע כללי על סמך מס' ממוצעי קבוצות : c * ni i X i 1 c n i כל הזכויות שמורות © X i 1 שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 17 צורות התפלגות והשוואת המדדים : התפלגות סימטרית- mo me X א-סימטרית ימנית- 7200 mo > me > X ממוצע מעט שכיח ימינה א-סימטרית שמאלית- mo התפלגות אחידה /מלבנית? כל הזכויות שמורות © > me X התפלגות סימטרית דו -שיאית? שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 עמוד | 18 לימודיה | 2015 השפעת הוספה /גריעת /שינוי ערכים על המדדים : הוספת תצפית בערכו של המדד (ממוצע ,חציון ,שכיח) לא יביא עמו כל שינוי במדד עצמו. הוספה או החסרה של תצפית בודדת בצד אחד בלבד של ההתפלגות עשויה להשפיע על החציון (מושפע מסדר הנתונים במדגם) ועל הממוצע (מושפע מערכים קיצוניים) .לפיכך -צורת ההתפלגות עשויה להשתנות. הוספת תצפיות במרחקים זהים לפני ואחרי המדדים אינה תשפיע עליהם. הוספה של תצפית בעלת ערך קיצוני תשפיע על הממוצע ותמשוך אותו לכיוונה העוצמה תלויה בקיצוניות הערך ובכמות הנבדקים במדגם (.(n כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 19 מדדי פיזור מדדים שמאפיינים את מידת הפיזור של קבוצת נתונים. ככל שערך המדד גדול יותר -הקבוצה מגוונת (הטרוגנית) יותר (פיזור גדול). ככל שערך המדד נמוך יותר -הקבוצה אחידה (הומוגנית) יותר (פיזור קטן). Range Xmax −Xmin תחום (- )Range ההפרש בין הערך המקסימלי בנתונים לערך המינימלי. רגיש לערכים קיצוניים. תחום בין-רבעוני (תב"ר) (– )IRQ IRQ = 3Q - 1Q טווח הערכים של המשתנה בו נמצאות 50%מהתצפיות שבמרכז ההתפלגות מסביב לחציון. מתעלם מהקצוות (ערכים קיצוניים). לצורך חישוב התב"ר יש לחשב את הרבעון הראשון והשלישי של ההתפלגות : – Q1הרביע (הרבעון) הראשון :הערך שעד אליו 25%מההתפלגות ומעליו 75%מההתפלגות. – 3Qהרביע (הרבעון) השלישי :הערך שעד אליו 75%מההתפלגות ומעליו 25%מההתפלגות. התב"ר הוא ההפרש בערך מוחלט בין הרביע השלישי לראשון. שונות וסטיית תקן- מדדי פיזור המחושבים על סמך סטיית התצפיות מממוצע הנתונים. nX 2 n 2 i X n 1 i 1 n ( X i X )2 i 1 n 1 c ( xi X ) 2 * f i i 1 n 1 Sˆ Sˆ 2 שונות – ממוצע ריבועי הסטיות מהממוצע. סטיית תקן – (שורש חיובי של השונות) -מדד המבטא את הפיזור ביחידות של המשתנה ונותן הערכה ל"סטייה הממוצעת" של התצפיות מממוצע הסדרה. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 20 מדדי מיקום יחסי מדדים שמצביעים על המיקום היחסי של תצפית /פרט /ערך מסוים בהתפלגות הנתונים. מאון /אחוזון (Xp – )Percentile הערך שעד אליו נמצאים Pאחוזים מההתפלגות (הערכים מסודרים בסדר עולה- מהנמוך לגבוה) ומעליו . 100 - P% ניתן לאתר אותו באמצעות השכיחות היחסית המצטברת. סיכום ושאלות חשיבה מהו הרבעון השני? האם ייתכן שהתחום ( )Rangeשונה מ 0 -בעוד התב"ר שווה ל? 0 - מהו המאון ה? 75 - מהו הרבעון התחתון? האם תיתכן סטיית תקן שלילית? האם תיתכן שונות שווה ל? 0 - האם סכום הסטיות מהממוצע שווה ל? 0 - בהתפלגות התקבל ממוצע שנמצא במאון ה .60-מהי צורת ההתפלגות? שמונה אנשים נבחנו במבחן שניתן לקבל בו ציון 7 ,6או .8 אם ידוע שממוצע הציונים , 8אזי סטיית התקן של הציונים היא: א0 . , ב1/2 . , ג2 . , ד4 . ה .בשאלה אין מספיק אינפורמציה על מנת לחשב את סטיית התקן. ו .אף לא אחת מבין התשובות א'-ה' נכונה. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 עמוד | 21 לימודיה | 2015 שאלה מבחינה שהתקיימה בתאריך28.08.12 - כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 22 טרנספורמציה לינארית לנתונים והשפעתה על המדדים שינוי לינארי (הוספה ,החסרה ,כפל וחילוק בקבוע) שעורכים לסדרת הנתונים כולה (ערכי המשתנה). כך יוצרים למעשה משתנה חדש לפי פונקציה לינארית X'= a+b*X אז מה קורה למדדים שלנו? מדדי מרכז -מושפעים גם מהוספה /החסרה וגם מכפל /חילוק. '= a+b* X X Me'= a+b*Me Mo'= a+b*Mo מדדי פיזור -מושפעים רק מקבוע המכפלה ( – )bכפל וחילוק. RANGE'= |b|*RANGE IQR'= |b|*IQR 2 ˆ'= b²* S Sˆ 2 ˆ'= |b|* S ˆS * חשוב לוודא שהטרנספורמציה לינארית ובוצעה על כל הנתונים. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 עמוד | 23 לימודיה | 2015 שאלה מבחינה שהתקיימה בתאריך23.02.14 - כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 עמוד | 24 לימודיה | 2015 קשרים בין משתנים כאשר שינוי בערכים של משתנה אחד גורר עמו שינוי בערכי המשתנה השני. הגדרות חשובות: משתנה בלתי תלוי :המשתנה המשפיע ,המנבא או המסביר את המשתנה האחר. משתנה תלוי :המשתנה המושפע ,המנובא או המוסבר על ידי המשתנה הבלתי תלוי. כיצד נאבחן את המשתנה הב"ת והתלוי? ).1היגיון בריא ).2הקדימות הכרונולוגית ).3ניסוח השאלה האופן שבו נבדוק קשר בין משתנים תלוי בסוגם: ).1קשר בין משתנה איכותי למשתנה כמותי. הבדיקה תעשה באמצעות השוואת צורת ההתפלגות ,מדדי מרכז ופיזור של המשתנה הכמותי בכל ערך (קטגוריה) של המשתנה האיכותי. ).2קשר בין שני משתנים כמותיים. בדיקה באמצעות דיאגרמת פיזור ,בהתאם לצורת הקשר המתקבלת נשתמש במקדם המתאם הקווי (הלינארי) ובמשוואת הקו הישר (משוואת הניבוי). ).3קשר בין משתנה איכותי לבין משתנה איכותי. הבדיקה תעשה באמצעות ניתוח טבלאות. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 לימודיה | 2015 עמוד | 25 קשר בין שני משתנים כמותיים דיאגרמת פיזור- מאפשרת התרשמות ראשונית על דפוס הקשר ,כיוונו ועוצמתו. לרוב על ציר ה X -יופיע המשתנה הב"ת תלוי ועל ציר ה Y -יופיע המשתנה התלוי. השונות המשותפת - COV(X,Y) COVARIANCE השונות המשותפת מתארת בו זמנית את ההשתנות של המשתנים ()Y,X ) X ) ( yi y n i (X i 1 )(n 1 COV ( X , y ) אם בין שני המשתנים קיים יחס ישר (חיובי) ,כלומר Yעולה כאשר Xעולה - השונות המשותפת תקבל ערך חיובי. אם בין שני המשתנים קיים יחס הפוך (שלילי) ,כלומר Yקטן כאשר Xעולה - השונות המשותפת תקבל ערך שלילי. ניתן ללמוד ממנה רק על כיוון הקשר ,לא על עוצמתו -לשם כך נשתמש במקדם המתאם של פירסון. מקדם המתאם של פירסון ()r מקדם המתאם הינו מדד מתוקנן לכיוון ועוצמת הקשר הקווי (הלינארי). )Y ) COV ( X , Y Sˆ X * SˆY n (x X ) *( y i i (n 1) * Sˆ X * SˆY i 1 rP מקדם המתאם הקווי הינו מדד סימטרי ויכול לנוע בין -1ל.1- / -1 +1 קשר חיובי מושלם קשר שלילי מושלם = 0העדר/חוסר קשר קווי חזק +0.3 +0.7 1 חלש בינוני -0.3 בינוני -0.7 חזק -1 חלש 0 ככל שקרוב יותר ל 1-הקשר חזק יותר (או ל )-1-לחילופין. כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי 2015 | לימודיה 26 | עמוד 1 סטטיסטיקה קשר בין שני משתנים כמותיים מתאמים בעוצמות שונות וכיצד זה מתבטא בדיאגרמת הפיזור קשר חיובי חזק.א 14 Correlations 12 X X 10 Y3 Pearson Correlation N Pearson Correlation N 1 109 .979 109 Y3 .979 109 1 109 8 Y3 6 2 4 6 8 10 12 14 16 18 X קשר חיובי בינוני.ב Correlations 25 X X 20 Y4 15 Pearson Correlation N Pearson Correlation N 1 109 .518 109 Y4 .518 109 1 109 10 Y4 5 0 2 4 6 8 10 12 14 16 18 X קשר חיובי חלש.ג 30 Correlations 20 X X 10 Y5 Y5 0 Pearson Correlation N Pearson Correlation N 1 109 .122 109 Y5 .122 109 1 109 -10 2 4 6 8 10 12 14 16 18 X שמיל זילברשטיין | שלומי מזרחי © כל הזכויות שמורות 2015 | לימודיה 27 | עמוד 1 סטטיסטיקה ) קשר שאינו ליניארי (פרבולי.ד 80 60 40 Correlations X 20 X 0 Y6 Y6 -20 2 4 6 8 10 12 14 16 18 Pearson Correlation N Pearson Correlation N Y6 -.043 120 1 120 1 120 -.043 120 X חוסר קשר.ה 18 16 14 12 Correlations 10 X 8 X 6 Y Y 4 2 2 4 6 8 10 12 14 16 Pearson Correlation N Pearson Correlation N 1 120 .000 120 Y .000 120 1 120 18 X שמיל זילברשטיין | שלומי מזרחי © כל הזכויות שמורות סטטיסטיקה 1 לימודיה | 2015 עמוד | 28 רגרסיה – מציאת משוואת הקו הישר (קו הניבוי /רגרסיה) לחיזוי Yעל סמך X קיום קשר לינארי בין שני משתנים מאפשר מציאת משוואת ניבוי לתיאור תחזית מהמשתנה הב"ת למשתנה התלוי. Yˆ a b * X i SˆY * b rP Sˆ X ) a Y (b * X השיפוע ( - )bמשמעות השיפוע היא בכמה יחידות ישתנה Yלכל שינוי של יחידה אחת ב.X - החותך (הקבוע) ( – )aמשמעותו היא ערכו של Yכאשר X=0 המונה של השונות -סכום הריבועים (- Sum Of Squares ) SSY / SSX n n i 1 i 1 SSX ( xi X ) * ( xi X ) ( xi X ) 2 המונה של השונות המשותפת- Cross Products – ) CP( - n ) ( xi X ) * ( yi Y i 1 כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי 2015 | לימודיה 29 | עמוד 1 סטטיסטיקה קשר בין ציוני הבגרות לציוני התואר הראשון:1 דוגמא דיאגרמת פיזור 100 ממוצע ציוני תואר ראשון 90 80 70 60 84 86 88 90 92 94 96 98 100 ממו צע ציוני הב גרות Correlations מתאם ליניארי Descriptive Statisti cs Mean Std. Dev iation N BAGRUT ינויצ עצוממ הבג רות 96.4091 2.66274 103 BA ןושאר ראות ינויצ עצוממ 82.9374 4.46616 103 Correlationsa BAGRUT ינויצ עצוממ הבגרות Pearson Correlation Sum of Squares and Cross-products BAGRUT ממוצע ציוני הבגרות 1 723.199 Cov ariance Pearson Correlation Sum of Squares and Cross-products BA ןושאר ראות ינויצ עצוממ BA ינויצ עצוממ תואר ראשון .833** 1011.037 7.090 .833** Cov ariance 9.912 1 1011.037 2034.547 9.912 19.947 **. Correlation is signif icant at the 0.01 lev el (2-tailed). a. Listwise N=103 Coefficientsa Model 1 (Constant) BAGRUT עצוממ ציוני הבגרות Unstandardized Coef f icients B -51.843 Standardized Coef f icients Beta 1.398 a. Depend ent Variable: BA ןושאר ראות ינויצ עצוממ שמיל זילברשטיין | שלומי מזרחי .833 משוואת הישר © כל הזכויות שמורות 2015 | לימודיה 30 | עמוד 1 סטטיסטיקה קשר בין גיל הסטודנט למצב החשבון בבנק:2 דוגמא דיאגרמת פיזור 6000 4000 2000 0 מצב הע ו" ש בבנק -2000 -4000 -6000 -8000 24 25 26 27 28 29 30 ג יל הסט ודנט Correlations מתאם ליניארי Descriptive Statistics AGE טנדוטסה ליג OVD קנבב ש" ועה בצמ Mean 27.0216 -328.5773 Std. Dev iat ion .82403 2616.11551 N 103 103 Correlationsa AGE טנדוטסה ליג OVD קנבב ש" ועה בצמ Pearson Correlation Sum of Squares and Cross-product s AGE ליג הסטודנט 1 69.261 OVD בצמ העו"ש בבנק -.343** -75499.453 Cov ariance Pearson Correlation Sum of Squares and Cross-product s -75499.5 6.98E+08 Cov ariance -740.191 6844060. 3 .679 -.343** -740.191 1 **. Correlation is signif icant at the 0.01 lev el (2-t ailed). a. Listwise N=103 Coefficientsa Model 1 (Constant) AGE טנדוטסה ליג Unstandardized Coef f icients B 29126.822 -1090.070 a. Depend ent Variable: OVD קנבב ש" ועה בצמ שמיל זילברשטיין | שלומי מזרחי Standardized Coef f icients Beta -.343 משוואת הישר © כל הזכויות שמורות סטטיסטיקה 1 עמוד | 31 לימודיה | 2015 שאלה מבחינה שהתקיימה בתאריך28.08.12 - כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי סטטיסטיקה 1 עמוד | 32 לימודיה | 2015 שאלה מתוך בחינה שהתקיימה בתאריך28.01.13 - כל הזכויות שמורות © שמיל זילברשטיין | שלומי מזרחי
© Copyright 2024