7 - ענפי הסטטיסטיקה ... ישנן שיטות סטטיסטיות שיכולות לסייע לנו לתאר מק ץ נתונים הענף סטטיסטיקה המוקדש לאר ון סיכום ותיאור . מק ץ נתונים נקרא הענף סטטיסטיקה העוסק שימוש נתוני מד ם . כדי להסיק על האוכלוסייה נקרא שאלה 9נניח והיו לנו נתונים על כל יחידות הניסוי ש אוכלוסייה איזה ענף של הסטטיסטיקה נוכל להסתפק מטרות הסטטיסטיקה הינן9 לתאר נתונים להשתמש נתוני מד ם כדי להסיק על האוכלוסייה נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 78 -7 סטטיסטיקה תיאורית סידור והצ ת נתונים ט לת התפל ות שכיחויות: תיאור רפי של הנתונים: חישו מדדים שיתנו אינפורמציה על הנתונים9 מדדי מרכז מדדי פיזור המטרה של תיאור נתונים היא לסכם את המאפיינים של אוסף נתונים אנחנו רוצים להפוך את הנתונים ל רורים יותר ול עלי משמעות סטטיסטיקה תיאורית – ט לאות שכיחות אופן ההצ ה הט לתית תלוי אופי המשתנים אותם רוצים לתאר -איכותני או כמותי דיד או רציף נפריד לשני אופנים של הצ ה אמצעות ט לה ע ור9 : נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 77 -7 נתונים דידים – ט לאות שכיחות כאשר יש מעט נתונים ולמיים אין צורך לאר ן אותם ט לת השכיחות יש רק תצפיות המתארות את יל 7 הנ דקים9 לעומת זאת כאשר יש מספר ר של תצפיות וישנן חזרות על אותם ערכים מאוד נוח לאר ן את הנתונים ט לת שכיחות נתונים דידים – ט לאות שכיחות כדי ל נות ט לת שכיחות נ צע את השל ים ה אים9 מידה והמשתנה הוא איכותני -נמיין את הנתונים הק וצות : ל מידה והמשתנה הוא כמותי -נרשום את הנתונים לפי סדר עולה כאשר כל ערך מהווה ק וצה נספור ונמצא כמה תצפיות יש מכל ערך של משתנה כך אנו מוצאים את השכיחות של כל ערך נמצא את השכיחות היחסית נחש את השכיחות המצט רת נחש את השכיחות המצט רת היחסית נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 78 -7 נתונים דידים – ט לאות שכיחות מחלקה היא אחת מהקט וריות אליהן ניתן לסוו נתונים איכותניים השכיחות של מחלקה מסויימת היא מספר התצפיות המשתייכות אליה שכיחות יחסית ע ור מחלקה מסוימת אחוז התצפיות המשויכות למחלקה המחוש מתוך סה"כ מספר התצפיות שכיחות מצט רת ע ור מחלקה מסוימת סכום השכיחויות המצט ר עד למחלקה זו כולל שכיחות מצט רת יחסית ע ור מחלקה מסוימת האחוז שמהווה השכיחות המצט רת של המחלקה המחוש מתוך סה"כ מספר התצפיות נתונים דידים – ט לאות שכיחות אם נסתכל על המשתנה "מין" משתנה דיד איכותני כפי שהוא מופיע נתוני המד ם של סקר מסוים נתונים חלקיים – לצורך תר ול והמחשה נק ל את ט לת השכיחות ה אה9 8 נשים 9 רים 99 סה"כ 8 99 1 נערך ע"י 9רוחמה אלעד-ירום . סטטיסטיקה למשפטנים 89 -7 ך – ' ז ז 12 20 20 20 12 10 10 16 10 14 9 12 15 14 12 12 14 9 14 7 14 9 12 9 13 12 11 12 19 18 14 16 61 32 35 26 25 59 46 . 57 64 72 67 33 33 59 60 77 52 55 37 45 34 35 35 47 24 28 57 44 75 58 2 1 1 0 0 5 3 4 3 2 0 5 0 1 1 2 1 2 2 1 1 0 0 3 1 0 3 0 2 2 1 3 1 2 2 2 4 7 7 7 7 1 6 2 1 2 7 6 4 6 12 5 2 7 4 7 6 7 4 5 1 1 7 0 1 1 2 1 1 2 1 1 2 2 2 2 3 2 2 1 2 1 2 1 1 2 1 . 2 2 1 2 2 2 2 1 2 2 2 1 2 1 2 1 1 2 3 3 2 3 3 2 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 1 1 1 1 3 1 1 1 1 2 2 2 3 2 2 2 2 2 2 1 3 1 1 2 2 1 2 2 1 1 2 2 2 1 2 1 1 2 2 1 1 2 1 2 2 2 2 2 1 2 2 1 1 2 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 אישה ר מין אחר אפרו-אמריקאי ל ן מוצא מער דרום מזרח צפון מזרח איזור יאו רפי לא מאושר די מאושר מאוד מאושר מידת אושר נמוכה ינונית והה מידת עניין חיים הערה 9סימון נקודה " " מקום ערך מצ יע על כך שהערך הוא לא ידוע ולכן חסר נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 8 -7 נתונים דידים – ט לאות שכיחות אם נסתכל על המשתנה "מספר ילדים" משתנה דיד כמותי נק ל את ט לת השכיחות ה אה9 9 7 25% 8 25% 8 8 28.1% 21.9% 17 24 53.1% 75% 15.6% 29 90.6% 3.1% 30 93.7% 6.3% 100% 32 100% סה"כ 2 . נשים -המשתנה מספר ילדים הוא כמותי – לכן הערכים ט לת השכיחות מסודרים סדר עולה נתונים כמותיים רציפים -ט לאות שכיחות כאשר המשתנה הוא כמותי דיד ויש לנו הר ה תצפיות והר ה ערכים או כאשר המשתנה רציף אזי לשם הצ ת התפל ותו נ נה ט לת שכיחות מתומצתת אופן הע ודה9 נק ע את אופן החלוקה למחלקות לק וצות ונק ץ אוסף של ערכים אפשריים למחלקה אופן כזה שאנו יוצרים כלומר כל תצפית משוייכת למחלקה ז כלומר לא יהיה מצ אחת ל ד ו חלק מהתצפיות לא יופיעו מחלקה כלשהי מע ר לכך צריך לק וע מספר מחלקות אופן שלא נ יע למצ של "קי וץ ייתר" ו יהיו לנו מעט מחלקות א ל נא ד מידע נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 8 -7 נתונים כמותיים רציפים -ט לאות שכיחות למשל המשתנה יל מק ל הר ה ערכים ט לה מתומצתת אפשרית היא9 4 . הערה 9ככל שנק ץ יותר נתונים כל מחלקה נק ל תמונה פשוטה יותר שלהם אך מפורטת פחות למשל – . 5 לא ניתן לדעת כמה הם ני מתוך ט לה 7למשל אין טעם להצי כך את התפל ות המשי ים לפי ק וצות יל קי וץ הייתר מעוות את תמונת הנתוניםט לה זו חילקנו את הנתונים לק וצות דולות מידי כך שאי דנו את מר ית המידע נערך ע"י 9רוחמה אלעד-ירום וכמה ני סטטיסטיקה למשפטנים 8 -7 נתונים כמותיים רציפים -ט לאות שכיחות לסיכום 9צריכים למצוא סו של קי וץ ו לא יהיו לנו הר ה מאוד מחלקות כי אז נק ל ט לה דולה מאוד וקשה יהיה לנו ללמוד על ההתנה ות של המשתנה מצד שני שלא יהיה קי וץ ייתר ו יש מספר קטן מידי של מחלקות כי ם הוא לא מאפשר לנו ללמוד על המשתנה נתונים רציפים – ולות מחלקות לכל מחלקה יש ול עליון ו ול תחתון יש רווח ין כאשר מדו ר המחלקות כלומר ה ול העליון של מחלקה אחת עם ה ול התחתון של המחלקה שמעליה אין רווח ין כאשר מדו ר המחלקות כלומר ה ול העליון של מחלקה אחת עם ה ול התחתון של המחלקה שמעליה כדי לע ור מ ולות מדומים ל ולות אמיתיים נחלק את "הרווח" ש ין המחלקות לשניים -מחצית אחת נוספת למחלקה התחתונה ומחצית שנייה למחלקה העליונה נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 8 -7 נתונים רציפים – ולות מחלקות עולה שאלה נו ע ולות כאשר מדו ר לא שייך לאף לעיקרון של חלוקה ממצה -הרי מחלקה התשו ה היא שאין לנו מד ם ילאים שנתונים ש רי שנים אלא ה ילאים הם שנים שלמות לכן החלוקה היא ממצה עולה שאלה נו ע כאשר עו רים ל ולות לשמירת העיקרון של ק וצות זרות -הרי 8מופיע שתי מחלקות התשו ה היא שמראש נקודות החלוקה הערכים שמשותפים לשתי מחלקות הן לא ערכים שמופיעים מד ם פועל כך שעדיין הק וצות זרות זו לזו נתונים רציפים – מחלקות לעיתים מופיעות מחלקות פתוחות שהן עלות ול אחד ל ד למשל 88 9ומעלה או מחלקה תחתונה כמו 8ומטה משתמשים הן כשאין לנו מידע על הנתונים הקיצוניים והחרי ים יותר מד ם או כשהנתון ל יהם לא מעניין לדו מא 9ט לת מדידות זמני ריצה -יכול להיות שלא נהיה מעוניינים זמן הריצה המדויק של אלו שפי רו האחור זמן הריצה שלהם ארוך והמדידה של הזמן הופסקה של מסוים הממוצע ין ה ול העליון של המחלקה ל ול התחתון -לא משנה אם החישו נעשה לפי ולות מדומים או לפי ולות אמיתיים למשל 9נקודת האמצע של המחלקה 30-35היא (30+35)/2=32.5או שנוכל לחש זאת ם לפי ה ולות האמיתיים -(29.5+35.5)/2=32.5קי לנו את אותו ערך נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 8 -7 סטטיסטיקה תיאורית -רפים ההצ ה החזותית של ההתפל ות יכולה ללוות את ט לת השכיחויות ההצ ה ה ראפית מד ישה את התכונות המאפיינות את הנתונים וקל לה ין אותן ממנה נכיר סו ים של דיא ראמות9 דיא ראמת מ זרות ידועה ם שם "פאי" : דיא ראמת מקלות דיא ראמת עמודות: דיא ראמת עול-עלה: היסטו רם מצולע שכיחויות פולי ון פאי מתאים לתיאור התפל ות של משתנה איכותני: עמודות – להתפל ות של איכותני או כמותי דיד עם מעט ערכים :שני האחרונים – לרציף תיאור רפי של משתנה איכותני " " ו- שתי השיטות השכיחות יותר כדי לתאר משתנה איכותני שתיהן מראות כמה תצפיות משתייכות לכל אחת מהקט וריות האיכותניות דומה להצ ה אמצעות ט לה -המידע המסוכם שאנו מעוניינים ו ע ור משתנה איכותני הוא מספר התצפיות המשתייכות לכל מחלקה שכיחות או השיעור של המחלקה מתוך סה"כ התצפיות שכיחות יחסית נערך ע"י 9רוחמה אלעד-ירום הן סטטיסטיקה למשפטנים 8 -7 ייצו רפי להתפל ות משתנה דיד-פאי מאוד מאושר די מאושר לא מאושר 12.9% 32.26% 54.84% 1 ייצו . רפי להתפל ות משתנה דיד-פאי מסכמים את הנתונים ט לת שכיחות הכוללת את השכיחות היחסית ע ור כל מחלקה יוצרים מע ל ששטחו מציין את כל 99המקרים מחלקים את שטח המע ל ל זרות לפי מספר הקט וריות הק וצות של המשתנה – כאשר החלוקה היא לשטחים לפי השכיחות היחסית של התצפיות כל ק וצה התאם ה זרות נק עות לפי הזווית היחסית הס ר כיתה מתוך 9 נרשום ליד כל "פרוסה" "פאי" ע ור כל מ זרת את ערך הקט וריה נוכל ם להוסיף את השכיחות היחסית נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 88 -7 ייצו רפי להתפל ות משתנה דיד-עמודות " מתאימה לתיאור התפל ות " שכיחויות של משתנה איכותני או של משתנה כמותי דיד שאין לו הר ה ערכים נד ים אמצעות אותה ט לת שכיחות ע ור המשתנה "מידת אושר" את אותו המידע שהצ נו ע ור המשתנה "מידת אושר" נוכל להצי ם אמצעות דיא ראמת עמודות 20 15 Count 10 5 0 לא מאושר 2 ייצו די מאושר מאוד מאושר . רפי להתפל ות משתנה דיד-עמודות מסכמים את הנתונים ט לת שכיחות הכוללת את השכיחות היחסית ע ור כל מחלקה על הציר האופקי ציר ה x -נסמן את ערכי המשתנה ה דיד מרחקים שווים זה מזה אם הערכים איכותניים הסדר אינו משנה אם הם כמותיים מסדרים סדר עולה הציר האנכי ציר ה y -הוא ציר השכיחות או השכיחות היחסית מעל הערכים השונים המסומנים על הציר האופקי המחלקות משרטטים עמודות ו ה השכיחויות השכיחויות היחסיות התאמה ה ו ה של כל עמודה הוא פרופורציונאלי לשכיחות לשכיחות היחסית אופן זה נוח להשוות ין הק וצות אמצעות השוואה ויזואלית ע"פ ו הי העמודות המקושרות לקט וריות השונות אפשר ם להפוך את הצירים ציר ה x -יהיה ציר השכיחות וציר ה y -יהיה ציר הקט וריות נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 87 -7 ייצו רפי להתפל ות משתנה רציף הן שתי שיטות " ו- " לתיאור משתנים כמותיים דידים עם ערכים ר ים או רציפים דומה לדיא רמת ה"פאי" ודיא רמת ה"עמודות" - שתיהן מראות כמה תצפיות משתייכות לכל אחת מהמחלקות שכיחות או הפרופורציה של המחלקה מתוך סה"כ התצפיות שכיחות יחסית המחלקות לא מייצ ות קט וריות של משתנה איכותני אלא הן ק וצות של ערכים מספריים תחומי ערכים אינטרוולים של הנתונים אותם רוצים לתאר ע ור ודלי מד ם קטנים יחסית עד 9תצפיות אפשר " היסטו רם מתאים יותר ל נות דיא רמת " לתיאור של מד מים דולים והוא מאפשר מישות ר ה יותר ק יעת המחלקות רף למ"מ רציף -דיא רמת עול-עלה " " נסדר את הערכים לפי סדר עולה מהנמוך ל וה נק ע כיצד נ דיר את ה" עולים" המחלקות נרשום עמודה את ה" עולים" מהקטן ל דול או הפוך מצד ימין תרשים נמקם את ה"עלה" של כל תצפית ל" עול" המתאים כאשר הכנסת ה"עלים" לכל " עול" תעשה לפי סדר עולה של ה"עלים" עד שנמצה את כל התצפיות מד ם מיקום ה"עלים" נעשה ע"י רישום ספרת ספרות ה"עלים" מתוך הערך של התצפית נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 88 -7 רף למ"מ רציף -דיא רמת הדו מא שנראה כאן ע ור דיא רמת " עול-עלה" היא ע ור מד ם דול יחסית של 9תצפיות שרטוט הדיא רמה נעשה אמצעות תוכנה סטטיסטית להלן הציונים של 9סטודנטים קורס לסטטיסטיקה9 רף למ"מ רציף -דיא רמת עול-עלה עול-עלה נוח לק וע את ספרת העשרות נרשום כל " עול" ספרת העשרות ציון אפשר לק וע שני עולים על סמך כל ספרת עשרות לפי החלוקה ה אה לתחומים למשל 9ע ור המחלקות 8 -89 נרשום 8כ עול פעם אחת וע ור המחלקה 88-8 נרשום את 8כ עול פעם שנייה ע ור עול ה 8 -הראשון העלים יהיו ספרות האחדות 8- זאת כדי לייצ את המחלקה 8 -88 וע ור עול ה 8 -השני העלים יהיו ספרות האחדות -9 זאת כדי לייצ את המחלקה 89-8 עול נרשום את העלים התאם לציונים ליד כל שמשתייכים לכל מחלקה נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 99 -7 עול-עלה רף למ"מ רציף -דיא רמת . 3 רף למ"מ רציף -היסטו רם היסטו רם או היסטו רמה הוא תיאור רפי דומה לדיא רמת עמודות אך שונה מ חינה מהותית היסטו רם המחלקות מייצ ות אינטרוולים של נתונים כמותיים על ציר המספרים מחלקה מיוצ ת על-ידי אורך של קטע ושכיחותה מיוצ ת על-ידי שטח של מל ן הדו מאות הן נעסוק יהיו של מחלקות שוות רוח נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 9 -7 רף למ"מ רציף -היסטו רם לק וע את התחום של הערכים מספריים על ציר המספרים זאת נעשה אמצעות איתור התצפיות הנמוכה יותר וה והה יותר לק וע את רוח המחלקה רוח המחלקה תלוי מספר המחלקות ש ו אנו מעוניינים היסטו רם ו המחלקות הן שוות רוח רוח כל מחלקה יהיה המנה ין הטווח ל ין מספר המחלקות ש ו אנו מעוניינים הטווח הוא ההפרש ין הערך המקסימאלי ל ין הערך המינימאלי של המשתנה מד ם לרשום את ולות המחלקות כ ולות אמיתיים ולא מדומים נסוו את התצפיות למחלקות ונמנה כמה תצפיות יש כל מחלקה את כל השל ים הנ"ל ניתן לסכם ט לת שכיחות מקו צת רף למ"מ רציף -היסטו רם ולות אמיתיים לשרטט את ה רף נסמן את המחלקות על הציר האופקי ציר ה x -מעל לכל מחלקה נשרטט מל ן שיציין ו הו את השכיחות או השכיחות היחסית של כל מחלקה 25 20 15 10 5 Mean =68.68 Std. Dev. =14.085 N =120 0 100 4 נערך ע"י 9רוחמה אלעד-ירום 90 80 70 60 50 30 40 . סטטיסטיקה למשפטנים 9 -7 רף למ"מ רציף -היסטו רם ניתן לח ר את מרכזי הצלעות העליונות של המל נים היסטו רם אמצעות קו הקו הש ור המתק ל נקרא כאשר ונים את המצולע ממשיכים אותו מע ר לשתי נקודותיו הקיצוניות ומח רים אותו לציר האופקי טווח רווח של חצי ק וצה אחת מכל צד ככל שיש לנו מד ם דול יותר ויותר נוכל להקטין יותר ויותר את רוח י המחלקות אז נ נה היסטו רם שהוא מפורט יותר ויותר מצולעי השכיחויות שיתק לו ילכו ויתקר ו לקו חלק מסוים כלומר לעקומה רף למ"מ רציף -היסטו רם נוכל לה חין מספר סו י התפל ויות עקומות למשל9 ההתפל ות המסומנת a -נקראת התפל ות א-סימטרית שמאלית שלילית ההתפל ות המסומנת b -נקראת התפל ות א-סימטרית ימנית חיו ית ההתפל ות המסומנת c -נקראת התפל ות סימטרית נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 9 -7 רף למ"מ רציף -היסטו רם כלל אצ ע לק יעת מספר מחלקות ע ור ט לת שכיחות מקו צת או ע ור היסטו רם לפי מספר התצפיות9 נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 9 -7 ז, 7 .2 ז כאשר די רנו על ט לת התפל ות שכיחויות ועל דרכי הצ ה רפיות להתפל ות שכיחויות הראינו כיצד ניתן לאר ן את הנתונים של ים הראשון של העי וד ההצ ה ה רפית של הנתונים מאפשרת התרשמות כללית אך אינה מאפשרת ניתוח מ וסס של התופעה הנחקרת של ה א של לימוד הנתונים החוקר מעוניין להשי על השאלה שהצי לעצמו נושא השאלה יכול להיות 9מידת פיזור הנתונים מיקומם המרכזי קשר ין משתנים שונים ין מטרות המחקר הכמותי 9הסקת מסקנות ל י התופעה ו יטוי מסקנות אלה צורה כמותית ע"י מספר אחד או כמה מספרים שיאפיינו את התכונות של התופעה ויאפשרו השוואת תופעות שונות מאותו סו לשם הש ת מטרה זו נשתמש מדד הוא יטוי כמותי מספר המייצ תכונה מסויימת של הנתונים או מייצ קשר ין משתנים שונים המדדים העיקריים לאיפיון משתנים נחלקים לק וצות ה אות9 ז, ז כאשר מעוניינים שאלה – מה המיקום המרכזי של הנתונים אנו מעונינים למעשה מדדי מיקום מרכזי אנחנו רוצים לאפיין את המרכז של סדרת מספרים כלומר ס י איזה ערך הנתונים ממורכזים המספרים שממלאים תפקיד זה נקראים " ז" מספרים שמודדים את מידת הפיזור אוסף הנתונים נקראים " ז " מדדי מרכז ומדדי פיזור הם אינם המספרים היחידים אמצעותם ניתן לאפיין אוסף של נתונים לידיעה כללית -ישנם ם מדדים לסימטריות של ההתפל ות א-סימטריות לימין א- סימטריות לשמאל למרות שאנו לא נעסוק מדדי הסימטריות לידיעה אם התפל ות היא סימטרית או א-סימטרית יש חשי ות כאשר מתארים את ההתפל ות אמצעות מדדי המרכז ומדדי הפיזור נתמקד מדדי המרכז ו מדדי הפיזור אמצעותם נוכל לדמיין את צורתה של ההתפל ות אפילו אם לא נשרטט אותה אופן רפי פיזור נערך ע"י 9רוחמה אלעד-ירום מרכז סטטיסטיקה למשפטנים 9 -7 ז 7.2.1 כשאנו מעוניינים מרכז התפל ות מדו ר ערך שנמצא "מרכז" של ההתפל ות מספר יחיד שנוטה לזהות את הנתונים מדדי המרכז השונים שאותם נכיר מנפקים מספרים שונים ע ור אותם הנתונים ,א ל כולם יענו על המטרה שלנו נכיר מדדי מרכז שונים9 ממוצע חציון שכיח אופני החישו של מדדי מרכז אלו מותאמים לאופנים ש הם מוצ ות ההתפל ויות של הנתונים פירוט ערכי התצפיות או ט לת שכיחות מקו צת ם אם מדו ר אותו המשתנה אופני הצ ה שונים יו ילו לתוצאות שונות ע ור מדד מרכז מסויים מדד המרכז הנפוץ יותר הוא ה D30ה של מד ם ודל x1 , x 2 , x 3 ,..., x n 9nמסומן סימון xנקרא x n ומחוש x1 x 2 ... x n n אופן ה א9 i x i 1 n x ו מילים 9המנה ין סכום התצפיות ל ין מספר התצפיות הסתמך על נתוני סקר המ זר העסקי ארה" נתון 1235125 9 עמוד 97 -מצאו את ממוצע השכר הנוכחי n i x i 1 נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 9 -7 מדד מרכז אחר הוא ה D31ע ור נתוני משתנה מסוים ה הוא הערך של התצפית כך שמחצית מערכי התצפיות הם קטנים ממנו או שוות לו והמחצית האחרת היא מעליו ה של מד ם ודל x , x , x ,..., x n 9n 1 2 3מסומן סימון Md אם nהוא מספר אי-זו י 9החציון יתק ל ע"י איתור התצפית האמצעית כאשר הנתונים מסודרים לפי סדר עולה ערך התצפית שנמצאת מיקום ה (n+1)/2 -מסדר כלומר החציון הוא9 md x n 1 2 אם nהוא מספר זו י 9הממוצע ין שתי התצפיות האמצעיות כאשר הנתונים מסודרים לפי סדר עולה מיקומן של שתי התצפיות האמצעיות מסדר הם המיקום ה n/2 -והמיקום ה(n/2 + - כלומר החציון הוא9 x n x n 1 2 2 2 השטחים של המל נים המשמשים md ניית היסטו רם הם פרופורציונאליים למספרים של התצפיות המשתייכות לכל מחלקה מכאן נו ע שהחציון הוא הערך xשמחלק את שטח ההיסטו רם לשני חלקים שווים חצי מהשטח יהיה לשמאלו של החציון וחצי השני ימצא לימינו " " מצאו את החציון של אוסף נתונים הכולל את התצפיות ה אות1, 3, 4, 5, 6, 7 9 נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 98 -7 הסתמך על נתוני הסקר מ זר העסקי -מצאו את החציון של השכר הנוכחי ראו עמוד 97 מדד מרכז נוסף הוא ה D32ה ה הוא הערך xששכיחותו היא ה והה יותר הוא הערך שמופיע שכיחות הכי ט לת שכיחות הנתונה מחלקות -ה והה סימונו Mo הוא של ה חש ו את השכיח מתוך הנתונים על השכר מדו מת הסקר מ זר העסקי ארה" נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 97 -7 ז 3 / איכותני סו המשתנה ע ורו המדד מתאים לשימוש ר ישות המדד לערכים קיצוניים סדר סדר כמותי כמותי כמותי מעטה מעטה ר ה - 1 אופיו של המדד קו ע מתי ניתן להשתמש ו השכיח יעיל למשתנים איכותניים ומעלה לטענה ש"צ ע השיער שחור הוא השכיח אוכלוסייה" יש משמעות לעומת זאת לא נוכל להשתמש חציון ע ור המשתנה צ ע שיער מכיוון שהחציון מקושר לנתונים שיש ע ורם משמעות לסדר – החציון דורש קיום סדר כאשר מדו ר משתנים איכותניים אי אפשר לחש חציון כי "מעל" ו"מתחת" אינם מו דרים את הממוצע ניתן ליישם רק משתנים שהם כמותיים משום שערכם של הנתונים הוא זה שמשפיע עליו ע ור משתנים איכותניים הערכים הם שרירותיים - 2 נסקור את הדו מה ה אה9 מפעל מסוים ישנם9 מנהלים שמרוויחים $ 9 999לחודש כל אחד מועסקים שמרוויחים 999 $לחודש כל אחד מועסקים שמרוויחים 99 $לחודש כל אחד 7מועסקים שמרוויחים 99 $לחודש כל אחד עיתון אחד מדווח כי המשכורת מפעל זה נמוכה מאוד9 המשכורת השכיחה היא 99 :$ עיתון שני וחר להצי שכמחצית המועסקים מק לים פחות מ99 - עיתון שלישי מדווח כי השכר מפעל הוא 98 :$ $ממוצע דיווחים שונים אלה מלמדים על תכונת הר ישות לערכים קיצוניים של שלושת המדדים9 החציון והשכיח אינם ר ישים לערכים קיצוניים :הממוצע ר יש מאוד – משכורתיהם של שני המנהלים "הקפיצו" את הממוצע כלפי מעלה השכיח והחציון לעומת זאת כלל לא הושפעו מהמשכורת ה והה של המנהלים ם אם כל אחד מהמנהלים ירוויח 999 כלשהי והה יותר השכיח והחציון לא ישתנו א ל הממוצע יהיה כמו ן $או משכורת וה יותר השכיח והחציון "נשענים" על השכיחות הממוצע "נשען" על הערכים עצמם נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 98 -7 לכן יש לנהו ז !! ע ור נתונים שיש הם ערכים קיצוניים ושהם א-סימטריים צריך להיזהר מלהישען על הממוצע מצ כזה מדד מרכז על משמעות יהיה החציון שהוא חסין יותר להשפעה של ערכים קיצוניים ז התרשים לקוח מתוך 9דיקי טרי 888 נערך ע"י 9רוחמה אלעד-ירום שימוש סטטיסטיקה עסקים הוצאת אור-עם סטטיסטיקה למשפטנים 9 -7 ז ? היכן ממוקמים מדדי המרכז אותם חיש נו על ההיסטו רם המתאר את התפל ות השכר 14 12 10 6 4 2 0 80000 90000 100000 50000 60000 70000 30000 40000 20000 שכר נוכחי בדולרים מכאן נוכל לנסח9 התפל ות א-סימטרית ימנית כמו ההתפל ות הנ"ל של שכר נוכחי מתקיים כי9 התפל ות א-סימטרית שמאלית מתקיים כי9 התפל ות סימטרית מתקיים כי9 פרט התפל ות הנורמלית מתקיים9 נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים שכיחות 8 -7 ז 7.2.2 כפי שמדדי המרכז מאתרים את ה"מרכז" של ההתפל ות מדדי הפיזור מאתרים עד כמה ההתפל ות "מפוזרת" המונח פיזור מתפרש אינטואיטי ית כמידת השוני או ה יוון של הנתונים ק וצה 9ודל הה דלים ין הנתונים ל ין עצמם מרחקיהם ההדדיים או ל ין ערך מרכזי מסוים נכיר מדדי פיזור שונים9 טווח אחוזונים וטווח ין-ר עוני שונות מד מית סטיית תקן מד מית D33ה סימונו Rהוא ההפרש ין הערך ה דול יותר מקסימום ל ין הערך הקטן יותר המינימום R X ( n) - X (1) 9 חש ו את הטווח ע ור המשתנה ו ה השכר מנתוני הסקר R X ( n ) - X (1) הטווח הוא מדד קל לחישו אך הוא אינו ר יש ולא הכי אינפורמטי י למשל נסתכל על שתי ההתפל ויות ה אות9 לשתי ההתפל ויות אותו הטווח אך רור כי התפל ות המסומנת bיש פחות השתנות היא פחות הטרו נית רו התצפיות התפל ות זו נמצאות קרו לממוצע ני וד לכך רו התצפיות התפל ות המסומנת aרחוקות אופן משמעותי מהמרכז של ההתפל ות מכיוון שהטווחים שתי ההתפל ויות הם שווים רור כי הטווח לא הצליח לאתר את השוני פיזור ין שתי ההתפל ויות כלומר הוא מדד שאינו ר יש להשתנות נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים -7 ז ישה אחרת לפיזור המת רת על החיסרון ש טווח היא מדידה של פיזור אמצעות אחוזונים D34האחוזון ה pהוא הערך אשר מחלק את המד ם אופן כזה ש p*100% -מהתצפיות נמצאות מתחתיו או שוות לו למשל 9החציון הוא האחוזון ה9- סימון לאחוזונים ה- p=0.5 9ו 8 -ר עונים הוא Q1, Q2וQ3 - D35ההפרש ין האחוזון ה 8לאחוזון ה מדד פיזור שהוא יעיל יותר הוא נקרא ה התאמה - Q3 - Q1 9 IQR השונות היא מדד המ וסס על המידה ש ה התצפיות "סוטות" מהממוצע שלהן הסטייה ש ין כל אחת מתצפיות ל ין הממוצע של המד ם היא ההפרשx x 9 אם מד ם כולל nתצפיות השונות של המד ם שווה ל"ממוצע" של הסטיות המרו עות של כל nהתצפיות D36ה ודל x1 , x 2 , x 3 ,..., x n 9nמסומנת s 2 - של מד ם והיא שווה למנה ין הסכום של רי ועי הסטיות של התצפיות מהממוצע שלהן ל ין 9 n 1 x)2 n i (x i 1 n 1 s2 נוסחה מקוצרת נוסחת ע ודה לחישו השונות היא9 nx 2 n 2 i x i 1 n 1 ככל שהערך של s 2הוא וה יותר כך ההתפל ות עלת השתנות החלוקה היא ל n-1ולא ל n -כפי שניתן לחשו s2 והה יותר אופן אינטואיטי י מכיוון שהוכח מתמטית כי האמד הנ"ל לשונות הוא טו יותר מ חינה זו שהוא חסר הטייה כלומר התוחלת של השונות המד מית שווה לשונות אוכלוסייה מדד פחות טו יתק ל אם נחלק n נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים -7 " ואת " חש ו את של המדידות ה אות3, 7, 2, 1, 8 9 נחש את הטווח9 R X ( n ) - X (1) נחש את השונות9 כדי לחש את השונות אנו צריכים קודם לחש את הממוצע9 n 3 7 2 1 8 21 4.2 5 5 i x i 1 n מכאן ניתן נפתור אחת משתי הדרכים ה אות9 " 2 .נשתמש ט לת העזר ה אה9 1 " " xi x xi 4.2 xi 9 1.44 -1.2 3 49 7.84 2.8 7 4 4.84 -2.2 2 1 10.24 -3.2 1 64 14.44 3.8 8 2 xi " 127 ( xi x ) 2 ( xi 4.2) 2 " " 38.80 4.2 x)2 n i (x i 1 n 1 s2 הערה :חישו המרחק רי וע של כל תצפית מהממוצע וחישו הסכום של כלל המרחקים המרו עים הנ"ל נתונים עמודה המסומנת " ט לת העזר הנ"ל אופן החישו הוא קצר יותר 9 nx 2 הערה :חישו סכום הרי ועים של התצפיות נתון עמודה המסומנת נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים n 2 i x n 1 i 1 s2 ט לת העזר הנ"ל x -7 סטיית התקן מתק לת על-ידי לקיחת שורש רי ועי של השונות התוצאה המתק לת היא מספר יחידות המקוריות של הנתונים מטר ק" שקל וכו' כמו השונות ם סטיית התקן מודדת את מידת הפיזור של נתונים כמותיים מסומנת s -היא השורש הרי ועי של השונות9 D37 s s2 חש ו את סטיית התקן דו מא הקודמת s s2 ז / סו המשתנה ע ורו המדד מתאים / כמותי כמותי לשימוש והה ר יש להם ר ישות המדד לערכים קיצוניים ר ה ל ד הוספת ק וע aלמשתנה לא תשנה את הטווח הכפלת המשתנה ק וע b תשנה את הטווח תשנה הוא יוכפל פי ||b היא פי הערך המוחלט של b לא תשנה את השונות את תוכפל השונות פי 2 b סטיית התקן תוכפל פי ||b - 1 אופיו של המדד קו ע מתי מותר להשתמש ו המדדים של טווח שונות וסטיית תקן מתאימים רק למשתנים כמותיים זאת משום שמדדי פיזור אלו מסתמכים על הפרשים ולמדדים תהיה משמעות רק כאשר יש משמעות להפרש - 2 הטווח מושפע מערכים קיצוניים ל ד השונות מתחש ת ערכים קיצוניים כ שאר הערכים א ל מושפעת מיוחד מהסטיות הקיצוניות – 3+4 נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים -7 ז המקרים פחות 8 8 התרשים לקוח מתוך 9דיקי טרי 888 שימוש סטטיסטיקה עסקים הוצאת אור-עם כדי לחש את השונות ניתן להשתמש נוסחא הע ודה המקוצרת נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים -7 " ז ך 1 124 97 $9,000 $16,950 1 12 . f 34 1 9 83 $20,400 $10,950 1 12 09/13/1968 f 9 1 171 97 $9,000 $21,150 1 15 07/01/1942 f 35 0 381 98 $21,450 $12,000 1 12 . f 13 1 315 97 $21,750 $12,750 1 12 09/24/1940 m 32 0 156 86 $9,750 $21,900 1 12 07/12/1942 f 5 0 190 98 $21,900 $13,200 8 1 . 04/15/1947 f 14 0 0 98 $9,750 $21,900 7 1 12 05/06/1966 f 18 0 244 98 $24,000 $13,500 8 1 12 02/13/1946 f 20 1 75 97 $24,000 $11,100 9 1 15 03/15/1965 f 33 0 48 97 $26,250 $11,550 1 12 01/23/1940 f 30 0 66 97 $27,300 $13,500 1 12 08/29/1962 m 25 1 34 98 $27,750 $14,250 1 15 07/17/1960 m 23 0 115 98 $27,900 $12,750 1 15 01/23/1946 f 19 1 26 98 $28,350 $12,000 1 8 01/11/1966 m 22 0 143 98 $30,300 $16,500 1 16 02/07/1950 f 1 0 143 98 $30,300 $16,500 8 1 16 02/07/1950 f 21 1 216 83 $30,600 $16,500 7 1 15 05/04/1949 m 7 1 102 94 $30,900 $15,000 8 1 12 02/16/1959 m 10 0 52 96 $31,350 $11,250 9 1 8 08/07/1963 f 3 0 67 98 $32,100 $13,500 1 15 08/22/1958 m 16 0 284 83 $33,750 $15,000 2 12 05/22/1943 m 8 1 137 98 $35,100 $16,800 1 15 02/26/1949 f 24 0 114 98 $36,000 $18,750 1 15 04/26/1956 m 17 0 17 97 $38,850 $15,000 1 16 02/19/1963 f 31 0 36 98 $40,200 $18,750 1 16 05/23/1958 m 12 0 24 97 $40,800 $15,000 8 1 12 11/17/1964 m 26 0 103 97 $42,300 $14,250 7 1 12 08/19/1962 m 29 0 138 98 $45,000 $21,000 8 1 15 02/09/1955 m 15 0 48 97 $46,000 $14,250 9 1 15 07/181962 m 27 0 61 76 $48,750 $21,990 3 16 02/19/1961 m 6 0 144 98 $57,000 $27,000 3 15 02/03/1952 m 11 0 96 96 $60,375 $27,480 3 19 03/19/1954 m 2 0 8 92 $68,750 $27,480 3 19 06/24/1961 m 4 0 70 97 $103,750 $27,510 3 16 03/20/1956 m 28 הערה 9מיון הנתונים לפי המשתנה "שכר נוכחי" נעשה לצורך חישו החציון נערך ע"י 9רוחמה אלעד-ירום סטטיסטיקה למשפטנים 8
© Copyright 2024