יסודות ההסתברות פרופ' משה חביב ,המחלקה לסטטיסטיקה ,האוניברסיטה העברית מבוסס על קורס "יסודות הסתברות נתונים ומחשבים" )(52220 להערות: [email protected] נחי 1 תוכן עניינים I סטטיסטיקה תיאורית 1 2 3 4 5 II 5 מדדי מרכז . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ממוצע חשבוני ) Arithmetic meanאו . . . . . . . . . (Average 1.1 ממוצע הנדסי ). . . . . . . . . . . . . . . . . (Geometric mean 1.2 ממוצע הרמוני ). . . . . . . . . . . . . . . . . (Harmonic mean 1.3 בחירת סוג ממוצע . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 חציון ). . . . . . . . . . . . . . . . . . . . . . . . . . . (median 1.5 מדדי פיזור . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . שונות ). . . . . . . . . . . . . . . . . . . . . . . . . . (Variance 2.1 סטיית תקן ). . . . . . . . . . . . . . . . (Standard deviation 2.2 אי־שוויון צ'בישב . . . . . . . . . . . . . . . . . . . . 2.2.1 ציוני־תקן )תיקנון( . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 היסטוגרמה . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 סוגי משתנים . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . מדדי קשר בין משתנים . . . . . . . . . . . . . . . . . . . . . . . . . . . שונות משותפת ). . . . . . . . . . . . . . . . . . . (Covariance 4.1 מקדם המתאם ). . . . . . . . . . . . . (Correlation coecient 4.2 רגרסיה לינארית ) .Linear regressionאו :ישר הריבועים הפחותים( . . . . נסיגה לממוצע ). . . . . . . . . . . . (Regression to the mean 5.1 מבוא לתורת הקבוצות 5.2 5.3 5.4 5.5 מונחים יסודיים כללי דה־מורגן שכיחות יחסית חלוקה . . . . . III תורת ההסתברות IV קומבינטוריקה 5.6 5.7 5.8 5.9 5.10 5 5 8 9 9 12 15 15 17 17 18 19 20 21 22 24 25 32 35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 37 38 40 41 46 מדגם סדור עם החזרה . . . . . . . . . . . . . . . . . . . . . . . מדגם סדור ללא החזרה . . . . . . . . . . . . . . . . . . . . . . . מדגם לא סדור ללא החזרה . . . . . . . . . . . . . . . . . . . . . הבינום של ניוטון . . . . . . . . . . . . . . . . . . . . 5.8.1 מדגם לא סדור עם החזרה . . . . . . . . . . . . . . . . . . . . . דוגמאות . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . זריקת קוביות . . . . . . . . . . . . . . . . . . . . . . 5.10.1 ימי־הולדת . . . . . . . . . . . . . . . . . . . . . . . . 5.10.2 זריקת כדורים לתאים . . . . . . . . . . . . . . . . . . 5.10.3 קלפי ברידג' . . . . . . . . . . . . . . . . . . . . . . . 5.10.4 חברי־כנסת . . . . . . . . . . . . . . . . . . . . . . . 5.10.5 2 46 46 47 49 50 50 50 51 52 52 53 הסתברויות היפר־גאומטריות . . . . . . . . . . . . . . . . . . . . 5.11 הסתברות מותנה ). . . . . . . . . . . . . . . (Conditional probability נוסחת ההסתברות השלמה . . . . . . . . . . . . . . . . . . . . . 6.1 נוסחת ביאס ). . . . . . . . . . . . . . . . . . (Bayes' theorem 6.2 שכיחות יחסית מותנה . . . . . . . . . . . . . . . . . . . . . . . . 6.3 אי־תלות ). . . . . . . . . . . . . . . . . . . . . . . . . (Independence דוגמה :אוניברסיטת ברקלי . . . . . . . . . . . . . . . 7.0.1 דוגמה :גנטיקה . . . . . . . . . . . . . . . . . . . . . 7.0.2 6 7 V משתנים מקריים 8 9 10 54 54 56 57 62 62 67 67 69 פונקציית התפלגות מצטברת . . . . . . . . . . . . . . . . . . . . 7.1 התפלגויות מיוחדות . . . . . . . . . . . . . . . . . . . . . . . . . . . . . התפלגות ברנולי . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 התפלגות אחידה . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 התפלגות בינומית . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 התפלגות גאומטרית . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 התפלגות פואסון . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5 התפלגות בינומית שלילית . . . . . . . . . . . . . . . . . . . . . . 8.6 התפלגות היפר־גאומטרית . . . . . . . . . . . . . . . . . . . . . . 8.7 מדדי מרכז של משתנים מקריים . . . . . . . . . . . . . . . . . . . . . . תוחלת של משתנה מקרי ). . . . . . . . . . . . (Expected value 9.1 תוחלת של מ"מ ברנולי . . . . . . . . . . . . . . . . . 9.1.1 תוחלת של מ"מ אחיד . . . . . . . . . . . . . . . . . . 9.1.2 תוחלת של מ"מ בינומי . . . . . . . . . . . . . . . . . 9.1.3 תוחלת של מ"מ פואסון . . . . . . . . . . . . . . . . . 9.1.4 תוחלת של מ"מ גאומטרי . . . . . . . . . . . . . . . . 9.1.5 תוחלת של מ"מ בינומי שלילי . . . . . . . . . . . . . . 9.1.6 תוחלת של מ"מ היפר־גאומטרי . . . . . . . . . . . . . 9.1.7 שכיח . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 שכיח של מ"מ ברנולי . . . . . . . . . . . . . . . . . . 9.2.1 שכיח של מ"מ פואסון . . . . . . . . . . . . . . . . . . 9.2.2 שכיח של מ"מ בינומי . . . . . . . . . . . . . . . . . . 9.2.3 שכיח של מ"מ גאומטרי . . . . . . . . . . . . . . . . . 9.2.4 תוחלת של פונקציות של משתנים מקריים . . . . . . . . . . . . . . 9.3 תוחלת של פונקציה־לינארית . . . . . . . . . . . . . . 9.3.1 תוחלת של הרכבת פונקציות . . . . . . . . . . . . . . 9.3.2 מדדי פיזור של משתנים מקריים . . . . . . . . . . . . . . . . . . . . . . שונות של משתנים מקריים . . . . . . . . . . . . . . . . . . . . . 10.1 סטיית תקן של משתנה מקרי . . . . . . . . . . . . . . 10.1.1 נוסחה לחישוב השונות . . . . . . . . . . . . . . . . . 10.1.2 שונות של מ"מ ברנולי . . . . . . . . . . . . . . . . . . 10.1.3 שונות של מ"מ פואסון . . . . . . . . . . . . . . . . . . 10.1.4 שונות של מ"מ בינומי . . . . . . . . . . . . . . . . . . 10.1.5 שונות של מ"מ גאומטרי . . . . . . . . . . . . . . . . . 10.1.6 שונות של מ"מ אחיד . . . . . . . . . . . . . . . . . . 10.1.7 3 70 71 71 71 72 73 74 76 77 78 78 79 79 79 80 80 82 82 82 82 82 83 83 83 84 85 85 85 88 88 89 90 90 90 91 11 VI 12 13 14 VII VIII 15 16 17 פרדוקס המהמר )או :פרדוקס סנט־פטרבורג( 92 . . . . . . . . . . . 10.2 הערה :הסתברות ושכיחות יחסית 93 . . . . . . . . . . . . 10.2.1 הערה :סופיות התוחלת/השונות 93 . . . . . . . . . . . . . 10.2.2 חציון 94 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 תיקנון משתנים מקריים 95 . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 התפלגויות משותפות משתנים מקריים רב־ממדיים . . . . . . . . . . . . . . . . . . . . . . . . פונקציה של משתנים מקריים . . . . . . . . . . . . . . . . . . . . 12.1 קשרים בין משתנים מקריים . . . . . . . . . . . . . . . . . . . . . . . . . שונות משותפת של משתנים מקריים . . . . . . . . . . . . . . . . 13.1 מקדם המתאם של משתנים מקריים . . . . . . . . . . . . . . . . 13.2 ישר הרגרסיה בין משתנים מקריים . . . . . . . . . . . . . . . . . 13.3 אי־תלות בין משתנים מקריים . . . . . . . . . . . . . . . . . . . . . . . . שקלול בין משתנים מקריים 96 97 103 103 105 109 111 115 14.0.1 דוגמה :השקעה אופטימלית 116 . . . . . . . . . . . . . . . אי־שוויונים 118 אי־שוויון מרקוב 118 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . אי־שוויון צ'בישב 119 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . החוק החלש של המספרים הגדולים 121 . . . . . . . . . . . . . . . . . . . . . 4 חלק I סטטיסטיקה תיאורית תפקידה של הסטטיסטיקה התיאורית הוא לעבד נתונים .למשל ,נניח שנתונות ההכנסות של כל משקי הבית בישראל .כלומר ,נתונים לנו כמה מיליוני מספרים שכל אחד מהם הוא הכנסה של משק בית כלשהו בישראל .אנו נרצה לראות את ה"יער" מתוך ה"עצים" .נרצה לסכם נתונים בתמציתיות או לתאר אותם באמצעות המחשות כמו דיאגרמה או גרף ,כך שנקבל תמונה כללית על ההכנסות במשקי בית בישראל. הסטטיסטיקה התיאורית עוסקת בעיקר )אך לא רק( במשתנים כמותיים .נניח שמתייחסים לגובה של אנשים השייכים לאוכלוסייה מסויימת .נסמן את המשתנה המספרי שמקבל את ערך הגובה של כל אדם ב .Y -נקבע יחידות מדידה קבועות ,למשל מטרים ,וכל התצפיות )האנשים השייכים לאוכלוסייה( יימדדו באותן יחידות .נניח כי נתונים לנו nאנשים באוכלוסיית היעד, כך שקיימות התצפיות המתאימות .Y1 , Y2 , ..., Yn הערה :נשים לב כי Y1הוא שמה של התצפית שאנו קוראים לה ראשונה. "ראשונה" איננו יותר מאשר שם או כינוי לצורכי התייחסות .כלומר ,האינדקס אינו מעיד על הערך של התצפית אלא רק על המספר הסידורי שלה בתוך כלל התצפיות. האינדקס מאפשר להתייחס לאוכלוסייה כאל סדרה ,כלומר קבוצה שיש בה סדר. 1 מדדי מרכז נרצה לסכם את התצפיות שקיבלנו במספר או שניים שמייצגים באיזשהו אופן את כלל התצפיות .מספרים אלה מייצגים במידה מסוימת את התכונות של כלל האוכלוסייה הנמדדת, ועל־כן הם מאפשרים להשוות באופן כללי בין אוכלוסיות שונות. 1.1 ממוצע חשבוני ) Arithmetic meanאו Average n {Yi }i=1 ( )כלומר ,אוסף התצפיות .(Y1 , Y2 , ..., Yn הגדרה :נניח כי נתונה הסדרה נאמר שהממוצע החשבוני של הסדרה הוא: ! Yi n X i=1 Y1 + Y2 + ... + Yn 1 = Y · = n n דוגמה :נניח שהערכים הנתונים הם .−1, 0, 2, 4, 7 נשתמש בנוסחה שהגדרנו ונקבל שהממוצע החשבוני הוא: −1 + 0 + 2 + 4 + 7 = 2.4 5 5 תכונות הממוצע החשבוני .1הממוצע החשבוני משמר את יחידות המדידה. n למשל אם נתונה הסדרה ) {Yi }i=1כלומר (Y1 , Y2 , ..., Yn ,ביחידות של מטרים ,אז גם הממוצע החשבוני Yמתקבל ביחידות של מטרים. .2הממוצע החשבוני אדיש ל"טרנספורמציה לינארית". כלומר ,עבור כל זוג מספרים קבועים כלשהם a, bמתקיימת הנוסחה: a·Y +b=a·Y +b n נסביר :אם עבור הסדרה {Yi }i=1הממוצע החשבוני הוא ,Yאז עבור הסדרה n ) {aYi + b}i=1כלומר (aY1 +b, aY2 +b, ..., aYn +b ,הממוצע החשבוני יהיה .aY +b נשים לב שחיבור וכפל הן פעולות שנקראות לינאריות ,ולכן הממוצע אדיש גם לחיבור של קבוע וגם לכפל בקבוע. דוגמה לשימוש היא חישוב הממוצע לאחר שינוי ביחידות המדידה. כך למשל אם נתון ממוצע ביחידות של מטרים ,נשתמש בטרנספורמציה הלינארית f (x) = 100xכדי לקבל את הממוצע ביחידות של סנטימטרים. .3ממוצע של סכום שווה לסכום הממוצעים. n n כלומר ,עבור כל זוג סדרות {Xi }i=1 ,{Yi }i=1מתקיימת הנוסחה: X +Y =X +Y גם תכונה זו נובעת מהלינאריות של הממוצע החשבוני. .4הממוצע הוא פונקציה שתלויה בכל הערכים כולם. כלומר ,אם נשנה ערך אחד -לא משנה איזה ערך -הממוצע בהכרח ישתנה .כמובן, אם שינוי זה הוא כלפי מעלה או מטה ,יתקיים שינוי מתאים בממוצע )אך לא באותו ערך(. .5הממוצע החשבוני מביא למינימום את סכום ריבועי הסטיות של הנתונים מכל מספר. n נסביר :נניח כי נתונה הסדרה {Yi }i=1ונניח ש x-הוא מספר כלשהו. נתבונן בפונקציה שמודדת את סכום ריבועי המרחקים של איברי הסדרה מ .x-כלומר הפונקציה הבאה: 2 )(Yi − x n X 2 2 2 = )f (x) = (Y1 − x) + (Y2 − x) + ... + (Yn − x i=1 את הפונקציה )f (x נוכיח שהממוצע החשבוני Yהוא המספר xשמביא למינימום שהגדרנו .כלומר לא משנה איזה xנבחר ,תמיד יתקיים ).f Y ≤ f (x 6 2 ראשית נשתמש בנוסחת הכפל הידועה ,(a − b) = a2 − 2ab + b2ונסיק כי מתקיים: 2 2 2 2 = )(Yi − x) = (Y1 − x) + (Y2 − x) + ... + (Yn − x n X = )f (x i=1 = = Y12 − 2Y1 x + x2 + Y22 − 2Y2 x + x2 + ... + Yn2 − 2Yn x + x2 = = Y12 + Y22 + ... + Yn2 − 2x (Y1 + Y2 + ... + Yn ) + nx2 Yi + nx2 n X Yi2 − 2x n X = i=1 i=1 נשים לב שקיבלנו פרבולה "צוחקת" מהצורה ,ax2 +bx+cכאשר הקבועים המתאימים במקרה שלנו הם: a=n Yi n X b = −2 i=1 Yi2 n X =c i=1 עבור פרבולה צוחקת הנוסחה למציאת הערך ,xminכלומר הערך שעבורו הפרבולה ) f (xמגיעה למינימום ,היא: Pn Pn 2 i=1 Yi Yi −b = = i=1 =Y = xmin 2a 2n n מכאן שהממוצע Yהוא הערך שמביא למינימום את פונקציית סכום ריבועי המרחקים של הנתונים מ.x- .6הממוצע בריבוע קטן או שווה לממוצע הריבועים. 2 כלומר ,מתקיים תמיד אי השוויון .Y ≤ Y 2 2 כמו־כן המקרה של שוויון Y = Y 2מתקיים אך ורק כאשר כל איברי הסדרה שווים. כלומר ,ה"שונות" )שתוגדר פורמלית בהמשך( שווה ל.0- הוכחה: P P 2 n n ) 4n i=1 Yi2 − 4 ( i=1 Yi 4ac − b2 2 = ) 0 ≤ f (xmin = =n Y2−Y 4a 4n .7אם נתונים בסדרה kאיברים זהים ,ניתן להכפיל את האיבר המתאים ב.k- 7 כלומר ,אם נתונה הסדרה ,Y1 , Y2 , Y, ..., Y , ..., Ynאז הממוצע הוא: } | {z k times ×k z |} { Y1 + Y2 + Y + ... + Y + ... + Yn Y1 + Y2 + kY + ... + Yn = Y = n n 1.2 ממוצע הנדסי )Geometric mean ( n {Yi }i=1 שכל איבריה אי־שליליים. הגדרה :נניח כי נתונה הסדרה נאמר שהממוצע ההנדסי )או הגאומטרי( של הסדרה הוא: Y1 · Y2 · ... · Yn p n =x n הסבר :נניח שנתונה סדרה של מספרים חיוביים .{Yi }i=1 נתבונן בסדרה שבה מוציאים לוגריתם מכל אחד מהאיברים .כלומר ,הסדרה נגדיר פונקציה ) g (xשתיקרא פונקציית הפסד ,באופן הבא: 2 )(log Yi − log x n X 2 2 n .{log Yi }i=1 2 = )g (x) = (log Y1 − log x) +(log Y2 − log x) +...+(log Yn − log x i=1 נשים לב שמהדיון לעיל בו הראינו שממוצע הוא הערך שממזער את פונקציית סכום ריבועי המרחקים ,נובע שהערך שממזער את הפונקציה ) g (xהוא הערך של xעבורו .log x = log Y נשים לב עוד שמתקיים לפי חוקי הלוגריתמים: = ) log (Y1 · Y2 · ... · Yn 1 n = ) (log Y1 + log Y2 + ... + log Yn 1 n = log Y √ 1 = log (Y1 · Y2 · ... · Yn ) n = log n Y1 · Y2 · ... · Yn נסיק מכך: 1 Y1 · Y2 · ... · Yn √ n log x = log Y = log ⇓ Y1 · Y2 · ... · Yn √ n =x מכאן שבדומה לממוצע החשבוני שהוגדר כמספר שממזער את סכום ריבועי המרחקים של איברי הסדרה ממנו ,הממוצע ההנדסי מוגדר כמספר שהלוגריתם שלו ממזער את סכום ריבועי המרחקים של לוגריתם איברי הסדרה ממנו. 1פונקציית הלוגריתם היא פונקציה הפיכה ,ולכן ניתן לצמצם אותה משני הצדדים. 8 תכונות הממוצע ההנדסי .1הממוצע ההנדסי משמר את יחידות המדידה. .2לכל a ≥ 0מתקיים: p aY1 · aY2 · ... · aYn = a n Y1 · Y2 · ... · Yn p n )כלומר ,הממוצע ההנדסי לינארי ביחס לכפל בקבוע(. .3לכל b 6= 0מתקיים: p (Y1 + b) · (Y2 + b) · ... · (Yn + b) 6= n Y1 · Y2 · ... · Yn + b p n )כלומר ,הממוצע ההנדסי אינו לינארי ביחס לחיבור של קבוע(. n .4לכל סדרה מהצורה {xj }j=1מתקיים: p n Y1 · Y2 · ... · Yn 1.3 · x1 · x2 · ... · xn √ n = x1 Y1 · x2 Y2 · ... · xn Yn p n ממוצע הרמוני )Harmonic mean ( n ,{Yi }i=1 שכל איבריה שונים מ.0- הגדרה :נניח כי נתונות הסדרה נאמר שהממוצע ההרמוני של הסדרה הוא: 1 Yn 1.4 n + ... + 1 Y2 + 1 Y1 =x בחירת סוג ממוצע אי־שוויון הממוצעים :ראשית נזכיר )מבלי להוכיח( תוצאה ידועה של המתמטיקאי אוגוסטין קושי ,שנקראת "אי־שוויון הממוצעים". n משפט זה קובע שלכל סדרה של מספרים חיוביים ,{xi }i=1מתקיים עבור שלושת הממוצעים שהגדרנו אי השוויון הבא: x1 + x2 + ... + xn n ≤ x1 · x2 · ... · xn √ n ≤ 1 xn n + ... + 1 x2 המשפט קובע ששוויון מתקיים אם ורק אם כל המספרים בסדרה זהים. 9 + 1 x1 דוגמה 1 ברוקר נוכח שבשלוש שנים עוקבות מניה הכפילה את עצמה בערכים .1.1, 1.23, 0.9 כלומר ,שווי המניה לאחר שלוש השנים הוכפל בערך של .1.1 · 1.23 · 0.9 = 1.2177 . 1.1+1.23+0.9 בממוצע חשבוני ,ערך המניה הוכפל בשנה בערך של = 1.077 3 נשים לב שאם כל שנה היינו מכפילים את ערך המניה ב 1.077-היינו מרוויחים יותר ממה שהושג במציאות.1.0773 = 1.248 : כעת נמצא תשואה קבועה כזאת שב 3-שנים תניב את הרווח שהתקבל בפועל ):(1.2177 √ 3 x3 = 1.2177 ⇒ x = 1.2177 = 1.068 נשים לב שזה התקבל למעשה באמצעות חישוב הממוצע ההנדסי. מכאן שבחישוב תשואות הממוצע ההנדסי הוא מדד מרכזי מהימן יותר מאשר הממוצע החשבוני. הערה :בהתאם לאי־שוויון הממוצעים ,נוכחנו שהממוצע ההנדסי קטן מהממוצע החשבוני. דוגמה 2 מכונית נוסעת מחיפה לתל־אביב ,מרחק של 100ק"מ ,במהירות קבועה של 100קמ"ש .דרך זו כמובן תארך שעה. המכונית חוזרת את אותה הדרך במהירות של 50קמ"ש ,וכעת הדרך תארך שעתיים. מהי המהירות הממוצעת של המכונית? תשובה פזיזה עלולה לקבוע שהמהירות הממוצעת היא 75קמ"ש. אולם לכאורה זו תשובה שגויה ,כי מהירות ממוצעת מוגדרת כסך המרחק חלקי סך הזמן . 200 ולכן הממוצע הוא 3 = 66.667 120 ואכן אם היינו דוגמים את מהירות המכונית בכל דקה היינו מקבלים את הנתונים ,{50}i=1 60 ,{100}j=1כך שהממוצע החשבוני בכל הדקות הוא: 60 · 100 + 120 · 50 = 66.667 180 לעומת זאת נשים לב שאם היינו בודקים את מהירות המכונית בכל קילומטר היינו מקבלים 100 100 ,{100}j=1 ,{50}i=1כך שהממוצע החשבוני של הכל יחד הוא: 100 · 100 + 100 · 50 = 75 200 אם כן מהי התשובה הנכונה? אין תשובה נכונה יחידה .ממוצע חייב להתייחס ליחידות המדידה שבהן אנו בוחרים למדוד. במקרה זה עלינו להחליט האם מעוניינים לבדוק מהירות ממוצעת לדקה )זמן( או מהירות ממוצעת לקילומטר )מרחק(. דוגמה 3 נכליל את הדוגמה האחרונה בה עסקנו. 10 נניח כי עוברים מרחק בגודל aמספר כלשהו של פעמים שנסמן .n בכל אחת מהפעמים עוברים את המרחק במהירות .Yiכלומר נתונה לנו סדרת המהירויות n בכל פעם.{Yi }i=1 : a נשים לב שמשך הזמן שאורכת הדרך בפעם ה i-הוא , Yiולכן הזמן שאורך לעבור את המרחק n X 1 .a הכולל naהוא Y i=1 i שאלה :מהי המהירות הקבועה )שנסמן כנעלם (xשאם נשתמש בה בכל nהפעמים ,סך הזמן שיארך לעבור את המרחק naיהיה שווה לסך הזמן שאורך לעבור את אותו המרחק n במהירויות {Yi }i=1בהתאמה? אם נתרגם את השאלה לסימונים בהם השתמשנו ,נחפש xשיקיים את השוויון: na x n X 1 = Y i=1 i m x = Pn n a 1 i=1 Yi וזו בדיוק הגדרת הממוצע ההרמוני. נשים לב שבתרגום למונחי פונקציית הפסד ,נחפש xשימזער את הפונקציה: 2 n X 1 1 − Yi x i=1 אם נבחר x1 = Y1נקבל מינימום של הפונקציה ,כפי שהסברנו לעיל בנוגע לממוצע החשבוני. ולכן נציב בשוויון הנדרש את התוצאה ונקבל: Pn n 1 i=1 Yi = Pn1 1 i=1 Yi 1 n = 1 1 Y =x הערה :עד כה ניגשנו להגדיר מדדי מרכז או ממוצעים למיניהם כדי שימזערו פונקציות מסוימות .קיימת גישה אחרת להגדיר את הממוצעים ,לפיה מעוניינים להחליף את כל איברי הסדרה במספר קבוע שיביא אותנו לאותו מקום. Pn • ממוצע חשבוני :אם נבדוק מהו הקבוע cהמקיים , i=1 Xi = c + c + ... + cנקבל {z } | n times Pn את הממוצע החשבוני .c = X = n1 i=1 Xi Qn , i=1 Xi = c| · c {zנקבל את • ממוצע הנדסי :אם נבדוק מהו הקבוע cהמקיים · ... · }c n times pQn הממוצע ההנדסי ) c = n i=1 Xiעבור איברים שכולם חיוביים(. 1 1 1 • ממוצע הרמוני :אם נבדוק מהו הקבוע cהמקיים + + ... + c c }c | {z נקבל את הממוצע ההרמוני Xi Pn n = .c i=1 11 n times = Pn 1 i=1 Xi , 1.5 חציון )median ( n {Yi }i=1 הגדרה :נניח כי נתונה הסדרה נאמר שהחציון של הסדרה הוא ערך אמצעי של הערכים ,והוא מסומן ב.med (Y )- כלומר ,אם מספר התצפיות הוא אי־זוגי ,מסדרים את הערכים שבסדרה בסדר עולה )או יורד( ובוחרים את הערך האמצעי. אם מספר התצפיות הוא אי־זוגי ,החציון מוגדר להיות כל ערך שנמצא בין שני הערכים האמצעיים של הסדרה. דוגמה :נניח שנתונות התצפיות } ,Y = {−1, 0, 2, 4, 7אז .med (Y ) = 2 הסבר :נראה שגם החציון ממזער פונקציית הפסד כלשהי. נגדיר פונקציית הפסד ) h (xבאופן הבא: ||Yi − x n X = |h (x) = |Y1 − x| + |Y2 − x| + ... + |Yn − x i=1 נשים לב שמתקיים: n 1 X · ||Yi − x| = n · |Y − x n i=1 · |Yi − x| = n n X = )h (x i=1 בדוגמה שהזכרנו ,הפונקציה המתקבלת היא: −5x + 12 for x ≤ −1 −3x + 14 for − 1 ≤ x ≤ 0 −x + 10 for 0 ≤ x ≤ 2 = |h (x) = |−1 − x|+|x|+|2 − x|+|4 − x|+|7 − x x + 10 for 2 ≤ x ≤ 4 3x + 2 for 4 ≤ x ≤ 7 5x − 12 for 7 ≤ x נסביר :נשים לב שעבור x ≤ −1כל הביטויים בתוך סימני הערך המוחלט הם חיוביים, ולכן בתחום זה ניתן לוותר על סימנים אלו ,ואז הפונקציה מוגדרת .h (x) = −5x+12 כאשר −1 ≤ x ≤ 0עובדה זו נכונה רק עבור ארבעת המחוברים האחרונים .עבור המחובר הראשון הערך המוחלט הופך את סימנו של הביטוי הרשום בתוכו והוא ,x+1 לכן עבור תחום זה הפונקציה מוגדרת .h (x) = −3x + 14 בתחום 0 ≤ x ≤ 2שני המחוברים הראשונים הופכים סימן ושלושת האחרונים לא, ולכן עבור תחום זה הפונקציה מוגדרת .h (x) = −x + 10 וכן הלאה. הגרף של פונקציה זו הוא: 12 ניתן לראות כי עבור x < 2הפונקציה מונוטונית יורדת ,ועבור 2 ≤ xהיא מונוטונית עולה .בפרט הנקודה x = 2היא מינימום שבו הפונקציה משנה את כיוון המונוטוניות. נשים לב ש .med (Y ) = 2-כלומר ,פונקציית ההפסד שהגדרנו מתמזערת בנקודת החציון. במקרה שבו קיים מספר זוגי של ערכים בסדרה ,כל הקטע שבין שני הערכים האמצעיים יהיה בשיפוע 0וכל הנקודות שבו יהוו מינימום של פונקציית ההפסד שהגדרנו. נתבונן בפונקציית ההפסד שהגדרנו ) .h (xניתן להבחין שעבור מחצית הערכים הגדולים מהחציון הסימן אינו משתנה כי מתקבל מספר חיובי ,ועבור מחצית הערכים הקטנים מהחציון הסימן משתנה משלילי לחיובי. לכן נוכל להסיק שערך פונקציית ההפסד בחציון הוא ההפרש בין סכום המחצית העליונה של הערכים לבין סכום המחצית התחתונה שלהם. כלומר ,אם נתונה הסדרה ,Y1 ≤ Y2 ≤ ... ≤ Ynאז מתקיים: n−1 n 2 X X Y − Yi if nis odd i i=1 i= n+1 2 = )) h (med (Y n n 2 X X Y − Yi if n is even i i=1 תכונות החציון .1החציון משמר את יחידות המדידה. 13 i= n 2 +1 .2לכל a, bקבועים מתקיימת הנוסחה: med (aY + b) = a · med (Y ) + b .3 ) med (X + Y ) 6= med (X) + med (Y נשים לב שחיבור קבוצות מהצורה שסימנו ” ”X + Yהוא חיבור של זוגות איברים בעלי אותו אינדקס. נתבונן למשל בסדרות הבאות: med (1, 2, 4) = 2 med (1, 3, 2) = 2 med (1 + 1, 2 + 3, 4 + 2) = med (2, 5, 6) = 5 .4החציון אינו רגיש כמו הממוצע לשינוי בערכי הסדרה .שינוי של ערך בסדרה יכול להשפיע על החציון רק אם הערך היה גדול )קטן( מהחציון והפך להיות קטן )גדול( ממנו. הרחבה :נדון בדוגמה מעניינת שתשקף יתרון לשימוש בחציון כמדד מרכזי על־פני הממוצע. נתונה שורה של בתים לאורך רחוב אחד. מתכנן מרכזי מעוניין למקם תחנת אוטובוס שתשרת את כלל הדיירים. המתכנן אינו יודע היכן נמצא כל בית ,והוא סומך על המידע שנמסר לו מהדיירים. המתכנן מחליט להשתמש במדד מרכזי כדי להחליט היכן למקם את תחנת האוטובוס. נניח שלאחר שנאסף כל המידע על מיקום הבתים ,הדייר xמקבל את הזכות לתקן את האמירה הקודמת שלו ולשקר .כלומר הוא יכול למסור מידע שקרי אודות המיקום של ביתו. האינטרס ברור :ייתכן ועל־ידי מידע שגוי שיימסר לאחר קבלת ההחלטה על מיקום התחנה ,הדייר השקרן יצליח לשפר את מיקום התחנה ביחס לביתו. טענה :אם המתכנן המרכזי מחליט למקם את התחנה במיקום ממוצע ,וכן xיודע את מיקום כל הבתים האחרים ברחוב ,אז הוא יכול למסור מידע כך שמיקום התחנה יהיה במרחק 0מהבית שלו. לעומת זאת אם המתכנן המרכזי מחליט למקם את התחנה במיקום חציוני )כלומר, המיקום שחצי מהבתים נמצאים מצידו האחד החצי מצידו האחר( אז ל x-אין אפשרות לשפר את מיקום התחנה ביחס לבית שלו על־ידי שקר. נימוק :נניח שעל־פי המידע הראשוני התחנה נמצאת משמאל לבית )כלומר קרוב יותר לאפס( .קל להבין שאם מיקום התחנה נקבע בממוצע ,הדייר xיכול לבחור להגדיל את המרחק של הבית שלו מספיק ,כך שהתחנה תזוז ימינה עד למיקום האמתי של ביתו. 14 ניתן לראת כי אם נסמן את המיקומים האמיתיים של שאר הבתים ,X1 , ..., Xnאז הדייר xידווח על מיקום שקרי aהמקיים: ! n 1 X Xi + a = Xi n i=1 כעת נבין מדוע אם מיקום התחנה נקבע באופן חציוני ,אין לדייר xאפשרות לדווח על מיקום אחר שישפר את מצבו. נחלק לשתי אפשרויות את הדיווח השקרי של הדייר :xייתכן שלפי הדיווח השקרי הבית של xיישאר באותו צד של החציון ,וייתכן שהדיווח השקרי יעביר את הבית של xלצד האחר של החציון. באפשרות הראשונה ההכרעה על מיקום התחנה כלל אינה משתנה ,ולכן ודאי לא יחול כל שיפור במצב הדייר .x באפשרות השנייה ישתנה מיקום התחנה ויזוז בית אחד קרוב יותר למיקום השקרי של ביתו של ,xשבמציאות נמצא מהעבר האחר של החציון .מצב זה מרע את מצבו של הדייר .x מדדי פיזור 2 המידע שטמון במדדים מרכזיים מתעלם מהפיזור של הערכים סביב אותו מדד מרכזי. כך למשל הממוצע של } {0, 5, 10והממוצע של } {4, 5, 6שניהם שווים ל ,5-על אף שהערכים בסדרה הראשונה מפוזרים במרחקים גדולים יותר מהממוצע. נחפש מדדים שנכנה מדדי פיזור ,שייתנו לנו מידע אודות מידת הפיזור של הערכים סביב המדד המרכזי .פיזור של אוכלוסייה כלשהי תמיד ייקבע ביחס למדד מרכזי כלשהו של האוכלוסייה הרלוונטית. נציע מדד שנראה טבעי )אך למעשה שגוי( למדידת הפיזור של ערכים סביב הממוצע: n נניח כי נתונה הסדרה {Yi }i=1כך ש Y -הוא הממוצע שלה. האיברים לבין הממוצע. נגדיר מדד פיזור כממוצע הסטיות בין n כלומר הממוצע של הסדרה : Yi − Y i=1 n Y1 − Y + Y2 − Y + ... + Yn − Y 1X = Y −Y = Yi − Y n n i=1 נזכור שהראינו כי ,aY + b = aY + bולכן נסיק: 2 Y −Y =Y −Y =0 לכן נסיק שמדובר במדד פיזור חסר משמעות ,כי הוא קבוע ושווה ל.0- 2.1 שונות )Variance ( הגדרה :נניח כי נתונה הסדרה n {Yi }i=1 כך ש Y -הוא הממוצע שלה. נגדיר את השונות של הסדרה כממוצע של ריבועי הסטיות מהממוצע - 2נשים לב שY = Y - 15 2 . Yi − Y n 2 on : Yi − Y כלומר הממוצע של הסדרה i=1 2 2 n 2 + Y2 − Y + ... + Yn − Y 1X = Yi − Y n n i=1 2 Y1 − Y = ) V ar (Y נוסחה :נשים לב שמתקיים: n n n X X X 2 2 2 2 = Yi − 2Yi Y + Y = Yi − 2Y = Yi + nY i=1 2 n X Yi − Y i=1 i=1 2 2 2 = nY 2 − 2nY + nY = n Y 2 − Y ! 2 Yi + nY n X i=1 Yi2 − 2Y i=1 n X i=1 1 n ·=n ומכאן נובעת נוסחה עבור השונות: 2 V ar (Y ) = Y 2 − Y מנוסחה זו ניתן להסיק שוב שמתקיים 2 ,Y 2 ≥ Yשכן תמיד .V ar (Y ) ≥ 0 תכונות השונות .1השונות מתקבלת ביחידות מדידה שהן ריבוע של יחידות המדידה של ערכי הסדרה. למשל אם ערכי הסדרה נמדדים ביחידות של מטר ,השונות מתקבלת ביחידות של מטר רבוע. ניתן להוציא שורש ולקבל את השונות במונחי היחידות המקוריות. .2השונות אדישה לחיבור בקבוע: ) V ar (Y + b) = V ar (Y ההוכחה לכך פשוטה: n 2 1X Yi + b − Y + b = n i=1 = )V ar (Y + b n n 2 2 1X 1X Yi + b − Y + b ) Yi − Y = V ar (Y = n i=1 n i=1 .3עבור הכפלה בקבוע מתקיים: ) V ar (aY ) = a2 V ar (Y 16 = הוכחה: = 2 aYi − aY n X i=1 1 n = 2 aYi − aY n X i=1 1 n n = ) V ar (aY n 2 2 1X 1X = a2 a Yi − Y ) Yi − Y = a2 V ar (Y n i=1 n i=1 נקבל משתי התוצאות הקודמות שלכל a, bקבועים מתקיים: ) V ar (aY + b) = a2 V ar (Y סטיית תקן )Standard deviation ( 2.2 הגדרה :נניח כי נתונה הסדרה n .{Yi }i=1 ) V ar (Y סטיית התקן של Yהיא: p = ) SD (Y תכונות סטיית התקן .1כמו השונות ,סטיית התקן אדישה לחיבור קבוע: ) SD (Y + b) = SD (Y .2עבור הכפלה בקבוע מתקיים: ) SD (aY ) = |a| SD (Y √ ]נשים לב[. a2 = |a| : נקבל משתי התוצאות הקודמות שלכל a, bקבועים מתקיים: ) SD (aY + b) = |a| SD (Y 2.2.1 אי־שוויון צ'בישב 1 k2 1 −מהתצפיות אי־שוויון צ'בישב קובע שבכל סדרת תצפיות Yעבור כל ,k > 0לפחות נופל במרחק של עד ) ±k · SD (Yמהממוצע. למשל עבור ,k = 3לפחות 1 − 91 = 89מהתצפיות נמצאות במרחק של עד 3סטיות־תקן )למעלה או למטה( מהממוצע. אי־שוויון זה מעניק משמעות פורמלית לטענה שלא ייתכן שחלק גדול מידי מהאוכלוסייה נמצא במרחק רב מידי מהממוצע ,כאשר היחידות בהן נמדד המרחק הן מספר סטיות התקן של הערך מממוצע הסדרה .Y נשים לב שמרחק זה יכול להיות שלילי. 17 2.3 ציוני־תקן )תיקנון( n ,{Yi }i=1 כך ש Y -הוא הממוצע שלה ו SD (Y )-הוא סטיית הגדרה :נניח שנתונה הסדרה התקן. נגדיר את סדרת ציוני התקן באופן הבא: n i=1 Yi − Y ) SD (Y טרנספורמציה זו שביצענו )כפלנו הסדרה. n = {Zi }i=1 1 בSD(Y ) - −Y ( SD(Yנקראת "תיקנון" של וחיברנו ) ציוני התקן אינם תלויים ביחידות המדידה המקוריות .כך למשל נתבונן בציון־תקן של סדרה ביחידות של ס"מ וביחידות של מטרים: 100Yi − 100Y 100Yi − 100Y Yi − Y = = ) SD (100Y ) |100| SD (Y ) SD (Y הסבר :נניח שנתונה אוכלוסייה של אנשים ולכל אחד מהם נתון ה IQ-שלו .קיבלנו מידע שה IQ-של אדם מסוים גבוה מהממוצע .מידע זה מקבל משנה חשיבות אם ידוע שהפיזור סביב הממוצע הוא קטן ,יותר מאשר במצב שבו הפיזור רב. במצב שבו הפיזור קטן סביב הממוצע "קשה" יותר להתרחק מהממוצע ,ולכן IQגבוה במקרה זה מהווה תופעה משמעותית יותר מאשר במקרה האחר. כדי להעניק חשיבות לעובדה שאדם זה מעל לממוצע תוך התחשבות במידת הפיזור, נתקנן את ה IQ-שלו. היבט נוסף בו תיקנון שימושי ,הוא מצב בו מעוניינים להשוות בין פרטים שונים באוכלוסיות שונות .למשל השוואה בין גובהם היחסי של שחקן ושחקנית כדורסל. כמו כן תיקנון שימושי במצב בו מעוניינים להשוות בין פרטים הנמדדים ביחידות מידה שונות .למשל האם אדם מסוים הוא גבוה יותר או שמן יותר. תכונות ציוני התקן .1הממוצע של ציוני תקן הוא תמיד .0 הוכחה: Y Y Y Y − = − =0 ) SD (Y ) SD (Y ) SD (Y ) SD (Y =Z .2השונות של ציוני תקן היא תמיד ,1ולפיכך גם סטיית התקן היא .1 הוכחה: Y Y Y V ar (Z) = V ar SD(Y = ) ) − SD(Y ) = V ar SD(Y =1 ) V ar(Y ) V ar(Y = ) ar (Y 18 1 V SD(Y )2 = 2.4 היסטוגרמה היסטוגרמה היא שיטה להצגה של נתונים מרובים. כדי ליצור היסטוגרמה עבור אוסף נתון של תצפיות נעבוד באופן הבא: .1נקבע טווחים של ערכים שבכל אחד מהם ייפלו כמה תצפיות )הטווחים יכולים להיות שונים זה מזה באורכם( ,ונמספר כל אחת מקבוצות התצפיות שבטווחים קביעת הטווחים היא משימה מורכבת לעתים ולא חד־משמעית ,כי מצד אחד חלוקה לטווחים מצומצמים )כלומר לקבוצות רבות של ערכים( מעניקה מידע יותר מדויק, אבל מאידך מטשטשת את התמונה הכללית. .2בשלב הבא נחשב את השכיחות היחסית של כל אחת מקבוצות הערכים .כלומר נבדוק מהו השיעור של כל קבוצה מתוך כלל התצפיות. .3נשרטט גרף לפי השכיחויות היחסיות בשיטה הבאה: ניצור מערכת צירים שעל ציר ה x-יחידות המדידה של ערכי התצפיות ועל ציר הy-השכיחות היחסית של כל קבוצה. נקבע שרירותית יחידת שטח כללית על המישור ,וגודלה של יחידה זו יוגדר 1וייצגאת כלל האוכלוסיה. נשרטט מלבן לכל קבוצה .רוחב המלבן )על ציר ה (x-ייקבע לפי הטווח המתאיםלקבוצה ,וגובה המלבן שמכונה צפיפות )על ציר ה (y-יהיה השכיחות היחסית חלקי אורך הטווח של הקבוצה. הסבר על מושג הצפיפות עד כה עסקנו ביחידות ציר ה x-ובשכיחות היחסית שמייצג שטח המלבן .היחידות שעל ציר ה y-יוגדרו כצפיפות. מקור המונח הוא שגובה המלבן מגדיר את קצב צבירת השכיחות היחסית ,ליחידת .x הצפיפות לא מייצגת שטח כמובן ,והיא גם לא השכיחות היחסית .הצפיפות היא השכיחות היחסית חלקי יחידות המדידה של .x נשים לב שמתקבל שהשטח של כל מלבן ,דהיינו הצפיפות )גובה( כפול יחידות המדידה )בסיס( ,שווה לשכיחות היחסית של הקבוצה המתאימה. כך למשל גובה של 0.19אומר שכל פעם שנתקדם יחידה לאורך ציר ה ,x-נצבור עוד 1.9% מהשכיחות היחסית. נציין כי בספרים ותוכנות שונים ,לעיתים יחידות המדידה של ציר ה y-מוגדרות כ"הסתברות" או "שכיחות יחסית" .זה רחוק מלהיות נכון .למשל ,צפיפות יכולה להיות גדולה בערכה מ!1- בערכים נומרים ,כאשר רוחבי הקטעים שווים ,הערכים הרשומים על ציר ה y-הם פרפורציונליים לשכיחות היחסית של הקטעים הרלוונטיים ,אך אין הם יחידות המדידה שלו ,כנדרש מכל פונקציה. דוגמה :נתונים 100אנשים שהתפלגות הגילאים שלהם היא: 19 relativefrequency frequency age 0.02 0.1 0.19 0.27 0.25 0.16 0.01 1 2 10 19 27 25 16 1 100 15-25 25-35 35-45 45-55 55-65 65-75 75-85 sum היסטוגרמה של נתונים אלה תיראה כך: נשים לב שבדוגמה זו הטווחים נבחרו להיות שווים באורכם ) ,(10ולכן ספציפית במקרה זה גובהה של כל עמודה הוא השכיחות היחסית. פוליגון פוליגון הוא מצולע שקודקודיו הם אמצעי הפאה העליונה של המלבנים בהיסטוגרמה. בדוגמה הקודמת פוליגון מתאים הוא: 3 סוגי משתנים כל משתנה מקבל ערך כלשהו .הערכים הם התצפיות או הנתונים שיש לנו עבור כל משתנה. 20 משתנה קטגוריאלי :משתנה שמקבל ערך מתוך סדרה מוגדרת ובדרך־כלל מצומצמת של ערכים שמכונים "קטגוריות". למשל המשתנה "אדם" מקבל ערך אחד מתוך הסדרה "מין" שמכילה שתי קטגוריות - "זכר" ו"נקבה". • קיימות שתי דרכים מקובלות להצגת משתנים מסוג זה. דיאגרמת מקלות )אופקית או אנכית( :מציירים מקלות שגובהם הוא השכיחותהיחסית )שלא כמו ההיסטוגרמה( ושלרוחבם אין משמעות. דיאגרמת עוגה :מחלקים את שטח העוגה לפי השכיחות היחסית של כל קבוצה.משתנה נומרי :משתנה שמקבל ערכים מספריים. משתנה זה יכול להיות בדיד ורציף ,והאבחנה בין שני המקרים לא תמיד ברורה. כך למשל מספר הילדים במשפחה הוא תמיד בדיד ,אולם הממוצע שלהם הוא רציף. פונקציית צפיפות :מחזירה עבור כל ערך את גובה העמודה המתאימה בהיסטוגרמה. נתבונן בפונקציית צפיפות בעלת נקודת מקסימום יחידהת שהיא שכיח הסדרה .כלומר קיים שכיח יחיד. 3 נניח עוד שעד לנקודה זו הפונקציה עולה וממנה היא יורדת. כאשר פונקציית הצפיפות סימטרית :שכיח=חציון=ממוצע. כאשר פונקציית הצפיפות מוטה חיובית :שכיח≥חציון≥ממוצע. כאשר פונקציית הצפיפות מוטה שלילית :שכיח≤חציון≤ממוצע.החוק האמפירי :עוסק בפונקציות צפיפות טיפוסיות שניתן מידי פעם לפגוש באוכלוסיות. לפי החוק האמפירי בין סטיית תקן אחת למעלה וסטיית תקן אחת למטה מהממוצע יתקבלו כ 67%-מהתצפיות ,בין שתי סטיות תקן סביב הממוצע יתקבלו כ95%- מהתצפיות ,ובין 3סטיות תקן סביב הממוצע יתקבלו כ 98%-מהתצפיות. החוק אינו נכון תמיד ,אך בניגוד לאי־שוויון צ'בישב המחמיר הוא מהווה "כלל אצבע" ונותן ערכים מציאותיים יותר. 4 מדדי קשר בין משתנים לאחר שעסקנו בכל משתנה בנפרד נרצה לאפיין קשר בין משתנים שונים וכיצד הם נעים יחד. למשל ,האם ניתן ללמוד משהו על ערכו של האחד אם ידוע ערכו של השני? האם ניתן לקבוע בהכללה שכאשר ערכו של אחד גדל כך גם השני? או להיפך? ואם כן ,באיזו מידה הכללה זו נכונה? מדדי הקשר שנדון בהם כעת וישר הרגרסיה שיבוא אחר כך ,עוסקים בשאלה זו. 3פונקציות מסוג זה מכונות "יונימודליות" ).(unimodal 21 4.1 שונות משותפת )Covariance ( הגדרה :נניח שנתונים שני משתנים .X, Yהשונות המשותפת להם מוגדרת להיות: 1 = X1 − X Y1 − Y + ... + Xn − X Yn − Y n = ) Cov (X, Y n 1X = Xi − X Yi − Y n i=1 דוגמה :נניח כי .SD (Y ) = 4 ,SD (X) = 2 ,Y = 6 ,X = 4 נסדר את הנתונים בטבלה: X Y Xi − X Yi − Y Xi − X Yi − Y 1 5 −3 −1 3 3 4 −1 −2 2 4 7 0 1 0 5 1 1 −5 −5 7 13 3 7 21 נחשב את השונות המשותפת וניווכח ש.Cov (X, Y ) = 4.2 > 0- המשמעות של העובדה שהשונות המשותפת של Xו Y -חיובית ,היא שהמשתנים הללו תלויים באופן חיובי .כלומר ,אם אחד גדל -האחר גדל. נוסחה :ניתן לראות שמתקיים: n 1X = Xi − X Yi − Y n i=1 n n = ) Cov (X, Y n n 1X 1X 1X 1X XYi + = XY Xi Yi − Xi Y − n i=1 n i=1 n i=1 n i=1 = = X · Y − 2X · Y + X · Y = X · Y − X · Y ולכן קיבלנו את הנוסחה: Cov (X, Y ) = X · Y − X · Y תיאום בין משתנים :נאמר שהמשתנים X, Yמתואמים חיובית )שלילית( אם השונות המשותפת שלהם חיובית )שלילית(. נאמר שהמשתנים X, Yבלתי־מתואמים אם השונות המשותפת שלהם היא .0 22 תכונות השונות המשותפת .1הזזה באמצעות חיבור קבועים לשני המשתנים )גם אם התזוזות שונות זו מזו בערכן( אינה משנה את השונות המשותפת. כלומר ,לכל a, bקבועים מתקיים: ) Cov (X + a, Y + b) = Cov (X, Y הסיבה לכך היא ששינוי כל התצפיות בקבוע מזיז את הממוצע בדיוק באותו קבוע, ולכן ההפרשים מהממוצע לא משתנים. .2לכל a, bקבועים מתקיים: ) Cov (aX, bY ) = ab · Cov (X, Y משתי התכונות הללו נובע שלכל a, b, c, dקבועים מתקיים: ) Cov (aX + b, cY + d) = ac · Cov (X, Y .3 )Cov (X, Y ) = Cov (Y, X .4 )Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z .5 ) V ar (X ± Y ) = V ar (X) + V ar (Y ) ± 2Cov (X, Y הוכחה: 2 (Xi ± Yi ) − X ± Y = n X i=1 1 n = ) V ar (X ± Y n 2 1 X Xi − X ± Yi − Y = n i=1 = n 2 i2 1 Xh Xi − X + Yi − Y ± 2 Xi − X Yi − Y = n i=1 ) = V ar (X) + V ar (Y ) ± 2Cov (X, Y 23 = 4.2 מקדם המתאם )Correlation coecient ( הגדרה :מקדם המתאם בין X, Yמוגדר להיות: ) Cov (X, Y ) SD (X) · SD (Y = ) Corr (X, Y הרחבה :נוכל לפתח את הביטוי ולקבל: ) Cov (X, Y = ) SD (X) · SD (Y = ) Corr (X, Y n Xi − X Yi − Y Yi − Y 1 X Xi − X = · ) SD (X) SD (Y )n i=1 SD (X ) SD (Y Pn i=1 1 n = נשים לב שקיבלנו שההגדרה של מקדם המתאם של X, Yשקולה לשונות המשותפת של ציוני התקן של Xושל .Y תכונות מקדם המתאם .1מדד זה נייטרלי ביחס ליחידות המדידה. ניתן לראות תכונה זו בכך שמדובר בשונות משותפת של ציוני תקן ,שכפי שראינו הם נייטרלים ליחידות המדידה. .2 )Corr (X, Y ) = Corr (Y, X .3לכל a, b, c, dקבועים מתקיים: ( Corr (X, Y ) if a · c > 0 ) acCov (X, Y = )Corr (aX + b, cY + d = ) |a| SD (X) |c| SD (Y −Corr (X, Y ) if a · c < 0 ובפרט מתקיים: ) = Corr (X, Y X −X Y −Y , ) SD (X) SD (Y Corr תכונה יסודית של מקדם המתאם: −1 ≤ Corr (X, Y ) ≤ 1 )נוכיח טענה זו בהמשך(. מתכונה זו נובע שכאשר מקדם המתאם הוא למשל 0.8מדובר בקשר חזק בין שני המשתנים. 24 רגרסיה לינארית )regression 5 הפחותים( .Linearאו :ישר הריבועים נגדיר קו ישר מהצורה ,y = b + axכך ש b-הוא החותך ו a-הוא השיפוע. n נרצה לעסוק במרחק שבין סדרה כלשהי של נקודות {(Xi , Yi )}i=1במישור לבין הישר .y נשים לב שכאשר b = Y ,a = 0מקבלים את הישר הקבוע ,y = Yולעיל כשעסקנו בממוצע הגדרנו ביטוי למרחק של הסדרה ממנו: 2 Yi − Y n X = Syy i=1 n נכליל את הביטוי הזה למרחק של סדרת נקודות {(Xi , Yi )}i=1מישר כללי ,y = b + ax ונגדיר מרחק זה להיות: 2 ) (Yi − b − aXi n X 2 = )) (Yi − (b + aXi i=1 n X i=1 n {(Xi , Yi )}i=1 כעת נרצה למצוא a, bכאלה שימזערו את המרחק של סדרת הנקודות .y = b + ax הישר שיתקבל לאחר הצבת הנקודות a, bשנבחר ייקרא ישר הרגרסיה או ישר הריבועים הפחותים של Yעל .X בישר זה נשתמש כדי לחזות את Yבהינתן .Xלמשל בהינתן X3נצפה ש Y3 -יהיה שווה ל.b + aX3 - פעמים רבות תחזית זו תהיה לא נכונה לגמרי ,וייווצר פער בין Y3האמתי לבין Y3החזוי שמכונה שארית .המטרה היא למזער את השארית. מהישר הערה :בניגוד לשונות המשותפת ולמקדם המתאם בהם יש סימטריה ביחס שבין Xל,Y - בישר הרגרסיה הדבר לא־כך ,והישר של Xעל Yשונה מהישר של Yעל .X משפט :ישר הרגרסיה של Yעל Xהוא הישר היחיד שעובר דרך הנקודה X, Yוששיפועו ) SD(Y ).a = Corr (X, Y ) · SD(X הוא או באופן שקול :הישר היחיד שהחותך שלו הוא b = Y − aXוששיפועו הוא: ) SD (Y )SD (X · ) a = Corr (X, Y נשים לב שמתקיים: ) SD (Y ) Cov (X, Y ) SD (Y ) Cov (X, Y = · = )SD (X )SD (X) SD (Y ) SD (X )V ar (X · ) a = Corr (X, Y שבהינתן שקיים aקבוע כלשהו ,הערך של bשממזער את הביטוי הוכחה 2:ראשית נשים לב Pn ) i=1 (Yi − b − aXiהוא .b = Y − aX טענה זו נובעת מכך שהראינו ליעל שמיזעור פונקציית הפסד מסוג זה מתקבל באמצעות n הממוצע של הסדרה שבמקרה שלנו .{Yi − aXi }i=1 ולכן בהינתן aנבחר את bלהיות .b = Y − aX = Y − aX 25 נשים לב שטענה זו מספיקה כדי להראות שהנקודה X, Yעל הישר המבוקש ,שכן היא מקיימת את המשוואה Y = b + aXעבור bשמצאנו. 2 Pn אם כן נותר למצוא aשימזער את הביטוי . i=1 Yi − Y − aX − aXi נפתח את הביטוי באופן הבא: n 2 2 X = = Yi − Y − aX − aXi Yi − Y − a Xi − X i=1 n X 2 Xi − X + a2 Xi − X n X i=1 Yi − Y n X − 2a 2 Yi − Y i=1 i=1 n X = i=1 כעת נשים לב שניתן להתייחס לביטוי שהתקבל כאל פרבולה צוחקת כשהמשתנה הוא .a 2 , −d הנוסחה על־ידי שמתקבל מינימום יש cx + dx + e מהצורה צוחקת לפרבולה 2c ואם נציב במקרה שלנו נקבל שהמינימום מתקבל: Pn Pn 1 Xi − X 2 i=1 Yi − Y Xi − X ) Cov (X, Y i=1 Yi − Y n = = 2 2 Pn Pn 1 )V ar (X Xi − X 2 Xi − X i=1 i=1 n הרחבה :עבור ) c > 0 ,y = cx2 +dx+eפרבולה צוחקת( הערך המינימלי מתקבל באמצעות 2 הביטוי .e − d4c נציב את הערכים של הביטוי שקיבלנו: 2 Pn n X 2 −2 i=1 Yi − Y Xi − X = Yi − Y − 2 Pn 4 i=1 Xi − X i=1 2 Yi − Y Xi − X = 2 Pn i=1 Xi − X Pn i=1 # 2 Yi − Y Xi − X 2 = 2 Pn Yi − Y · n1 i=1 Xi − X − 2 = i=1 1 Pn i=1 Yi − Y n X n Pn 1 i=1 n 2 ) 1 − Corr2 (X, Y Yi − Y " 1− 2 Yi − Y n X = i=1 n X = i=1 ראשית ניכר שככל שהביטוי ) Corr2 (X, Yקרוב יותר ל ,1-סכום ריבועי השאריות מישר הרגרסיה של Yעל Xקטן יחסית לסכום ריבועי השאריות מ.Y - כעת ניזכר בכך שהביטוי כולו התקבל כסכום של ריבועים ולכן הוא לא יכול להיות שלילי ,ומכאן בהכרח ,−1 ≤ Corr (X, Y ) ≤ 1כפי שטענו לעיל מבלי להוכיח. n מסקנה :נשים לב שהמשמעות של מקרה בו השאריות מתאפסות ,היא שכל הנקודות {(Xi , Yi )}i=1 ממוקמות על ישר אחד. 26 נזכור שהביטוי שמתאר את השאריות הוא: 2 1 − Corr2 (X, Y ) = 0 Yi − Y n X 2 = ) (Yi − b − aXi n X i=1 i=1 ומכאן שהתאפסות מתרחשת אם ורק אם .Corr2 (X, Y ) = 1 נסיק שכל הנקודות ממוקמות על ישר אחד אם ורק אם .Corr (X, Y ) = 1 2 סימונים: 2 Xi − X n X = Sxx i=1 2 n X Yi − Y = Syy i=1 Yi − Y Xi − X n X = Sxy i=1 Yˆi = b + aXi yˆ = b + ax 2 Yi − Yˆi n X = See i=1 2 Yˆi − Y n X = ˆSyˆy i=1 S xy .a = Sxx נשים לב שבסימונים אלה ,שיפוע ישר הרגרסיה הוא נסמן את מידת הקירבה של הנקודות לישר הרגרסיה בהשוואה למידת הקירבה של הנקודות לממוצע: Corr2 (X, Y ) = R2 וכן נשים לב שבסימונים אלה מתקיים: See Syy = 1 − R2 תכונות ישר הרגרסיה .1הישר עובר דרך הנקודה . X, Y n on . Yi − Yˆi n .2נסמן את סדרת השאריות = {ei }i=1 Pn מתקיים תמיד , i=1 ei = 0או באופן שקול .e = 0 i=1 27 :הוכחה n X ei = i=1 n X n n n n X X X X ˆ Yi − Yi = (Yi − b − aXi ) = Yi − b− aXi = i=1 i=1 i=1 i=1 i=1 = nY − nb − anX = nY − n Y − aX − anX = 0 : כלומר. ממוצע הערכים החזויים שווה לממוצע של הערכים הנכונים.3 Yˆ = Y :הוכחה Yˆ = ax + b = aX + b = Y . ולא רק לישר הרגרסיהX, Y תקפות לכל ישר העובר בנקודה1−3 תכונות:הערה Pn .Xe = 0 או באופן שקול, i=1 Xi ei = 0 מתקיים תמיד.4 :הוכחה n X Xi ei = i=1 = n X n X n X Xi Yi − Yˆi = Xi (Yi − b − aXi ) = i=1 i=1 Xi Yi − Y + aX − aXi = i=1 = n X Xi − X n X Xi Yi − Y − a i=1 i=1 | = i=1 n X i=1 {z Xi − X = nCov (X, Y ) − | i=1 i=1 {z =0 n X 2 Yi − Y − a Xi − X = i=1 Cov (X, Y ) nV ar (X) = nCov (X, Y ) − nCov (X, Y ) = 0 V ar (X) .Yˆ e = 0 או באופן שקול, n X i=1 } =0 i=1 Yˆi ei = Xi Xi − X = n n n X X X Yi − Y − a Xi − X Xi − X + aX Xi − X = Yi − Y + X i=1 n X n X (b + aXi ) ei = b n X ei + a i=1 Pn n X i=1 28 i=1 Yˆi ei = 0 מתקיים תמיד.5 :הוכחה Xi ei = b · 0 + a · 0 = 0 } .6 2 Yˆi − Y n X + 2 Yi − Yˆi n X 2 = Yi − Y n X i=1 i=1 i=1 או ברישום מקוצר: ˆSyy = See + Syˆy הוכחה: = 2 Yi − Yˆi + Yˆi − Y n X = 2 n X Yi − Y i=1 i=1 2 ˆ ˆ = Yi − Y + Yi − Y + 2 Yi − Yˆi n X 2 Yˆi − Y Yˆi − Y + = n X 2 Yi − Yˆi n X = i=1 Yi − Yˆi i=1 2 +2 2 Yi − Yˆi i=1 i=1 Yˆi − Y n X + 2 Yi − Yˆi n X = n X = i=1 i=1 השוויון האחרון נכון מכיוון שמתקיים: n n n X X X = Yˆi − Y ei Yˆi − ei Y = 0 − Y ei = 0 i=1 i=1 Yi − Yˆi i=1 n X i=1 .7מסקנה: n n n 2 2 1 X 2 1 X 1X = Yi − Y Yˆi − Y Yi − Yˆi + n i=1 n i=1 n i=1 = ) V ar (Y במילים :השונות שמוסברת על־ידי ישר ועוד השונות שאינה מוסברת על־ידי ישר הרגרסיה ,שוות לשונות הכללית. כלומר ,ישר הרגרסיה מסוגל להסביר רק חלק מהשונות הכללית ,כי אנחנו מגבילים את עצמינו לישר לינארי בלבד. .8ביטוי אלטרנטיבי לישר הרגרסיה: y−Y x−X · ) = Corr (X, Y ) SD (Y )SD (X .9ריבוע מקדם המתאם מודד עד כמה צפופות הנקודות סביב ישר הרגרסיה ,בהשוואה לצפיפותן סביב הישר הקבוע .y = Y 29 .10נניח כי שיפוע ישר הרגרסיה של Yעל Xחיובי. נבצע רוטציה בזווית מסוימת של הנתונים כך שהם יעברו תנועה מעגלית עם כיוון השעון ,כאשר הציר בנקודה , X, Yונדאג רק שהקורלציה תשאר חיובית גם לאחר הרוטציה. השיפוע של ישר הרגרסיה החדש יקטן בהשוואה לקודמו .הממוצעים של Xושל Y ישתנו מעט. ) SD (Xעלה במעט אך ) SD (Yקטן באופן משמעותי. ee לבסוף See ,ישתנה במעט .מכאן ש- SSyyיגדל באופן משמעותי. נשים לב כי למרות שצפיפות הנקודות סביב ישר הרגרסיה נותרה כמעט ללא שינוי, מקדם המתאם ירד משמעותית. ההסבר לכך הוא שפיזור הנקודות סביב הישר y = Yקטן משמעותית ,ולכן הצפיפות היחסית של הנקודות סביב ישר הרגרסיה בהשוואה לצפיפות סביב הישר הנ"ל - קטנה. מסקנה :ככל ש Corr2 (X, Y )-גדול יותר כך פיזור הנקודות סביב ישר הרגרסיה בהשוואה לפיזורן סביב ישר הממוצע -נמוך יותר) .פיזור במובן של סכום ריבועי הסטיות(. לסיכום :ככל שהמתאם גדול יותר קו הרגרסיה של Yעל Xמנבא טוב יותר בהשוואה לממוצע. .11 ) V ar Yˆ = Corr2 (X, Y ) V ar (Y .12הסימן של ) Corr (X, Yמאפיין את היחס בין המשתנה המתוקנן של Yˆiלבין המשתנה המתוקנן של .Xi דוגמה :נתבונן בנתונים הבאים: X 1.61 1.48 −1.25 −0.38 0.18 0.99 −1.00 −0.88 0.36 0.49 −0.32 −0.19 0.24 0.80 −2.12 Y 0.34 2.22 −2.00 −0.12 1.09 −0.12 −0.59 −0.50 −0.12 0.81 −0.03 −0.59 0.34 0.81 −1.53 √ p נחשב ונקבל ,X = Y ' 0וכן . R2 = Corr2 (X, Y ) = 0.635 דיאגרמת הפיזור של הנתונים במערכת צירים היא: 30 נתאים ישר רגרסיה בהתאם לנוסחה שהוכחנו ,ונקבל את הישר הבא: לנתונים ,ומביאים להטיה בזווית כלשהי את הישר עם כעת ננתח שינוי שבו מבצעים רוטציה כיוון השעון ,סביב ראשית הצירים ). X, Y = (0, 0 נגדיר כעת סדרה של תצפיות חדשות ) ∗ ,(X ∗ , Yונניח לדוגמה שכל אחת מהתצפיות מתקבלת מהסדרה המקורית באמצעות הביטוי: x∗ = 1.63x − 0.07y y ∗ = −0.07x + 0.37y נקבל במקרה זה את סדרת התצפיות: ∗X 2.60 2.26 −1.90 −0.61 0.21 1.62 −1.59 −1.40 0.60 0.74 −0.52 −0.28 0.37 1.25 −3.35 ∗Y 0.01 0.72 −0.65 −0.02 0.39 −0.12 −0.15 −0.12 −0.07 0.27 0.01 −0.21 0.11 0.24 −0.42 √ p נחשב ונקבל ,X = Y ' 0וכן . R2 = Corr2 (X, Y ) = 0.48 דיאגרמת הפיזור של הנתונים החדשים בתוספת ישר הרגרסיה החדש ,היא: 31 נשים לב שישר הרגרסיה החדש עדיין עובר ב , X, Y = (0, 0)-אבל הוא קרוב יותר לישר הקבוע ,y = Y = 0כי שיפועו קטן )אך עם זאת נשאר בעל אותו סימן(. כמו־כן נשים לב שגם מקדם המתאם ירד באופן משמעותי ,מ 0.8-ל 4 .0.7-כלומר ,לאחר ביצוע הרוטציה ירד טיב הניבוי של ישר הרגרסיה. 5.1 נסיגה לממוצע )Regression to the mean ( ראינו שישר הרגרסיה מתקבל מהמשוואה: x−X y−Y ) = Corr (X, Y ) SD (Y )SD (X נניח שאחד הנתונים Xiנמצא kסטיות תקן מעל )מתחת( לממוצע ,Xאז ציון התקן Xi −X ) Zi = SD(Xשווה .(−k) k לפי הניבוי של ישר הרגרסיה ,הנתון Yˆiיהיה במרחק של ) k · Corr (X, Yסטיות תקן מעל )מתחת( לממוצע .Y נשים לב שהניבוי ) k·Corr (X, Yיתקבל תמיד בטווח ) . Y − k · SD (Y ) , Y + k · SD (Y הנסיגה לממוצע קובעת שבמונחי ציון תקן ,המרחק של ˆ) Yהערך החזוי( מהממוצע Yקטן מהמרחק של Xמהממוצע .X עובדה זו נובעת מכך שהקורלציה ) Corr (X, Yתמיד קטנה בערכה המוחלט מ.1- ישר סטיות התקן :נגדיר את ישר סטיות התקן להיות או באופן שקול לאחר העברת אגפים: x−X )SD(X y−Y . SD(Y = ) ) SD (Y ) SD (Y ) SD (Y = x−X +Y x− X +Y )SD (X )SD (X )SD (X =y ישר סטיות התקן אינו מאופיין בנסיגה אל הממוצע והוא מגדיר מתאם מלא. כלומר ,בתחזית הנקבעת לפי ישר סטיות התקן ,אם Xiנמצא kסטיות תקן מעל )מתחת( ,Xאז גם ˆ Yנמצא kסטיות תקן מעל )מתחת( .Yנשים לב שישר הרגרסיה הוא הישר שממזער את השאריות כך שישר סטיות התקן בהכרח פחות טוב ממנו. √ √ 4קיבלנו את המספרים האלה מכך ש. 0.635 ' 0.8 , 0.48 ' 0.7 : 32 הערה חשובה :קורלציה אינה זהה לסיבתיות )!(causality כלומר ,העובדה שקיים מתאם בין שני משתנים אינה אומרת ששינוי באחד יוביל לשינוי באחר. כך למשל קיימת קורלציה חזקה בין משקל לבין גובה ,ועם זאת השמנה אינה גוררת עלייה בגובה. ישר הרגרסיה של Xעל Y .1ישר הרגרסיה של Xעל Yשונה מישר הרגרסיה של Yעל .X .2נזכור שישר הרגרסיה של Yעל Xהוא: x−X y−Y ) = Corr (X, Y ) SD (Y )SD (X ולכן אם נחליף תפקידים נקבל את ישר הרגרסיה של Xעל :Y y−Y x−X ) = Corr (X, Y )SD (X ) SD (Y ולכן הישר ייראה מהצורה: x−X ) SD (Y ) SD (X) Corr (X, Y = y−Y .3באותה מערכת צירים ,שני ישרי הרגרסיה הללו נחתכים בנקודה , X, Yוכן שיפועו ) SD(Y 1 ) ( SD(Xחד משיפוע ישר הרגרסיה של Y של ישר הרגרסיה של Xעל Corr(X,Y ) ) Y ) SD(Y ).(Corr (X, Y ) SD(X על ) X .4השיפוע של ישר סטיות התקן הוא ערך ביניים כלשהו בין השיפועים הללו. לא נוכיח ,אולם ) SD (X) = SD (Yאם ורק אם ישר סטיות התקן הוא חוצה הזווית שבין ישרי הרגרסיה הנ"ל. .5ישר סטיות התקן של Xעל Yמתלכד עם ישר סטיות התקן של Yעל .X .6הראינו לעיל עבור ישר הרגרסיה של Yעל Xשמתקיים: See ) = 1 − Corr2 (X, Y Syy 2 Pn ) SD(Y ).Yˆi = Corr (X, Y ) SD(X כאשר See = i=1 Yi − Yˆiוכן Xi − X + Y באותו אופן עבור ישר הרגרסיה של Xעל Yמתקיים: ∗ See ) = 1 − Corr2 (X, Y Sxx 33 Pn ∗ ˆ ).Xˆi = Corr (X, Y ) SD(X כאשר i=1 Xi − Xi = Seeוכן SD(Y ) Yi − Y + X נסיק מכך: ∗ See Sxx )V ar (X = = See Syy ) V ar (Y כלומר ,שני ישרי הרגרסיה משמרים את יחס סכום ריבועי הסטיות ששווה ליחס השונויות. כמו־כן ,מכיוון ש ,Corr (X, Y ) = Corr (Y, X)-שיעור השונות המוסברת שווה בשני ישרי הרגרסיה .כלומר ,יכולת הניבוי של שני ישרי הרגרסיה שווה בעוצמתה. .7ראינו לעיל את הנוסחה: ) V ar (X + Y ) = V ar (X) + V ar (Y ) + 2Cov (X, Y נניח כי X, Yבעלי אותה התפלגות ,ונתבונן בביטוי ) .V ar (X + Y קל לראות שהמינימום מתקבל כאשר Y = −Xואז ,V ar (X + Y ) = 0והמקסימום מתקבל כאשר Y = Xואז ).V ar (X + Y ) = 4V ar (X כאשר X, Yמתואמים באופן שלילי ונניח ש X-גדל ,אז Yקטן ומתקיים: ) V ar (X + Y ) < V ar (X) + V ar (Y כי השונות המשותפת שלילית .כלומר Yמאזן בחזרה את X + Yלכיוון התוחלת המקורית שלו. כאשר X, Yמתואמים באופן חיובי ונניח ש X-גדל ,אז Yגדל ומתקיים: ) V ar (X + Y ) > V ar (X) + V ar (Y כי השונות המשותפת חיובית .כלומר במונחי שונות אנחנו לא מרוויחים מכך שY - הוא משתנה חדש )מה שיעלה את השונות מ V ar (X)-ל ,(V ar (X)+V ar (Y )-אלא אותו ערך של Xנדגם בשנית. 34 הקדמה :הסטטיסטיקה התאורית שבה עסקנו עד עתה קובעת כלים יעילים לניתוח מאפיינים של קבוצות נתונים .למשל ראינו שהממוצע החשבוני של סדרת נתונים מביא למינימום את פונקציית המרחק של סכום ריבועי הסטיות .זו עובדה מתמטית טהורה שאינה קשורה בהכרח לטבע העולם ולכן כשלעצמה היא לא עוזרת לנו להסיק כל מסקנה. כדי להסיק מסקנות נצטרך להשתמש במודל .נעסוק במודל הנפוץ של תורת ההסתברות. לשם כך נציג תחילה מבוא שיכיל מושגים כלליים ויסודיים מתורת הקבוצות )נציג את המונחים בהקשר ובשפה של סטטיסטיקה ,אולם למעשה מה שנראה בפרק 2אלה מושגים כלליים בתורת הקבוצות( ,ולאחר מכן נציג את המודל של תורת ההסתברות. חלק II מבוא לתורת הקבוצות 5.2 מונחים יסודיים .1מבצעים ניסוי כלשהו] .למשל הטלת קוביה[. .2כל אחת מהתוצאות האפשריות נקראת "מאורע פשוט" ומסומנת ב.ωi - ]תוצאה אפשרית בדוגמה שלנו היא 2או [.4 .3אוסף כל התוצאות האפשריות נקרא "מרחב המדגם" ומסומן ) Ωאומגה(. ]בדוגמה זו מרחב המדגם הוא }[.{1, 2, 3, 4, 5, 6 כלומר ,אם יש nאפשרויות אז } ] .Ω = {ω1 , ω2 , ..., ωnבדוגמה זו יש 6אפשרויות[. .4אוסף כלשהו של תוצאות אפשריות נקרא "מאורע". ]למשל } {1, 3ו {2, 3, 4, 5}-הם מאורעות[. נשים לב ש Ω-כולה היא סוג של מאורע ,כי היא אוסף כלשהו של תוצאות אפשריות. .5נסמן את הקבוצה הריקה של המאורעות / ב .O-קבוצה זו היא ה"אפס" של המאורעות. שייכות :נשתמש בסימן "∈" כדי לקבוע שמאורע פשוט שייך למאורע. כך למשל המאורע הפשוט " "3שייך למאורע } ,{1, 3ולכן נסמן }.3 ∈ {1, 3 ∈ .7 לעומת זאת המאורע הפשוט " "7אינו שייך למאורע } {1, 3ולכן נסמן }/ {1, 3 הכלה :נאמר שמאורע Aמוכל במאורע ,Bאם לכל a ∈ Aמתקיים גם .a ∈ B כדי לציין שמאורע Aמוכל במאורע Bנסמן .A ⊆ B נשים לב שהמאורע / Oמוכל בכל מאורע ,וכן שכל מאורע מוכל במאורע .Ω שוויון :נאמר שמאורעות A, Bשווים אם מתקיים A ⊆ Bוגם .B ⊆ A מאורע משלים :נאמר שמאורע Bהוא המשלים של מאורע ,Aאם הוא מכיל את כל האיברים שמוכלים ב Ω-ולא ב.A- כך למשל בניסוי של הטלת קוביה ,המאורע } B = {1, 2, 6הוא המשלים של המאורע }.A = {3, 4, 5 נסמן ב A-את המאורע המשלים של .Aבהתאם להגדרה מתקיים .A = Ω − A נשים לב שמתקיים: 35 / ,Ω = O / .1 Ω = Oלכל מרחב מדגם. A = A .2לכל מאורע. הערה :משמעותו של שוויון זה היא שמתקיימת סימטריה .כלומר ,אם Bהוא מאורע משלים של ,Aאז Aהוא מאורע משלים של .B איחוד מאורעות :איחוד המאורעות A, Bהוא מאורע שמכיל את כל המאורעות הפשוטים ששייכים ל A-או ששייכים ל") .B-או" במשמעותו המתמטית .כלומר ,כולל המאורעות הפשוטים ששייכים לשניהם(. נסמן את איחוד המאורעות A, Bב .A ∪ B-למשל }.{1, 2} ∪ {2, 4, 5} = {1, 2, 4, 5 נשים לב שמתקיים: A ∪ A = Ω .1לכל מאורע .A / = A .2 A ∪ Oלכל מאורע .A חיתוך מאורעות :חיתוך המאורעות A, Bהוא מאורע שמכיל את המאורעות הפשוטים ששייכים ל A-וגם ל.B- באופן פורמלי x ∈ A ∩ B ,אם x ∈ Aוגם .x ∈ B נסמן את חיתוך המאורעות A, Bב .A ∩ B-למשל }.{1, 2} ∩ {2, 4, 5} = {2 נשים לב שמתקיים: / .1 A ∩ A = Oלכל מאורע .A / =O / .2 A ∩ Oלכל מאורע .A מאורעות זרים :המאורעות A, Bנקראים זרים אם / .A ∩ B = O דיאגרמת־ון :דיאגרמות מסוג זה שנתאר מיד ,הן כלי שימושי אך לא־פורמלי להבנת היחסים של שייכות ,הכלה ,איחוד ,חיתוך והשלמה שבין מאורעות שונים. דיאגרמת־ון כללית של מאורעות המסומנים A, Bנראית כך: כאשר המלבן כולו מייצג את מרחב המדגם ,Ωושני העיגולים מייצגים שני מאורעות .A, B השטח החופף לשני העיגולים מייצג את החיתוך .A ∩ B השטח של שני העיגולים ,כאשר את השטח החופף מחשבים פעם אחת ,מייצג את האיחוד .A ∪ B השטח הכולל של המלבן פחות השטח של שני העיגולים ,מייצג את המשלים .A ∪ B וכן באופן דומה ניתן לסמן מאורעות נוספים בדיאגרמה וליצור יחסים אחרים. 36 דוגמה :נתייחס בדוגמה זו לדיאגרמה שהוצגה לעיל. נגדיר את מרחב המדגם Ωלהיות כל הסטודנטים והסטודנטיות משנה א'. נגדיר את המאורע Aלהיות הבנים ,כך שהמאורע Aהוא הבנות. נגדיר את המאורע Bלהיות הסטודנטים והסטודנטיות בעלי העיניים הכחולות, והמאורע Bלהיות כל השאר. לפי הגדרות אלה המאורע A ∩ Bהוא כל הבנים בעלי העיניים הכחולות. כמו־כן המאורע A ∪ Bהוא כל הבנים ,בתוספת הבנות בעלות העיניים הכחולות. או באופן שקול :קבוצות הסטודנטים והסטודנטיות בעלי העיניים הכחולות ,בתוספת הבנים בעלי עיניים שאינן כחולות. נשים לב שמתקיים .girls with non-blue eyes = A ∪ B = A ∩ B 5.3 כללי דה־מורגן טענה :1לכל שתי קבוצות A, Bמתקיים: A∪B =A∩B הוכחה :נוכיח את השוויון באמצעות הכלה דו־כיוונית. • כיוון ראשון :יהי wמאורע פשוט כלשהו המקיים .w ∈ A ∪ Bנסיק: w ∈A∪B ⇓ ∈w / A∪B ⇓ ∈w ∈ / A and w /B ⇓ w ∈ A and w ∈ B ⇓ w ∈A∩B ולכן .A ∪ B ⊆ A ∩ B • כיוון שני :יהי wמאורע פשוט כלשהו המקיים .w ∈ A ∩ Bנסיק: w ∈A∩B ⇓ w ∈ A and w ∈ B ⇓ ∈w ∈ / A and w /B ⇓ ∈w / A∪B ⇓ w ∈A∪B ולכן .A ∩ B ⊆ A ∪ B 37 • נסיק משני הכיוונים שלפי הגדרת השוויון מתקיים .A ∩ B = A ∪ B הערה :נשים לב שבשני הכיוונים ביצענו את אותם היסקים ,רק בכיוונים לוגיים הפוך. כלומר כל צעד בהוכחה מהווה שקילות ולא רק גרירה בכיוון אחד ,כך שיכולנו לרשום בקיצור פעם אחת את אותם שלבים לוגיים עם הסימון ⇔. טענה :2לכל שתי קבוצות A, Bמתקיים: A∪B =A∩B הוכחה :נשתמש בתוצאה שהראינו בטענה הקודמת ,ונסיק: A∪B =A∩B ⇓ A∪B =A∩B ⇓ A∪B =A∩B ⇓ A∪B =A∩B =A∩B הגרירה האחרונה נובעת מכך שהטענה נכונה לכל שתי קבוצות ,A, Bובפרט גם עבור הקבוצות .A, Bכלומר ביצענו הצבה של A, Bבשוויון שקיבלנו על .A, B 5.4 שכיחות יחסית נניח כי נתון מרחב המדגם של הטלת קוביה.Ω = {1, 2, 3, 4, 5, 6} : ביצענו את הניסוי 100פעמים והתקבלו התוצאות הבאות: 6 15 0.15 5 10 0.1 4 15 0.15 3 25 0.25 2 20 0.2 1 15 0.15 results frequency relative frequency נגדיר את fלהיות פונקציה שמחזירה את השכיחות היחסית. כלומר ) f (Aהיא השכיחות היחסית של מאורע Aכלשהו. ראשית נשים לב שמתקיים: / =0 f O f (Ω) = 1 נבחן למשל את המאורעות הבאים: f (A) = 0.6 }A = {1, 2, 3 f (B) = 0.5 }B = {2, 4, 6 f (A ∪ B) = 0.9 }A ∪ B = {1, 2, 3, 4, 6 38 חשוב לשים לב כי ).f (A ∪ B) 6= f (A) + f (B הסיבה לכך היא שמאורע פשוט ששייך גם ל A-וגם ל B-נספר פעם אחת בלבד כאשר מחשבים את השכיחות היחסית של .A ∪ B מנימוק זה נסיק שמתקיימת הנוסחה: )f (A ∪ B) = f (A) + f (B) − f (A ∩ B • במקרה שבו המאורעות A, Bזרים ,מתקיים השוויון הפשוט: )f (A ∪ B) = f (A) + f (B כי / = 0 .f (A ∩ B) = f O • מכאן נוכל להסיק שמתקיים: )f A = 1 − f (A כי A, Aהם מאורעות זרים ,ולכן: f (A) + f A = f A ∪ A = f (Ω) = 1 • עבור שלושה מאורעות מתקיים: )f (A ∪ B ∪ C) = f (A)+f (B)+f (C)−f (A ∩ B)−f (A ∩ C)−f (B ∩ C)+f (A ∩ B ∩ C • f (A) = f (A ∩ B) + f A ∩ B הסיבה לכך היא שמתקיים השוויון: A = (A ∩ B) ∪ A ∩ B / (A ∩ B) ∩ A ∩ B = O • נשים לב שהמאורע A ∩ Bהוא " Aפחות ."Bכלומר מכיל את המאורעות הפשוטים של ,Aלמעט אלו ששייכים גם ל ,B-ולכן: )f A ∩ B = f (A) − f (A ∩ B 39 5.5 חלוקה הגדרה :נניח שנתון מרחב מדגם Ωכלשהו. n נאמר שקבוצה של מאורעות {Bk }k=1היא חלוקה של ,Ωאם מתקיימים שני תנאים: n .1המאורעות {Bk }k=1זרים בזוגות. כלומר ,לכל i 6= jעבור i, j = 1, ..., nמתקיים / .Bi ∩ Bj = O 5 n .2המאורעות {Bk }k=1מכסים את .Ω כלומר ,מתקיים כי Bi = B1 ∪ B2 ∪ ... ∪ Bn = Ω n [ . i=1 נשים לב שלכל מאורע Aמתקיים כי הזוג A, Aהוא חלוקה. • נכליל את השוויון f (A) = f (A ∩ B)+f A ∩ Bשראינו לעיל ,לחלוקה ) f (A ∩ Bi n X n :ַ{Bk }k=1 = ) f (A) = f (A ∩ B1 ) + f (A ∩ B2 ) + ... + f (A ∩ Bn i=1 5נשים לב כי אם המאורעות זרים בזוגות אז הם זרים .כלומר מתקיים גם = .B1 ∩ B2 ∩ ... ∩ Bnההיפך לא נכון. 40 חלק III תורת ההסתברות נבנה מודל שמעניק משמעות פורמלית למידת הוודאות להתרחשות של מאורעות. לשם כך נגדיר כי המאורע Ωהוא ודאי ומקבל את הערך המקסימלי ,1והמאורע / Oיקבל את הערך המינימלי .0כל שאר המאורעות יקבלו ערכי ביניים. נגדיר את הפונקציה (probability) Pשתחזיר את ערך הוודאות של כל מאורע .Aכלומר: P (Ω) = 1 / =0 P O 0 ≤ P (A) ≤ 1 דוגמה :נדון בהטלת קוביה .מניחים שסדר התוצאות אינו משנה וכן תוצאה שחוזרת על עצמה היא אותה תוצאה. נבדוק מהו מספר המאורעות האפשריים: אם } Ω = {1יש שני מאורעות אפשריים/ Ω : .O, אם } Ω = {1, 2יש ארבעה מאורעות אפשריים/ {1} , {2} , Ω : .O, אם } Ω = {1, 2, 3יש שמונה מאורעות אפשריים/ {1} , {2} , {3} , {1, 2} , {1, 3} , {2, 3} , Ω : .O, וכן הלאה... טענה :במרחב מדגם בעל nמאורעות פשוטים ,מספר המאורעות האפשריים הוא .2n הדבר נובע מכך שעבור כל מאורע פשוט קיימות שתי אפשרויות :שייך למאורע או לא שייך לו. אם־כך במקרה של הטלת קוביה פעמיים יש לנו מרחב מדגם בן עד 62 = 36מאורעות, הוודאות שמאורע זה יתרחש. ונרצה להעניק לכל מאורע מספר שיעניק ביטוי פורמלי למידת כפי שהגדרנו כבר לעיל ,לא ייתכן שלא יקרה כלום ולכן / = 0 .P Oכמו־כן בוודאות מאורע כלשהו מתוך מרחב המדגם יקרה ולכן .P (Ω) = 1כל שאר המאורעות הם במידה של ודאות שנמצאת בין 0ל.1- נדרוש שהערכים שניתן למאורעות יהיו הגיוניים ,במובן זה שאם למשל A ⊆ Bאז ≤ )P (A ).P (B פונקציית הסתברות נאמר שפונקציה Pכלשהי נקראת "פונקציית הסתברות" אם היא מקיימת את התנאים הבאים: P (Ω) = 1 .1 )א( לכל A ⊆ Ωמתקיים ).0 ≤ P (A טענה :שני התנאים מספיקים לקבוע שלכל A ⊆ Ωמתקיים .P (A) ≤ 1 הוכחה: )1 = P (Ω) = P (A) + P A ≥ P (A 41 ]השוויון הראשון נובע מתנאי .a1 השוויון השני נובע מהעובדה ש A-ו A-מאורעות זרים ומתכונות פונקציית השכיחות היחסית שהגדרנו לעיל. השוויון שבסוף נובע מתנאי 2שקובע שכל הסתברות היא אי־שלילית ,ובפרט אי גם [.P A )ב( אם A, Bמאורעות זרים ,אז: )P (A ∪ B) = P (A) + P (B שלושת התנאים האלה נקראים "אקסיומות פונקציית ההסתברות". האקסיומות הללו בלתי תלויות .כלומר ,כל שתיים מהן לא גוררות את השלישית .או באופן שקול :עבור כל שתי אקסיומות ,קיימת פונקציה אחרת שאינה פונקציית הסתברות ,המקיימת את השתיים הללו ולא מקיימת כלל את השלישית. בינתיים אנו לא יודעים האם קיימת פונקציה שאכן מקיימת את שלושת התנאים הללו .מיד נראה קיום של פונקציה כזאת באמצעות דוגמה. עוצמה של מאורע :נגדיר עוצמה של מאורע Aלהיות מספר המאורעות הפשוטים השייכים ל ,A-ונסמן אותה ב.|A|- לדוגמה ,אם } A = {1, 2אז ,|A| = 2ואם } Ω = {1, 2, ..., 6אז .|Ω| = 6 הפונקציה ||A ||Ω = )P (A נבחן כעת את הפונקציה ||A ||Ω = ) P (Aונראה שהיא פונקציית הסתברות: = 1 .1 ||Ω ||Ω = )P (Ω ≤ 1 .2 ||A ||Ω ≤ 0כי ,|A| , |Ω| > 0וכן תמיד |.|A| ≤ |Ω .3נניח כי A, Bמאורעות זרים ,אז אכן מתקיים: ||A ∪ B ||A| + |B ||A| |B = = + )= P (A) + P (B ||Ω ||Ω ||Ω ||Ω = )P (A ∪ B הערה :פונקציה זו אינה הפונקציה היחידה שמקיימת את אקסיומות פונקציית ההסתברות. נגדיר את מרחב המדגם } Ω = {ω1 , ω2 , ..., ωnונתבונן בפונקציה החלופית הבאה: ( 1 ω1 ∈ A = )P (A ∈ 0 ω1 /A נראה שמתקיימים שלושת אקסיומות פונקציית ההסתברות: ω1 ∈ Ω .1ולכן .P (Ω) = 1 .2כל ערכי הפונקציה האפשריים הם 0, 1ולכן ודאי ).0 ≤ P (A 42 .3נניח כי A, Bמאורעות זרים .נבדוק שלוש אפשרויות: ∈ ) ω1לא שייך ל A-ולא ל (B-אז ההסתברויות כולן מקיימות: )א( אם / A ∪ B P (A) = P (B) = P (A ∪ B) = 0 ולכן מתקיימת האקסיומה. )ב( אם ) ω2 ∈ A ∩ Bשייך ל A-ולא ל (B-אז ,P (B) = 0 ,P (A) = 1 P (A ∪ B) = 1ולכן מתקיימת האקסיומה. )ג( אם ) ω1 ∈ A ∩ Bשייך ל B-ולא ל (A-מדובר במקרה סימטרי למקרה ).(b מדוגמה זו נוכל להסיק שגם לאחר ניסוח אקסיומות פונקציית ההסתברות ,נותר שיקול דעת בידי מתכנן המודל. תכונות פונקציית ההסתברות / = 0 .1 .P O הוכחה :נשים לב שמתקיים לכל Aכי / ,A = A ∪ Oולכן: / = P (A) + P O / P (A) = P A ∪ O ⇓ / =0 P O .2אם A, B, Cמאורעות זרים בזוגות ,אז: )P (A ∪ B ∪ C) = P (A) + P (B) + P (C הוכחה: = )P (A ∪ B ∪ C) = P ((A ∪ B) ∪ C )= P (A ∪ B) + P (C) = P (A) + P (B) + P (C .3לכל זוג מאורעות A, Bמתקיים: P (A ∩ B) = P (A) − P A ∩ B הוכחה :נשים לב שמתקיים A = (A ∩ B) ∪ A ∩ Bוזה איחוד זר .מכאן: P (A) = P (A ∩ B) ∪ A ∩ B = P (A ∩ B) + P A ∩ B m .4אם {Bk }k=1היא חלוקה של ,Ωאז: ) P (A ∩ Bi m X i=1 43 = )P (A הוכחה :כפי שראינו לעיל לכל Aמתקיים: ) A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ ... ∪ (A ∩ Bm כאשר זה איחוד זר בזוגות .ולכן: = )) P (A) = P ((A ∩ B1 ) ∪ (A ∩ B2 ) ∪ ... ∪ (A ∩ Bm ) P (A ∩ Bi m X = ) = P (A ∩ B1 ) + P (A ∩ B2 ) + ... + P (A ∩ Bm i=1 .5לכל A, Bמתקיים: )P (A ∪ B) = P (A) + P (B) − P (A ∩ B הוכחה :נשים לב שמתקיים: )A ∪ B = A ∩ B ∪ A ∩ B ∪ (A ∩ B וזה איחוד זר בזוגות .ולכן: = )A ∩ B ∪ A ∩ B ∪ (A ∩ B P (A ∪ B) = P = )= P A ∩ B + P A ∩ B + P (A ∩ B = )= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B )= P (A) + P (B) − P (A ∩ B ]נשים לב שהשוויון השלישי נובע מתכונה [.3 פונקציית הסתברות כללית :כדי לבנות פונקציה כלשהי שמקיימת את אקסיומות פונקציית ההסתברות על התחום שנסמן } ,Ω = {ω1 , ω2 , ..., ωnמספיק לבנות אותה כך שתקיים את שני התנאים הבאים: 0 ≤ P (ωi ) 1 ≤ i ≤ n P (ωi ) = 1 n X i=1 לא נוכיח כאן ,אולם שני תנאים אלה מספיקים בכדי להפוך בהכרח את הפונקציה לפונקציית הסתברות ,המקיימת עבור מאורע כלשהו Aשההסתברות היא: X = )P (A ) P (ωi ωi ∈A 44 מרחב הסתברות אחיד :נאמר שמרחב מדגם Ωהוא מרחב הסתברות אחיד ,אם לכל אחד מהמאורעות הפשוטים שבו יש הסתברות שווה. הדוגמאות הקלסיות והנפוצות ביותר למרחב מדגם מסוג כזה הן הטלת קוביה והטלת מטבע. • הטלת קוביה :מרחב המדגם הוא } Ω = {1, 2, 3, 4, 5, 6וההסתברויות הן: 1 6 = )P (1) = P (2) = P (3) = P (4) = P (5) = P (6 נבחר למשל את המאורע } .A = {2, 1, 4ההסתברות היא 21כי מאורע זה כולל חצי מהאפשרויות במרחב הסתברות אחיד .ניתן לחשב גם לפי תכונות פונקציית ההסתברות: 1 1 1 1 = + + 6 6 6 2 = )P (A • הטלת מטבע :מרחב המדגם הוא } Ω = {H, Tוההסתברויות הן = ) P (H) = P (T . 21 נדון למשל במקרה בו שני שחקנים מחליטים לזרוק את המטבע פעמיים ,ולהגדיר: אם יש אפס פעמים Hאז שחקן א' מנצח. אם יש פעם אחת Hשחקן ב' מנצח. אם יש פעמיים Hתיקו.}{T, T } {T, H} (H, T ) {H, H נשים לב לתוצאות האפשריות והסתברותן: 0.25 0.25 0.25 0.25 מכאן שהאפשרות של תיקו מתקבלת בשני אירועים ,ולכן ההסתברות לתיקו היא ,0.5 כפול מההסתברויות ששחקן א' ינצח וששחקן ב' ינצח. נשים לב כי במודל שהגדרנו מרחב המדגם }”Ω = {”player A wins”, ”player b wins”, ”tie הוא לא מרחב הסתברות אחיד. 45 חלק IV קומבינטוריקה לניסוי פשוט יש nתוצאות אפשריות] .למשל בהטלת קוביה יש 6תוצאות אפשריות[. נניח שחוזרים על הניסוי הפשוט rפעמים] .למשל מטילים קוביה פעמיים[. השאלה המרכזית שנרצה לברר במסגרת זו היא כמה תוצאות קיימות לניסוי המורכב? כלומר, מהי עוצמתו של מרחב המדגם? ראשית ,בכל פעם שמבצעים ניסוי חשוב להבחין בשני מאפיינים: • האם יש או אין חשיבות לסדר? • האם הניסוי מתבצע עם או בלי החזרה? למשל בהטלת קוביה פעמיים ניתן לקבל תוצאה של ) (1, 2או תוצאה של ) .(2, 1עלינו להחליט לפי המקרה האם מדובר בשתי תוצאות שונות או בתוצאה אחת .כלומר ,האם יש חשיבות לסדר או לא. למשל בשליפת פתק מתוך כובע פעמיים יש חשיבות לשאלה האם לפני השליפה השנייה אנו מחזירים את הפתק שיצא בשליפה הראשונה או לא .כלומר ,האם מדובר במדגם עם החזרה או בלי החזרה. להלן נדון בכל האפשרויות :מדגם סדור/לא סדור עם החזרה/בלי החזרה. 5.6 מדגם סדור עם החזרה במדגם סדור עם החזרה מספר האפשרויות הוא .|Ω| = nr למשל בהטלת קוביה פעמיים ,מספר האפשרויות הוא :62 = 36 )(1, 2) (1, 3) (1, 4) (1, 5) (1, 6 (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) ⇒ |Ω| = 62 = 36 (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) )(6, 2) (6, 3) (6, 4) (6, 5) (6, 6 )(1, 1 )(2, 1 )(3, 1 Ω= )(4, 1 )(5, 1 )(6, 1 נשים לב שמכיוון שיש חשיבות לסדר ,מנינו גם את האפשרות ) (1, 3ו (3, 1)-כשתי אפשרויות שונות. 5.7 מדגם סדור ללא החזרה הגדרה" :עצרת" של מספר טבעי kמוגדרת ומסומנת כך: k! = 1 · 2 · 3 · ... · k 46 !n במדגם סדור ללא החזרה מספר האפשרויות הוא !)(n − r = |0 ≤ r ≤ n ,|Ω בדוגמה של הטלת הקוביה ,העובדה שלא מאפשרים חזרה מסירה את כל האפשרויות מהאלכסון בו מוצגות התוצאות בהן שתי התוצאות זהות .לכן נישאר עם האפשרויות הבאות: )(1, 2) (1, 3) (1, 4) (1, 5) (1, 6 )(2, 1 (2, 3) (2, 4) (2, 5) (2, 6) )(3, 1) (3, 2 !6 (3, 4) (3, 5) (3, 6) = | ⇒ |Ω Ω= = 6·5 = 30 )(4, 1) (4, 2) (4, 3 (4, )5 (4, )6 (6 − !)2 )(5, 1) (5, 2) (5, 3) (5, 4 (5, 6) )(6, 1) (6, 2) (6, 3) (6, 4) (6, 5 נסביר כיצד הגענו לנוסחה :בניסוי הפשוט הראשון קיימות nתוצאות אפשריות .בניסוי הפשוט השני ירדה אפשרות אחת )כי אין החזרה( ולכן נשארנו עם n − 1תוצאות אפשריות, וכן הלאה .בניסוי הפשוט ה r-נישאר עם n − r + 1תוצאות אפשריות. מכאן שסך האפשרויות הוא: = )n · (n − 1) · ... · (n − r + 1 !n n · (n − 1) · ... · (n − r + 1) · (n − r) · ... · 2 · 1 = (n − r) · ... · 2 · 1 !)(n − r לצורך שלמות ההגדרה ,נאמר כי .0! = 1נראה בהמשך שהגדרה זו שימושית במקרי־קיצון. כך למשל לפי הגדרה זו מספר התוצאות האפשריות של סידור ללא החזרה של nאיברים !n !). (n−n הוא != n 5.8 מדגם לא סדור ללא החזרה בהשוואה למדגם סדור עם החזרה ,מספר האפשרויות מצטמצם ,כי מאורעות בעלי אותם איברים בסדר שונה מתלכדים למאורע אחד. במדגם לא סדור ללא החזרה מספר האפשרויות הוא !n !)r!(n−r = n r = |,|Ω 0≤r≤n מספר זה נותן למעשה את מספר הצירופים האפשריים של rאיברים מתוך nאיברים. !n !) (n−rאפשרויות בהנחה שהסדר משנה. נסביר כיצד הגענו לנוסחה :ראשית נתונות לנו כעת נרצה להסיר האפשרויות שמופיעות יותר מפעם אחת ולמנות אותן רק פעם אחת. נשים לב כי ראינו שעבור כל rאיברים נתונים קיימים ! rסידורים שונים אפשריים ,כי במקום הראשון יש rאפשרויות ,במקום השני r − 1אפשרויות וכן הלאה .לכן נחלק ב r!-ונקבל את הנוסחה שקבענו. n n )נזכור שהגדרנו = נשים לב שבמקרים r = n ,r = 0נקבל= 1 : 0 n ) .(0! = 1ההיגיון בתוצאה זו הוא שמתוך nאיברים יש רק דרך אחת לבחור 0איברים או nאיברים ללא חשיבות לסדר. 47 טענה: n n−r = n r הוכחה: !n !n !n = = !))(n − r)! (n − (n − r !(n − r)!r !)r! (n − r ההסבר לשוויון זה הוא שמדובר באירועים משלימים אחד לשני. למשל קל לראות שבחירת 3תלמידים מכיתה של 10לחברות בוועד ,זֹו פעולה שקולה לבחירת 7תלמידים מכיתה של 10שלא יהיו חברים בוועד. טענה: n−1 r + n−1 r−1 n r n−1 r = הוכחה: !)(n − 1 !)(n − 1 + = !)(r − 1)! ((n − 1) − (r − 1))! r! (n − r − 1 = + n−1 r−1 !)(n − 1 !)(n − 1 !)r (n − 1 !)(n − r) (n − 1 + = + = !)(r − 1)! (n − r)! r! (n − r − 1)! r! (n − r !)r! (n − r !)r (n − 1)! + (n − r) (n − 1 !)(r + n − r) (n − 1 = = !)r! (n − r !)r! (n − r !n !)n (n − 1 n = = = r !)r! (n − r !)r! (n − r = = נסביר את השוויון שקיבלנו .נניח שבוחרים rאיברים מתוך ,nונניח ש x-הוא איבר כלשהו מתוך ה .n-ברור שיש שתי אפשרויות זרות :או ש x-כלול ב r-האיברים הנבחרים או שלא .אין אפשרות נוספת .מכיוון שהאפשרויות הללו זרות ,אם נחשב את מספר התוצאות האפשריות בכל אחת מהאפשרויות ונסכום ,נקבל את כל התוצאות האפשריות. עצמים מתוך n − 1העצמים במקרה ש x-כלול ב r-שבחרנו ,נשאר לבחור r −1 n−1 הנותרים ,ולכן מספר התוצאות האפשריות הוא . r−1 במקרה ש x-לא כלול ב r-שבחרנו ,עלינו לבחור rאיברים מתוך n − 1האיברים )את הראשון אי־אפשר לבחור( ,ולכן מספר התוצאות האפשריות הוא הנותרים n−1 . r 48 באמצעות הטענה האחרונה ניתן להציג את ערכו של n r באמצעות מה שמכונה "משולש פסקל": שני הערכים שמעליו .זו בדיוק הטענה שהוכחנו כסכום המשולש נבנה כך שכל ערך מתקבל n . כעת ולכן הערך ה r-בשורה ב n-הוא r 5.8.1 הבינום של ניוטון n X n ar bn−r r n = )(a + b r=0 ראשית ברור שכאשר aנכפל rפעמים ,נשאר ל b-להיות נכפל n − rפעמים. כדי לבדוק את כל הקומבינציות האפשריות שמתקבלות ,משתמשים במה שהוכחנו לעיל אודות בחירת rאיברים מתוך ,nכאשר הסדר לא משנה וללא החזרה. כך זה נראה במקרה של :n = 4 4 X 4 = )(a + b = ar b4−r r 4 r=0 = a4 4 0 a3 b + 4 1 a2 b2 + 4 2 ab3 + 4 3 = b4 + 4ab3 + 6a2 b2 + 4a3 b + a4 49 b4 + 4 4 = הרחבה :אם a = b = 1מתקיים: n n X X n n n n n r n−r = )2 = (1 + 1 1 1 = = + +...+ r r 0 1 n n n r=0 r=0 כלומר 2nזה מספר סך איברים. המאורעות שניתן ליצור במרחב מדגם המכיל n n n מאורעות מאורעות בעלי 0מאורעות פשוטים, הסיבה לכך היא שניתן ליצור 1 0 בעלי 1מאורעות פשוטים ,וכן הלאה. 5.9 מדגם לא סדור עם החזרה האפשרויות הוא החזרה מספר במדגם לא סדור עם !)(n + r − 1 n+r−1 = |.|Ω = r !)r! (n − 1 לא נוכיח תוצאה זו אולם נדגים אותה. במשחק שש־בש זורקים שתי קוביות בבת־אחת .לצורך מהלך המשחק אין הבדל למשל בין ) (2, 3לבין ) (3, 2ולכן הסדר לא משנה. התוצאות האפשריות הן: )(1, 1 )(2, 1) (2, 2 )(3, 1) (3, 2) (3, 3 Ω= (4, )1 (4, )2 (4, )3 (4, )4 )(5, 1) (5, 2) (5, 3) (5, 4) (5, 5 )(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6 7 = |.|Ω כלומר ,r = 2 ,n = 6ולכן = 21 2 הערה :במקרה זה אין מקום להניח הסתברויות אחידות מעל 21האפשרויות ,כי מכיוון שהסדר לא משנה ,ספרנו למשל את ) (1, 2פעם אחת ,בעוד התוצאה הזו מתקבלת גם על־ידי ) (2, 1ולכן סביר לתת לה הסתברות כפולה. 5.10 דוגמאות 5.10.1 זריקת קוביות )(1, 6 (2, 6) (3, 6) (4, 6) (5, 6) )(6, 6 )(1, 5 )(2, 5 )(3, 5 )(4, 5 )(5, 5 )(6, 5 )(1, 4 )(2, 4 )(3, 4 )(4, 4 )(5, 4 )(6, 4 )(1, 3 )(2, 3 )(3, 3 )(4, 3 )(5, 3 )(6, 3 )(1, 2 )(2, 2 )(3, 2 )(4, 2 )(5, 2 )(6, 2 )(1, 1 )(2, 1 )(3, 1 Ω= )(4, 1 )(5, 1 )(6, 1 1 . 36 .|Ω| = nr = 62 = 36מדובר במרחב הסתברות אחיד ,ולכן לכל תוצאה הסתברות 50 • ההסתברות לאירוע " 3בקוביה הראשונה"= :A 6 1 = 36 6 = )P (A • ההסתברות לאירוע " 3בזריקה השנייה"= :B 6 1 = 36 6 = )P (A • ההסתברות לאירוע "לפחות פעם אחת 3בשתי הזריקות"= :A ∪ B 6+5 11 = 36 36 = )P (A ∪ B נשים לב שהחיתוך A ∩ Bמכיל את ) (3, 3ולכן אותה התוצאה באופן הבא: 6 6 1 11 + − = 36 36 36 36 1 36 = ) ,P (A ∩ Bומכאן נקבל את = )P (A ∪ B) = P (A) + P (B) − P (A ∩ B • ההסתברות לאירוע "לא לקבל 3בכלל"= :A ∪ B 11 25 P A ∪ B = 1 − P (A ∪ B) = 1 − = 36 36 5.10.2 ימי־הולדת נבדוק את ההסתברות שבכיתה בת 35סטודנטים ,כולם חוגגים יום־הולדת בימים שונים במהלך השנה ,תחת ההנחה שכל הימים שווי־הסתברות. r = 35 ,n = 365ולכן .|Ω| = 36535 לצורך עמידה בתנאים ,לסטודנט הראשון 365אפשרויות ,לשני ,364לשלישי ,363וכן הלאה, עד שלסטודנט ה 35-נותרו .365 − 35 + 1 = 331 נשים לב שזהו מדגם סדור וללא החזרה ,ולכן מספר האפשרויות לקומבינציה של 35ימי !n !). (n−r != 365 הולדת בימים שונים ,הוא !330 35 סך כל האפשרויות לימי־הולדת הוא ,365ולכן ההסתברות לאירוע המבוקש היא: = 0.17 !365 !330 36535 נשים לב שההסתברות לכל אחד מהגורמים דיי גבוהה וקרובה ל ,1-כי ההסתברות שיום־ הולדת ייפול על יום־הולדת קודם דיי נמוכה ,אולם עדיין המכפלה של כולם יחד נותנת תוצאה נמוכה יחסית. נזכיר בהקשר זה את "חוק ליטלווד" )שאינו חוק מתמטי רציני( שקובע שסביר שכל אחד יחווה נס לפחות פעם אחת בחודש .כי ההסתברות לנס בכל שנייה היא נמוכה מאוד ,אבל יש הרבה מאוד שניות בחודש. 51 5.10.3 זריקת כדורים לתאים נניח שזורקים שלושה כדורים לשלושה תאים ,כאשר כל תא יכול להכיל את כל שלושת הכדורים. מספר האפשרויות לסידור הכדורים בתאים הוא .|Ω| = 33 = 27 • ההסתברות שכל התאים יהיו מלאים היא: !3 6 2 = = 3 3 27 9 כי מספר הדרכים לסדר שלושה כדורים בשלושה תאים שונים הוא !.3 • ההסתברות שכל הכדורים יהיו באותו התא היא: 1 3 = 3 3 9 כי מספר הדרכים לסדר את כל שלושת הכדורים באותו כד ,הוא .3 • ההסתברות שתא אחד בדיוק יישאר ריק היא ההסתברות המשלימה של המקרה בו יש שני תאים ריקים ושל המקרה בו כל התאים מלאים. לעיל מצאנו שההסתברויות הללו הן 29ו , 19 -ולכן ההסתברות המבוקשת היא: 1 2 6 2 = = − 9 9 9 3 1− דרך נוספת היא לחשב זאת באופן ישיר. ראשית נקבע תא ריק )יש 3אפשרויות לכך(. את שלושת הכדורים ניתן לפזר ב 23 = 8-דרכים שונות בין שני התאים האחרים. נסיר שתי אפשרויות שבהן יש תא ריק נוסף )אם כל הכדורים בתא אחד( ,ונישאר עם 6אפשרויות. לכן יש לנו 3 · 6 = 18אפשרויות ,וההסתברות המבוקשת היא: 18 2 = 27 3 5.10.4 קלפי ברידג' שחקן ברידג ,מקבל 13קלפים מתוך חפיסה של .52 • השחקן מעוניין לדעת מהי ההסתברות שמתוך 13הקלפים יהיו לו 5הקלפים הבאים: אס ,מלך ,מלכה ,נסיך ו10-־עלה. 52 . ראשית מספר כל האפשרויות לקבל 13מתוך 52הוא 13 השחקן מעוניין ב 5-קלפים מסוימים ,ולא משנה לו מה יהיו שאר 8הקלפים. המטרהשלנו הוא לבחור את 5הקלפים המבוקשים ,ובהינתן שבחרנו אותם אירוע 47 אפשרויות לבחור את שאר הקלפים. נותרו 8 52 מכאן שההסתברות למאורע המבוקש היא: 47 8 52 13 נשים לב שגם לו היינו בוחרים 5קלפים מסוימים אחרים ההסתברות לא הייתה משתנה. • כעת נניח שהשחקן מעוניין לקבל 5קלפים מסוימים ,כולם בצורת לב או 5קלפים מסוימים כולם בצורת עלה. נזכור את הנוסחה.P (A ∪ B) = P (A) + P (B) − P (A ∩ B) : מכאן שההסתברות למאורע המבוקש ,שהוא איחוד של מאורעות ,היא: 47 47 ·2 − 8 3 52 13 47 זה מספר האפשרויות לבחור את 3הקלפים שנותרו בהינתן 10המבוקשים. כי 3 5.10.5 חברי־כנסת נניח שבכנסת 20חברים ממפלגה א' ו 30-חברים ממפלגה ב'. בוחרים באקראי 2חברי־כנסת. • ההסתברות ששניהם ממפלגה א' היא: 20 2 50 2 • ההסתברות ששניהם ממפלגה ב' היא: 30 2 50 2 • ההסתברות שאחד ממפלגה א' והאחר ממפלגה ב' היא: 20 30 · 1 1 50 2 53 5.11 הסתברויות היפר־גאומטריות נניח שנתונה אוכלוסייה בגודל ,Nכאשר kמתוכם שייכים לסוג א' והשאר ) (N − kשייכים לסוג ב'. בוחרים מתוך האוכלוסייה מדגם בגודל ,rכאשר }.max {0, r + k − N } ≤ x ≤ min {k, r ההסתברות ש x-מתוך המדגם הם מסוג א' היא: k N −k · x r−x N r כלומר אנו מעוניינים ש x-איברים מהאוכלוסייה יהיו שייכים גם לסוג א' וגם למדגם .rלכן בוחרים xמתוך kוגם בוחרים r − xמתוך ,N − kמתוך סך כל האפשרויות לבחור rמתוך .N כאשר xחורג מתחום ההגדרה ,הביטוי אינו מוגדר וההסתברות היא .0 הערה :כאשר } r > min {k, N − kייתכן ש x > k-או ש ,r − x > N − k-ואז צריך לקרוא את המונה כ ,0-כי אכן זו אפשרות שהסתברותה .0 6 הסתברות מותנה )probability (Conditional הסתברות מותנה היא מידת הוודאות למאורע ,בהינתן שקרתה עובדה כלשהי שרלוונטית למאורע. למשל ,ההסתברות שברק אובמה נבחר לנשיאות ארצות הברית תלויה בשאלה מי זכה בבחירות המקדימות במפלגה הדמוקרטית .אם היינו יודעים שהילרי קלינטון זכתה ההסתברות היא ,0ואם היינו יודעים שאובמה זכה קיימת הסתברות חיובית. הגדרה :נניח כי A, Bמאורעות במרחב מדגם | ,|Ωונניח .P (B) > 0 ההסתברות של Aבהינתן Bשנסמן ) P (A|Bמוגדרת: )P (A ∩ B )P (B = ||A∩B ||Ω ||B ||Ω ||A ∩ B = = )P (A|B ||B נשים לב שבהעברת אגפים פשוטה מקבלים את השוויון: )P (A ∩ B) = P (A|B) P (B דוגמה :1מטילים זוג קוביות הוגנות .נגדיר את המאורעות הבאים: 4 .P (A) = 36 "סכום הקוביות הוא .A= "9מתקיים כי = 19 1 "בקוביה השנייה מתקבל .B = "5מתקיים כי .P (B) = 6 1 .P (A ∩ B) = 36 כמו־כן מתקיים 54 כעת נניח שקיבלנו מידע שבקוביה השנייה התקבל .5מהי ההסתברות כעת שסכום הקוביות הוא ?9נשתמש בהגדרה של הסתברות מותנה: 6 1 = 36 6 = 1 36 1 6 )P (A ∩ B = )P (B = )P (A|B מכאן שתוספת המידע אודות התוצאה של הקוביה השנייה הגדילה את ההסתברות למאורע שהגדרנו. ניתן גם לבדוק את ההפך :מהי ההסתברות שבקוביה השנייה קיבלנו ,5אם נתון שסכום הקוביות הוא :9 1 9 = 36 4 = 1 36 1 9 )P (A ∩ B = )P (A = )P (B|A וגם כאן הסתברותו של המאורע עלתה בעקבות המידע החדש. תכונות ההסתברות המותנה :כל התכונות של הסתברות נשמרות גם להסתברות מותנה. כך למשל: / P O|B =0 P (Ω|B) = 1 0 ≤ P (A|B) ≤ 1 )P (A ∪ C|B) = P (A|B) + P (C|B) − P (A ∩ C|B כמו כן נניח שנתון } Ω = {ω1 , ω2 , ..., ωnומוגדר המאורע } .A = {ω1 , ω2 יחס ההסתברויות בין המאורעות הפשוטים ω1 , ω2נשמר גם בהינתן ש A-התרחש: ) P (ω1 ) P (ω2 = ) P (ω1 )P (A ) P (ω2 )P (A = )P (ω1 |A )P (A )P (ω2 |A )P (A )P (ω1 |A = )P (ω2 |A כלומר ,פונקציית ההסתברות המותנה משמרת את היחסים הפנימיים. הרחבה :נזכור את הנוסחה .P (A) = P (A ∪ B) + P A ∪ B ומהגדרת הסתברות מותנה נובע כי: P (A) = P (B) · P (A|B) + P B · P A|B שקלול בין ) P (A|Bלבין המשמעות של שוויון זה היא שההסתברות ) P (Aהיא ,P A|Bכאשר המשקל של כל אחד מהם הוא ) P (Bו P B -בהתאמה .לכן אם )) P (A|B) > P (Aכלומר התרחשות המאורע Bהגדילה את ההסתברות ל (A-אז בהכרח ).P A|B < P (A 55 דוגמה :נתבונן בהסתברויות הבאות של המאורעות :A1 , A2 P (A2 ) = 0.5 P (A2 |A1 ) = 0.7 P A2 |A1 = 0.6 זו סיטואציה שלא יכולה להתרחש ,כי לפי השוויון שהראינו צריך להתקיים: P (A2 ) = P (A1 ) · 0.7 + P A2 · 0.6 ומכיוון ש 0 ≤ P (B) , P B ≤ 1-בהכרח נקבל מספר בין 0.6ל.0.7- 6.1 נוסחת ההסתברות השלמה n נניח ש {Bi }i=1 -היא חלוקה של מרחב המדגם. כלומר לכל i 6= jמתקיים / ,Bi ∩ Bj = Oוכן Bi = Ω n [ . i=1 אז מתקיים: ) P (Bi ) P (A|Bi n X = ) P (A ∩ Bi i=1 n X = )P (A i=1 נוסחה זו שימושית כאשר נתונות הסתברויות של מאורע המותנית במאורעות אחרים ,כאשר המאורעות האחרים יוצרים חלוקה. דוגמה :נתונים 3כדים המכילים כדורים. בכד aכדור לבן וכדור אדום בכד bכדור לבן ושני כדורים אדומים בכד cכדור לבן ושלושה כדורים אדומיםנבחר כד באופן מקרי )כך שההסתברות לכל כד היא מקרי. ( 31ונבחר ממנו כדור באופן • מה ההסתברות לכדור לבן? 1 2 = )P (white|a 1 3 = )P (white|b 1 4 = )P (white|c נסכום את ההסתברויות באופן משוקלל: = )· P (white|c 1 3 · P (white|b) + 1 3 1 3 · 13 36 = 1 4 · 1 3 + · P (white|a) + 1 3 + 1 2 · 1 3 = ההסתברות לכדור שחור היא כמובן ההסתברות המשלימה: 13 23 = 36 36 P (black) = 1 − 56 1 3 = )P (white שאלות מסוג זה ניתנות להצגה באמצעות "עץ". כך למשל הדוגמה האחרונה מוצגת באמצעות העץ הבא: ההסתברות שמופיעה לכל אירוע בכל קצה של העץ ,היא מכפלת ההסתברויות לאורך הענפים המובילים אליו. דרך נוספת להציג את הדוגמה שהזכרנו: צבע/ כד a כד b כד c סכום 6.2 שחור 1 6 2 9 1 4 23 36 נוסחת ביאס )Bayes' theorem בהינתן חלוקה n {Bi }i=1 לבן 1 6 1 9 1 12 13 36 סכום 1 3 1 3 1 3 1 ( של מרחב מדגם Ωומאורע כלשהו ,Aלכל 1 ≤ i ≤ nמתקיים: ) P (A ∩ Bi ) P (Bi ) P (A|Bi ) P (Bi ) P (A|Bi = Pn = Pn )P (A ) j=1 P (A ∩ Bj ) j=1 P (Bj ) P (A|Bj = )P (Bi |A נוסחה זו נובעת מהגדרת הסתברות מותנית ומנוסחת ההסתברות השלמה. נשים לב שביצענו היפוך של התנאי .במקום לדון בהסתברות של מאורע המטרה Aבהינתן ,Biאנו מחשבים את הסתברות Biבהינתן .A כמובן ניתן לחשב הסתברות זו רק בהינתן ההסתברויות ) .1 ≤ j ≤ n ,P (Bj המשך הדיון בדוגמה נרצה להפוך את הדיון .כלומר נניח שידוע שיצא כדור לבן ,ונשאל מה ההסתברות שהכדור הגיע מכל אחד מהכדים? 57 נחשב: 1 6 13 36 )P (a ∩ white )P (a) P (white|a = = )P (white )P (white = )P (a|white 1 4 )< = P (b 13 3 = 1 9 13 36 )P (b ∩ white )P (b) P (white|b = = )P (white )P (white = )P (b|white 3 1 )< = P (c 13 3 = 1 12 13 36 )P (c ∩ white )P (c) P (white|c = = )P (white )P (white = )P (c|white 6 1 )> = P (a 13 3 = דרך נוספת לחשב את ) P (c|whiteלאחר שידועות שתי ההסתברויות האחרות ,היא: 4 3 6 − = 13 13 13 P (c|white) = 1 − P (a|white) − P (b|white) = 1 − באופן אינטואיטיבי ,קל היה לנחש ש P (a|white) > 13 -וכן ,P (c|white) < 13שכן כל אחד מהם הוא מקרה קצה של מספר לבנים ,אבל המקרה ) P (b|whiteקשה יותר לניחוש. ניתן לבנות עץ אפשרויות גם להיפוך ,על־אף שזה נראה מלאכותי: דוגמה :נניח שבכד 220כדורים ,מתוכם 20אדומים ו 200-לבנים .מוציאים כדור באופן אקראי. אם הכדור שהוצא אדום ,הוא מוחזר לכד ומוסיפים לכד 5כדורים אדומים. אם הכדור שהוצא לבן ,הוא מוחזר לכד ומוסיפים לכד 2כדורים לבנים. נסמן ב Ai -את המאורע של הוצאת כדור אדום בפעם ה ,i-כאשר .1 ≤ i ≤ 2 נסו להעריך מראש מי גדול ממי P (A1 ) -או ) .P (A2 נחשב באופן מדויק: 1 11 = 20 220 = ) P (A1 = P (A2 ) = P (A2 ∩ A1 ) + P A2 ∩ A1 = = P (A1 ) P (A2 |A1 ) + P A1 P A2 |A1 ) = P (A1 1 11 > 337 3663 58 = 20 222 · 10 11 + 25 225 · 1 11 = דוגמה :בכד 20כדורים לבנים ו 30-שחורים .מוציאים שני כדורים בזה אחר זה וללא החזרה. מהי ההסתברות למאורע שהראשון לבן והשני שחור? נסמן ב A-את המאורע שהראשון לבן וב B-את המאורע שהשני שחור. בהתאם לסימון זה ,אנו מחפשים את ההסתברות ).P (A ∩ B לפי השיטה הקומבינטורית נקבל: 20 · 30 50 · 49 = )P (A ∩ B לפי הגישה של הסתברות מותנה נקבל: 30 49 20 50 = )P (A = )P (B|A ⇓ 20 30 · 49 P (A ∩ B) = 50 טענה: )P (A ∩ B ∩ C) = P (A) P (B|A) P (C|A ∩ B הוכחה: )P (A ∩ B ∩ C) = P (C|A ∩ B) P (A ∩ B) = P (C|A ∩ B) P (A) P (B|A נמשיך את הדיון בדוגמה האחרונה ,ונניח שמוציאים 4כדורים בזה אחר זה ללא החזרה. נחשב את ההסתברות למאורע שהראשון והשלישי לבנים ,והשני והרביעי שחורים. בדרך הקומבינטורית נקבל: !20! 30 !18! · 28 !50 !46 באמצעות נוסחת ההסתברות נקבל: 20 30 19 29 · · · 50 49 48 47 = )P (A ∩ B ∩ C ∩ D) = P (A) P (B|A) P (C|A ∩ B) P (D|A ∩ B ∩ C דוגמה :נתונות שלוש מגירות. במגירה aשני כדורי זהב ,במגירה bכדור זהב וכדור כסף ,ובמגירה cשני כדורי כסף. בחרנו מגירה באופן מקרי ,ואז בחרנו כדור מקרי מאותה מגירה ,ונניח שהוצאנו כדור כסף. נבדוק את ההסתברות לכך שהכדור השני במגירה הוא כדור זהב .כלומר את ההסתברות לכך שהמגירה שנבחרה היא מגירה .b 59 יתכן ובמחשבה ראשונה תעלה האפשרויות כי בהסתברות בנוסחת ההסתברות השלמה: )P (b ∩ silver = )P (b|silver = )P (silver 1 3 = 1 1 2·3 1 1 2 1 0 1 · + 2 3 2·3+2·3 = )P (silver|b)P (b 1 2 אין זה כך .נשתמש )P (silver|a)P (a)+P (silver|b)P (b)+P (silver|c)P (c = ניתן לפתור שאלה זו גם באמצעות עץ. דוגמה :נתונה אוכלוסייה בה 5%מהפרטים נשאים של נגיף .זהו האפריור. בהינתן פרט נשא ,בדיקת מעבדה קובעת שהוא אכן נשא בהסתברות של ,0.9וקובעת בטעות שהוא לא נשא בהסתברות המשלימה .0.1 בהינתן פרט שאינו נשא ,בדיקת המעבדה קובעת שהוא לא נשא בהסתברות של ,0.9 וקובעת בטעות שהוא נשא בהסתברות המשלימה .0.1 בהינתן שבדיקת המעבדה קבעה שפרט כלשהו הוא נשא ,מהי ההסתברות שהוא אכן נשא? ייתכן ותשובה פזיזה הייתה קובעת כי ההסתברות היא ,0.9אך אין זה כך. נראה זאת באמצעות עץ: מכאן שההסתברות למאורע שפרט הוא נשא בהינתן שבדיקת המעבדה קבעה שהוא נשא, היא: 0.045 0.05 · 0.9 = = 0.321 0.05 · 0.9 + 0.95 · 0.1 0.045 + 0.095 הסבר :לפני בדיקת המעבדה )אפריורית( חשבנו שהפרט שנדגם באופן מקרי הוא נשא בהסתברות של .0.05 לאחר קבלת התשובה שהוא נשא ,עדכנו את ההסתברות )אפוסטריורית( להיות .0.321 נשים לב שההסתברות האפוסטריורית היא פונקציה לא רק של הבדיקה אלא גם של ההסתברות האפריורית ,ולכן התשובה הפזיזה שגויה. קיבלנו שההסתברות להיות נשא לאור תשובה של בדיקת המעבדה היא רק .0.321זו הסתברות נמוכה שלא מצדיקה התחלה של טיפול ,ולכן ניתן לזמן את החשודים לבדיקה נוספת. נשים לב שנדגם מקרי מתוך הקבוצה שזומנה שוב הוא בעל הסתברות של 0.321להיות נשא, ולכן העץ ייראה כך: 60 ולכן ההסתברות שפרט הוא נשא לאחר שנבדק פעמיים ובשתי הפעמים קיבלת תשובה חיובית היא: 0.321 · 0.9 = 0.81 0.321 · 0.9 + 0.679 · 0.1 באופן כללי ,ההסתברות שפרט כלשהו הוא נשא ,היא: p · 0.9 p · 0.9 + (1 − p) · 0.1 כאשר pמסמן את ההסתברות שלו להיות נשא טרם ביצוע הבדיקה הנוכחית. בהתאם לזאת נוכל לסמן את ההסתברות שפרט כלשהו הוא נשא לאחר nבדיקות ב,pn - ואז: pn · 0.9 = pn+1 pn · 0.9 + (1 − pn ) · 0.1 כאשר .p0 = 0.5 ניתן לראות שמדובר בסדרה מונוטונית עולה ב ,n-המתכנסת ל) 1-ולא למשל ל,(0.9- באמצעות העובדה ש 1-הוא פתרון המשוואה: x · 0.9 x · 0.9 + (1 − x) · 0.1 =x כלומר לכל הסתברות p < 1שנבחר קיים nמספיק גדול )דהיינו מספר בדיקות מספיק גדול( כך שאם נבדק נמצא nפעמים רצופות נשא ,אז ההסתברות שהוא אכן נשא היא לפחות .p דוגמה :נתונות שלוש כוסות ,ובאחת מהן מניחים מטבע. מהמר מנחש באיזו כוס המטבע נמצא ,ולפני שמספרים לו על תוצאות הניחוש שלו, חושפים בפניו כוס ריקה אחת מבין השתיים הנותרות. כעת המהמר יודע שהמטבע נמצא באחת משתי כוסות -זו שבחר מלכתחילה או זו שלא נחשפה בפניו ,והוא מקבל אפשרות להמר מחדש על אחת משתי הכוסות הללו. האם כדאי למהמר לשנות את ההימור? נשים לב שמי שלא משנה את הימורו זוכה במטבע בהסתברות שליש ,כי הוא זוכה אך ורק אם בחר מלכתחילה את הכוס הנכונה ,וההסתברות לכך היא . 13לעומת זאת מי שמשנה את הימורו זוכה בהסתברות שני שליש ,כי הוא זוכה אך ורק אם בחר מלכתחילה את הכוס הלא־נכונה ,וההסתברות לכך היא . 23 61 6.3 שכיחות יחסית מותנה שכיחות יחסית יכולה להשתנות כאשר נתון שהתרחש מאורע כלשהו. למשל ,נניח שכך מתפלגות יחידות הלימוד במתמטיקה ,בבית־ספר של 60בנים ו 40-בנות: בנים בנות ׁ 4יחידות 30 20 3יחידות 10 10 5יחידות 20 10 נשים לב שהשכיחות היחסית של הבנים משתנה ,אם למשל נתון שהפרט נלקח מקבוצה מסוימת: 60 100 = 0.6 = 0.5 7 10 20 = )f (boy = )f (boy|3 units אי־תלות )(Independence הגדרה :המאורע Aנקרא בלתי־תלוי במאורע Bאם מתקיים: )P (A|B) = P (A טענה :אם Aבלתי־תלוי ב B-אז גם Bבלתי־תלוי ב.A- הוכחה :נתון ש A-בלתי־תלוי ב ,B-ולכן: )P (A∩B )P (B = )P (A) = P (A|B m )P (A) · P (B) = P (A ∩ B נשים לב שפעולת כפל חילופית ,וכן חיתוך מקיים ,A ∩ B = B ∩ Aולכן ניתן להסיק שגם Bבלתי־תלוי ב .A- הגדרה כללית :נגדיר באופן כללי שהמאורעות A, Bבלתי־תלויים אם מתקיים: )P (A) · P (B) = P (A ∩ B הגדרה שקולה :נשים לב שההגדרה לאי־תלות שקולה להגדרה הבאה: P (A|B) = P A|B 62 הוכחה :לפי נוסחת ההסתברות השלמה מתקיים: P (A) = P (B) P (A|B) + P B P A|B ולכן אם מתקיים השוויון הנ"ל נוכל להסיק שהוא שקול להגדרה של אי־תלות: )P (A) = P (A|B) P (B) + P B = P (A|B הערה :ניתן לראות שכאשר A, Bבלתי־תלויים אז גם המשלימים A, Bבלתי־תלויים: )P (A ∩ B) = P (A) P (B ⇓ 1−P A∩B = 1−P A 1−P B ⇓ P A∩B =P A +P B −P A P B ⇓ P A +P B −P A∩B =P A P B ⇓ P A +P B −P A∪B =P A P B ⇓ P A∩B =P A P B המעבר הרביעי נובע מכללי דה־מורגן ,והמעבר החמישי נובע מהנוסחה: )P (A ∪ B) = P (A) + P (B) − P (A ∩ B סיכום :התנאים הבאים שקולים וכולם מגדירים אי־תלות בין שני מאורעות :A, B P (A|B) = P (A) .1 P (B|A) = P (B) .2 P (A ∩ B) = P (A) P (B) .3 P (A|B) = P A|B .4 A, B .5בלתי־תלויים דוגמה :זורקים שתי קוביות הוגנות .נגדיר את המאורעות: ”A = ”even number on the rst ”B = ”even number on the second נשים לב שמתקיים: P (A) = P (B) = 0.5 1 4 = )P (A ∩ B 63 ולכן נסיק: 1 )= P (A 2 = 1 4 1 2 )P (A ∩ B = )P (B = )P (A|B מכאן שהמאורעות A, Bבלתי־תלויים. נגדיר מאורעות נוספים: ”C = ”3 on the rst ”D = ”the sum is 7 נשים לב שמתקיים: 1 6 = )P (C) = P (D 1 36 = )P (C ∩ D ולכן נסיק: 1 )= P (C 6 = 1 36 1 6 )P (C ∩ D = )P (D = )P (C|D מכאן שהמאורעות C, Dבלתי־תלויים. נגדיר מאורע נוסף: ”E = ”the sum is 9 נשים לב שמתקיים: 1 9 = )P (E 1 6 > 1 4 = )P (C|E 1 9 > 1 6 = )P (E|C נשים לב שיש כאן טענה כללית :אם ) ,P (A|B) > P (Aאז ).P (B|A) > P (B במילים :אם Bמגדיל את ההסתברות של ,Aאז גם Aמגדיל את ההסתברות של .B הוכחה: )P (A)P (B|A )P (B = )P (A∩B )P (B = )P (A) < P (A|B m )P (B|A )P (B <1 m )P (B) < P (B|A 64 הערה :נזכור שלפי נוסחת ההסתברות השלמה מתקיים: P (A) = P (B) P (A|B) + P B P A|B כלומר מבצעים מיצוע משוקלל של ההסתברויות המותנות ,לפי החלוקה של מרחב ל B-ו .B-במקרה שבו A, Bבלתי־תלויים המשקוללים שווים ,כי = )P (A|B המדגם ).P A|B = P (A דוגמה :זורקים שתי קוביות הוגנות .נגדיר את המאורעות: ”A = ”even number on the rst ”B = ”even number on the second ”C = ”the sum is even נשים לב שמתקיים: 1 2 = )P (A) = P (B) = P (C 1 4 = )P (A ∩ B כמו־כן הראינו לעיל ש A, B-בלתי־תלויים ,וכן גם A, Cבלתי־תלויים וגם .B, C לעומת זאת מתקיים: 1 1 = )= P (A ∩ B ∩ C) = P (A ∩ B) 6= P (A) P (B) P (C 4 8 כלומר A, B, Cבלתי־תלויים בזוגות ,אך לא בלתי־תלויים בשלשות. m הגדרה :המאורעות {Ai }i=1הם בלתי־תלויים ,אם לכל קבוצה חלקית מגודל ,1 ≤ k ≤ n ,k מהצורה ,Ai1 , Ai2 , ..., Aikמתקיים: ) P (Ai1 ∩ Ai2 ∩ ... ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · ... · P (Aik כך למשל שלושת המאורעות A, B, Cבלתי־תלויים אם מתקיימים כל התנאים הבאים: .1 )P (A ∩ B ∩ C) = P (A) P (B) P (C .2 )P (A ∩ B) = P (A) P (B 65 .3 )P (A ∩ C) = P (A) P (C .4 )P (B ∩ C) = P (B) P (C דוגמה :נניח שכך מתפלגות יחידות הלימוד במתמטיקה ,בבית־ספר של 60בנים ו 40-בנות: 3יחידות 10 15 בנים בנות ׁ 4יחידות 20 30 5יחידות 10 15 נשים לב שבדוגמה זו מתקיים: 1 2 1 2 = = 20 40 50 100 = )f (4 units = )f (4 units|boys ולכן המאורעות " 4יחידות" ו"בנים" הם בלתי־תלויים. לכאורה דוגמה זו תומכת בהצעה להגדיר אי־תלות בין מאורעות בהקשר של שכיחות יחסית באופן דומה להגדרתה בהקשר של הסתברות .אך זה לא כך. נתבונן בהגדרה זו ביחס לשכיחות מותנה: ? )f (A ∩ B )T f (A )f (B = )f (A|B כדי לקבל שוויון צריכות לקרות התרחשויות נדירות. למשל ,נניח שנדגמו 101ילדים ,ונרשמו המין והאם הם אוהבים לשתות שוקו. התוצאות שהתקבלו הן: 61 40 101 not drink cacao drink cacao 61 − x x − 11 50 x 51 − x 51 boys girls כדי לקבל מצב של אי־תלות בין שתיית שוקו למין בהתאם להגדרה בהקשר של הסתברות, נצטרך שהשכיחות היחסית של שותי השוקו בקרב הבנים תהיה שווה לשכיחות היחסית של שותות השוקו בקרב הבנות ,ולכן בעצם שווה לשכיחות היחסית של שותי השוקו באוכלוסייה הכללית. נבדוק איזה xמקיים את הדרישה ,בהתאם לסימון של xכמספר שותי השוקו בקרב הבנים: 51 = 100 ⇓ · 61 = 31.11 x 61 51 100 =x כמובן לא ייתכן מצב שבו 31.11בנים שותים שוקו ,ולכן אין מצב שבו המאורעות הללו בלתי־תלויים. 66 7.0.1 דוגמה :אוניברסיטת ברקלי נתונים לגבי מגישי מועמדות ללימודים וקבלה לפי מין ,בשנת :1973 1755 2771 4526 woman men 557 1278 1835 1198 1493 2691 received not received מהנתונים הללו נובע ש 44%-מהגברים התקבלו בעוד שרק 30%מהנשים התקבלו. נתונים אלה עוררו טענה שקיימת אפליה כנגד נשים באוניברסיטת ברקלי. באופן מפתיע ,כאשר בוצע פילוח נוסף של הנתונים לפי חוגי לימוד ,התקבלו התוצאות הבאות: received - women candidates - women received - men candidates - men 82 68 34 35 24 7 108 25 593 375 393 341 62 63 37 33 28 6 825 560 325 417 191 373 department A B C D E F מתגלה שנשים הגישו יותר מועמדויות לחוגים שבהם אחוזי הקבלה נמוכים ,ביחס לגברים שהגישו יותר מועמדויות לחוגים שבהם אחוזי הקבלה גבוהים. כלומר ,הסיבה לפער בין אחוזי הקבלה של נשים וגברים אינו נובע מאפליה על רקע מגדרי, אלא מאופי החוג שאליו הגישו מועמדות הנשים והגברים. נציין רק שתהליך הקבלה הוא לכל מחלקה בנפרד ואין ,למשל ,צורך להתקבל ראשית לאוניברסיטה. 7.0.2 דוגמה :גנטיקה נניח שהגן aהוא גן קטלני. באוכלוסייה מסוימת כל פרט מאופיין באמצעות אחד מהמצבים הבאים ) AAנקי(Aa , )נשא( ,או ) aaמת ממחלה(. פרופורציית הנשאים Aaמבין הפרטים החיים היא ,λכך שפרופורציית הנקיים AAהיא .1 − λ 2 בהסתברות ) (1 − λנקבל שני הורים ,AAכך שגם הצאצא יהיה ) AAבהסתברות .(1 בהסתברות λ2נקבל שני הורים ,Aaכך שהצאצא יהיה Aaבהסתברות 0.5או AA בהסתברות 0.25או aaבהסתברות .0.25כלומר ההסתברות שתינוק אקראי יהיה חולה וימות ) (aaהיא . 41 λ2 בהסתברות )) 2λ (1 − λהכפלנו ב 2-כי הסדר משנה( נקבל הורה אחד AAוהורה אחד ,Aaכך שהצאצא יהיה AAבהסתברות 0.5או Aaבהסתברות .0.5 67 נבדוק מהי ההסתברות לנשאות כאשר מכליאים בין קרובי־משפחה .למשל אח ואחות. נניח שהורי שני בני הזוג הם מקרים. נציג את ההסתברויות באמצעות עץ: החלק העליון של העץ מייצג את ההסתברויות בקרב ההורים של בני הזוג ,כפי שחישבנו לעיל. ההסתעפויות בהמשך מייצגות את האח והאחות. נגדיר את המאורעות הבאים עבור האח והאחות: ”A = ”both carriers ”B = ”at least one of them died נחשב את המאורע ששניהם נשאים ,בהינתן ששניהם לא מתו: )P (A ∩ B = )P (B = = )P (A|B 1 1 2 )4 λ + 4 ·2λ(1−λ 1 2 1 1 ) 2 + 1 λ2 + 1 λ(1−λ)+λ(1−λ)+(1−λ2 λ + ·2λ(1−λ)+ λ 4 4 16 4 2 1 2λ 7 λ − 16 1 = ∼ ).P (A|B עבור λקטן )שזה המקרה הטיפוסי( מתקיים הקירוב = 12 λ כלומר ,ההסתברות לזוג נשאים עולה מ λ2 -ל λ2 -בקירוב. 68 = חלק V משתנים מקריים הגדרה :נתון מרחב מדגם כלשהו .Ω נאמר ש X-הוא משתנה מקרי )מ"מ( אם לכל מאורע פשוט ω ∈ Ωהוא מתאים מספר ממשי. הגדרה :פונקציית ההתפלגות )או ההסתברות( של משתנה מקרי ,Xמגדירה לכל xמספר ממשי אחר שמסומן ) .P (X = xכלומר ,זו ההסתברות שהמשתנה המקרי Xשווה ל x-מסוים. נשים לב שהתפלגות של משתנה מקרי מגדירה חלוקה של מרחב המדגם .כלומר כל הערכים האפשריים השונים של משתנה מקרי מכסים את מרחב המדגם וזרים בזוגות. דוגמה :הטלת מטבע פעמיים .נסמן: } Ω = {HH, HT, T H, T T X (HH) = 2 X (T H) = 1 X (HT ) = 1 X (T T ) = 0 כלומר ,המשתנה המקרי Xבדוגמה זו סופר את מספר המופעים של "ראש" בהטלת מטבע פעמיים. המשתנה המקרי Xמגדיר מאורעות .כך למשל X = 0מגדיר את המאורע } ,{T T X = 1מגדיר את המאורע } {T H, HTו X = 0-מגדיר את המאורע } .{T T נשים לב שניתן גם להגדיר } .{X < 2} = {HT, T H, T T בדוגמה זו נקבל את ההסתברויות של המאורעות הבאים: P (X = 2) = 0.25 P (X = 1) = 0.5 P (X = 0) = 0.25 סכום ההסתברויות הוא בהכרח .1 דוגמה :במועצה מקומית 5נציגים .ראובן ושמעון -מהליכוד; לוי ,יהודה ויששכר -מהעבודה. יש להרכיב ועדה בת שני חברים ,וכל שילוב של שניים מהחמישה הוא מאורע אפשרי במרחב המדגם. 69 נגדיר ,X = number of Likud members in the committeeובהתאם להגדרה זו: X (Reuven and Shimon) = 2 X (Reuven and Levi) = 1 • • • נקבל את ההסתברויות הבאות: 3 10 = 2 1 6 10 = 2 2 5 2 1 10 7.1 = )P (X = 0 3 1 5 2 = 3 2 5 2 = )P (X = 1 = )P (X = 2 פונקציית התפלגות מצטברת הגדרה :נאמר ש FX (x)-היא פונקציית התפלגות מצטברת של המשתנה המקרי ,Xאם היא מחזירה את ההסתברות ש X-קטן או שווה לערך .xכלומר: )FX (x) = P (X ≤ x פונקציה זו היא מונוטונית לא־יורדת כתלות ב ,x-כי ערכי הסתברות הם תמיד אי־ שליליים. תכונות: .1מונוטונית לא־יורדת בx- .2רציפה מימין .3 lim FX (x) = 1 ∞→x lim FX (x) = 0 ∞x→− 70 דוגמה :נתבונן בדוגמה שהזכרנו על הטלת מטבע פעמיים. נשרטט את גרף פונקציית ההתפלגות המצטברת של המשתנה המקרי Xשמוגדר כמספר הפעמים שמתקבל "ראש" .מתקיים: P (X ≤ 0) = 0.5 P (X ≤ 1) = 0.25 + 0.5 = 0.75 P (X ≤ 2) = 1 ולכן גרף הפונקציה הוא: 8 8.1 התפלגויות מיוחדות התפלגות ברנולי )משפחה חד־פרמטרית של התפלגויות( מ"מ Xייקרא מפולג ברנולי אם הוא מהצורה X = 0או ,X = 1כאשר P (X = 0) = p ו.P (X = 1) = 1 − p- מסמנים משתנה מקרי ברנולי ).X ∼ B (p מקרה פרטי של התפלגות זו הוא "אינדיקטור" )או "מציין"( של מאורע כלשהו :A ( 1 ω∈A = )X (ω 0 ω∈A ומכאן ).p = P (X = 1) = P (A 8.2 התפלגות אחידה )משפחה דו־פרמטרית של התפלגויות( מ"מ Xייקרא מפולג אחיד על קטע ]) [a, bעבור ,(a ≤ bכאשר a, bמספרים שלמים כלשהם )ייתכן גם שליליים( ,אם פונקציית ההסתברות שלו היא: ( 1 ]k ∈ [a, b b−a+1 = )P (X = k 0 otherwise 71 )עבור kשלם( מסמנים משתנה מקרי אחיד ].X ∼ U [a, b 8.3 התפלגות בינומית )משפחה דו־פרמטרית של התפלגויות( נניח כי nמספר טבעי וכי pשבר כלשהי בקטע ].[0, 1 מ"מ Xייקרא מפולג בינומית עם פרמטרים ,n, pאם עבור כל kשלם ,0 ≤ k ≤ n ,פונקציית ההסתברות שלו היא: n n−k = )P (X = k )pk (1 − p k מסמנים משתנה מקרי בינומי ).X ∼ Bin (n, p נוכיח שפונקציה זו אכן מגדירה התפלגות: ראשית ניכר שטווח ערכי הפונקציה הוא מספרים אי־שליליים. שנית ,לפי הבינום של ניוטון מתקיים: n X n n−k n = )P (X = k )pk (1 − p = (p + (1 − p)) = 1 k k=0 n X k=1 הסבר להתפלגות הבינומית: נניח שמנקודת מבטו של מי שבוחן ניסוי מסוים יש שתי תוצאות אפשריות .נקרא לתוצאה אפשרית אחת "הצלחה" ולאחרת "כישלון". נניח כי ההסתברות ל"הצלחה" היא ,pומכאן שההסתברות המשלימה לכישלון היא .1 − p חוזרים על הניסוי nפעמים באופן בלתי־תלוי. נשים לב שלמשל עבור n = 3נקבל את ההסתברויות: )P (failure,success,success) = p2 (1 − p )P (success,success,failure) = p2 (1 − p במאורעות אלו יש שתי הצלחות וכישלון אחד .כך גם בכל המקרים בהם נבחן את ההסתברות למאורע הכולל שתי הצלחות בדיוק )ולכן כישלון אחד בדיוק( נקבל את ההסתברות ),p2 (1 − p ללא תלות בסדר. ההסתברות במספר המאורעות האפשריים ,שבמקרה את נכפיל משנה, לא שהסדר אם נחליט 3 ,ולכן ההסתברות לשתי הצלחות בדיוק היא של k = 2 ,n = 3הוא = 3 2 ).3p2 (1 − p נניח כי Xהוא משתנה מקרי שסופר את מספר ההצלחות. הערכים האפשריים של Xהם כל השלמים בין 0ל.n- 72 נניח כי ,n = 5אז נקבל למשל את ההסתברות: 5 3 = )P (X = 2 )p2 (1 − p 2 5 הוא מספר האפשרויות לסידור של 2הצלחות ב 5-ניסויים. כי 2 p2היא ההסתברות ל 2-הצלחות. 3 ) (1 − pהיא ההסתברות ל 3-כשלונות. וכך נקבל את שאר ההסתברויות לשאר המקרים: 5 5 5 = )P (X = 0 )p0 (1 − p) = (1 − p 0 4 4 )p1 (1 − p) = 5p (1 − p 3 3 2 2 )p2 (1 − p) = 10p2 (1 − p )p3 (1 − p) = 10p3 (1 − p 1 )p4 (1 − p) = 5p4 (1 − p 0 p5 (1 − p) = p5 8.4 5 5 5 1 = )P (X = 1 5 2 5 3 5 4 = )P (X = 2 = )P (X = 3 = )P (X = 4 = )P (X = 5 התפלגות גאומטרית )משפחה חד־פרמטרית של התפלגויות( מ"מ Xייקרא מפולג גאומטרית עם פרמטר pאם לכל k ≥ 1שלם פונקציית ההסתברות שלו היא: k−1 )P (X = k) = p (1 − p מסמנים משתנה מקרי גאומטרי ).X ∼ Geo (p נוכיח שזו פונקציית התפלגות. ברור שהערכים המתקבלים הם חיוביים ממש. נוסחת הסכום של טור הנדסי אינסופי שאיברה הכללי הוא a 1−q = an ∞ X n=1 73 an = aq n−1היא: לכן במקרה הנוכחי מתקיים: p =1 )1 − (1 − p k−1 )p (1 − p = ∞ X = )P (X = k ∞ X k=1 k=1 הסבר להתפלגות הגאומטרית: חוזרים באופן בלתי־תלוי על ניסוי בעל שתי תוצאות אפשריות" ,הצלחה" ו"כישלון". ההסתברות להצלחה בכל ניסוי בודד היא ,pכך שההסתברות המשלימה לכישלון היא .1 − p המ"מ Xמוגדר לספור את הניסויים עד וכולל ההצלחה הראשונה. נבדוק מהי ההסתברות שחזרנו על הניסוי kפעמים. מאורע זה משמעותי היא שנכשלנו k − 1פעמים ובפעם האחרונה הצלחנו ,ולכן ההסתברות היא p טענה: k−1 )P (X = k) = (1 − p k−1 )P (X ≥ k) = (1 − p טענהP (X = ∞) = 0 : נימוק: k−1 )p (1 − p ∞→k−1 k )= (1 − p −→ 0 )1 − (1 − p = i−1 )p (1 − p ∞ X = )P (X ≥ k i=k המסקנה מכך היא שבהסתברות ,1במוקדם או במאוחר ,תופיע הצלחה. 8.5 התפלגות פואסון )משפחה חד־פרמטרית של התפלגויות( ∼ eוכן: נזכיר= 2.718... : = ea + ... = ex xn !n a n n + ... + x3 6 lim 1 + ∞→n + x2 2 =1+x+ xn !n ∞ X n=0 מ"מ Xייקרא מפולג פואסון עם פרמטר λ > 0אם לכל k ≥ 0שלם פונקציית ההסתברות שלו היא: λk !k P (X = k) = e−λ 74 מסמנים משתנה מקרי פואסוני ).X ∼ P ois (λ נוכיח שזו פונקציית התפלגות. ברור שהערכים המתקבלים הם חיוביים ממש. נחשב את הסכום: ∞ X λk λk = e−λ = e−λ eλ = 1 !k !k k=0 e−λ ∞ X = )P (X = k ∞ X k=0 k=0 הסבר להתפלגות פואסון: נראה שהתפלגות פואסון היא קירוב להתפלגות הבינומית. נניח שנתון מ"מ ) .X ∼ Bin (n, pניתן לראות שמתקיים: n n−k−1 k+1 )pk+1 (1 − p n−k p )P (X = k + 1 · = = · n−k )P (X = k k+1 1−p n )pk (1 − p k נסמן ,λ = npונשים לב שמתקיים: n−k p np − kp λ )P (X = k + 1 = · = →− )P (X = k k+1 1−p (k + 1) (1 − p) n→∞ k + 1 p→0 )· P (X = k λ k+1 ⇓ →P (X = k + 1) − ∞→n p→0 בעזרת תוצאה זו ניתן להסיק כי λ λ3 −λ ∼ )P (X = 3 ·e = )= · P (Y = 2 3 !3 וכן הלאה ,כך שבאינדוקציה נסיק כי מתקיים: λk −λ e !k = )P (X = k נשים לב עוד שמתקיים עבור ההתפלגות הבינומית: n λ n−0 n 0 )p (1 − p = (1 − p) = 1 − −→ e−λ ∞→n n 75 n 0 = )P (X = 0 נסמן ) ,Y ∼ P oi (λ) = P ois (npונסיק באינדוקציה שמתקיים עבור ):X ∼ Bin (n, p ∼ )= λe−λ = P (Y = 1 )· e−λ = P (Y = 2 λ2 2 ∼ = λ n−2 n λ n−1 n 1− =λ 1− λ 2 n · n−1 )n(n−1 2 )P (X = 1) = np (1 − p = n−2 )p2 (1 − p n 2 = )P (X = 2 • • • כלומר ,עבור nמספיק גדול ,ניתן לקרב באמצעות התפלגות פואסון את ההתפלגות הבינומית. דוגמה :נניח כי ) .X ∼ Bin (1000, 0.002נרצה לבדוק מהו ערכו של ).P (X = 3 הערך המדויק בהתאם להגדרת ההתפלגות הבינומית הוא: 1000 997 = )P (X = 3 )0.0023 · (1 − 0.002 = 0.18062... 3 נשים לב שבמקרה זה ,np = 1000 · 0.002 = 2ולכן לפי הקירוב הפואסוני נקבל: 23 = 0.18044... ∼ )P (X = 3 · = e−2 !3 קיבלנו קירוב מדויק עד שלוש ספרות לאחר הנקודה. כלומר ,ככל ש n-גדול ו p-קטן ,אין חשיבות לערכם המדויק של n, pומספיק לדעת את מכפלתם כדי לקבל ערך מקורב. 8.6 התפלגות בינומית שלילית )משפחה דו־פרמטרית של התפלגויות( מ"מ Xייקרא בעלת התפלגות בינומית שלילית עם הפרמטרים r ≥ 1 ,0 > p < 1שלם ,אם פונקציית ההסתברות שלו היא: k−1 k−r = )P (X = k )pr (1 − p , k≥r r−1 מסמנים משתנה מקרי מפולג בינומית שלילית ).X ∼ N B (r, p )לא נוכיח במסגרת זו שזו אכן פונקציית התפלגות(. הסבר להתפלגות הבינומית השלילית: נניח שמבצעים ניסוי עם שתי תוצאות אפשריות" ,הצלחה" בהסתברות pו"כישלון" בהסתברות .1 − p חוזרים על הניסוי באופן בלתי־תלוי עד וכולל ההצלחה ה.r- נבדוק מהי ההסתברות שיידרשו בדיוק kניסיונות כדי להגיע להצלחה ה?r- ברור שהסתברות זו היא 0עבור כל kהמקיים ,k < rכי לא ניתן להגיע ל r-הצלחות אם ביצענו פחות מ r-ניסויים .לכן נניח מעתה כי .k ≥ r נסמן ב X-את המ"מ שסופר את מספר הניסיונות. 76 k−r ) pr (1 − pהוא ההסתברות לכל סדרה באורך kשכוללת בדיוק kהצלחות. הביטוי כמה סדרות כאלו קיימות? מתוך שאר k − 1 הניסיון האחרון ,דהיינו הניסיון ה ,k-הוא בהכרח הצלחה .לכן נותרלבחור k−1 . הניסיונות את מיקומן של r − 1הצלחות ,ולכן קיבלנו את הגודל r−1 8.7 התפלגות היפר־גאומטרית )משפחה תלת־פרמטרית של התפלגויות( מ"מ Xייקרא בעלת התפלגות היפר־גאומטרית עם הפרמטרים ,n, a, bכולם שלמים ,אם פונקציית ההסתברות שלו היא: a b k n−k n−b≤k ≤a = )P (X = k a+b n מסמנים משתנה מקרי מפולג היפר־גאומטרית ).X ∼ HG (n, a, b הסבר להתפלגות ההיפר־גאומטרית: נניח שנתונים aעצמים מסוג Aו b-עצמים מסוג .B נגדיר את הבחירה בעצם מסוג Aכ"הצלחה" ,כך שההסתברות היא: a b =1−p a+b a+b =p נגדיר את המ"מ Xלהיות מספר העצמים מסוג Aשנדגום. שמוציאים nעצמים באופן אקראי מתוך כלל העצמים עם החזרה ,כמובן ∼ X נניח a .Bin n, a+b כעת נניח שמוציאים את העצמים ללא החזרה .כמובן מניחים .n ≤ a + b נראה שההסתברות להוציא בדיוק kעצמים מסוג 0 ≤ k ≤ n ,Aשלם ,היא ההסתברות ההיפר־גאומטרית שהגדרנו. המכנה מציין את מרחב המדגם ,כלומר את כל האפשרויות לבחור nעצמים מתוך .a + b במונה ,האיבר הראשון הוא מספר הדרכים לבחור kעצמים מתוך ,aוהאיבר השני הוא מספר הדרכים לבחור את שאר האיברים מתוך n − kהאיברים הנותרים .כופלים את שני האיברים כדי לקבל את שני האירועים יחד. נשים לב כי אם התנאי הכפול n − b ≤ k ≤ aלא מתקיים ,ההסתברות הזו שווה ל.0- נוכיח שזו אכן פונקציית הסתברות. ראשית קל לראות שכל הערכים שמתקבלים חיוביים. נחשב את סכום ההסתברויות ,ולשם כך נשים לב שלאחר העברת אגפים מספיק להוכיח: n X a b a+b = k n−k n k=0 נזכור: a+b b a )(x + 1) (x + 1) = (x + 1 77 ולכן נסיק: xn a+b X a+b n = xj n=0 b X b j xi j=0 a i a X i=0 מאחר והמקדמים של xkבשני האגפים זהים ,לכל ,0 ≤ k ≤ a + bנסיק: a X a b a+b = i n−i n i=0 במחוברים שבהם n − i ≥ bיש לקרוא את האיבר כ.0- 9 9.1 מדדי מרכז של משתנים מקריים תוחלת של משתנה מקרי )Expected value ( הגדרה :יהי Xמ"מ כלשהו עם פונקציית ההתפלגות ).P (X = x התוחלת של Xמוגדרת ומסומנת להיות: X = )E (X )x · P (X = x x דוגמה :נניח כי ] ,A ∼ U [1, 6כך שפונקציית ההתפלגות היא: 6 5 4 3 2 1 1 6 1 6 1 6 1 6 1 6 1 6 X )P (X = x נחשב את התוחלת: 1 1 1 1 1 1 E (X) = 1 · + 2 · + 3 · + 4 · + 5 · + 6 · = 3.5 6 6 6 6 6 6 קיבלנו ערך שנמצא בדיוק באמצע שני ערכי הקיצון של .X אם היינו משנים את המשקל של כל ערך ,ומגדירים את פונקציית ההתפלגות כך: 6 5 4 3 2 1 1 6 3 12 1 6 1 6 1 12 1 6 X )P (X = x היינו מקבלים את התוחלת הבאה: 1 1 1 3 1 1 · E (X) = 1 · + 2 ·+3· +4· +5 + 6 · > 3.5 6 12 6 6 12 6 כלומר ,התוחלת גדלה כי העברנו משקל רב יותר לערך יחסית גדול. התוחלת היא ערך שלוקח בחשבון לא רק את הערכים האפשריים אלא גם את המשקל של כל אחד מהם .כלומר את ההסתברות שכל אחד מהם יתרחש .התוחלת מהווה מעין סיכום כללי של המשתנה. התוחלת משמרת את התכונות שראינו לגבי הממוצע .כך למשל היא משמרת את יחידות המדידה ,וכן: )E (a + bX) = a + bE (X 78 9.1.1 תוחלת של מ"מ ברנולי X ∼ B (p) , E (X) = p 1 p 0 1−p x )P (X = x הוכחה :נחשב לפי הגדרת התוחלת: E (X) = 0 · (1 − p) + 1 · p = p הערה :נשים לב שמתקיים ).X ∼ B (p) ⇔ X ∼ Bin (1, p 9.1.2 תוחלת של מ"מ אחיד b−a 2 b b−1 b−2 1 b−a+1 1 b−a+1 1 b−a+1 = )X ∼ U (a, b) , E (X ... ... a+2 a+1 a 1 b−a+1 1 b−a+1 1 b−a+1 x )P (X = x הוכחה :נסמן m = b − aונחשב לפי הגדרת התוחלת: 1 = m+1 ·k m+1 X = )k · P (X = k k=1 m+1 X = )E (X k=1 m+1 X 1 1 )m (m + 1 m b−a · =k · = = m+1 m+1 2 2 2 k=1 9.1.3 תוחלת של מ"מ בינומי X ∼ Bin (n, p) , E (X) = np 79 = הוכחה :נחשב לפי הגדרת התוחלת )שימו לב לאינדקסים(: !n n−k )· pk (1 − p = !)k! (n − k ·k n X = )k · P (X = k n X = )E (X k=0 k=0 !)(n − 1 )n−1−(k−1 )· pk−1 (1 − p = !))(k − 1)! (n − 1 − (k − 1 !)(n − 1 n−1−k )· pk (1 − p = np !)k! (n − 1 − k n X n X · = np k=1 · = np k=0 !)(n−1 השוויון האחרון נובע מכך שהביטוי ·pk−1 (1−p)n−1−k !) nk=0 k!(n−1−kהוא סכום ההסתברויות של מ"מ ) ,Y ∼ Bin (n − 1, pולכן מהגדרת פונקציית התפלגות של מ"מ זה שווה .1 P 9.1.4 תוחלת של מ"מ פואסון X ∼ P ois (λ) , E (X) = λ הוכחה :נחשב לפי הגדרת התוחלת: λk = !k · k · e−λ n X = )k · P (X = k k=1 n X = )E (X k=0 n X λk−1 λk ·=λ · e−λ =λ !)(k − 1 !)(k − 1 k=0 · e−λ n X = k=1 λk−1 !) nk=0 e−λ · (k−1הוא סכום ההסתברויות של מ"מ השוויון האחרון נובע מכך שהביטוי ) ,Y ∼ P ois (λולכן מהגדרת פונקציית התפלגות של סכום מ"מ זה שווה ל .1- P 9.1.5 תוחלת של מ"מ גאומטרי 1 p = )X ∼ Geo (p) , E (X 80 הוכחה ראשונה :נחשב לפי הגדרת התוחלת: 2 = 0 + p + 2p (1 − p) + 3p (1 − p) + ... k−1 )k · p (1 − p n X = )k · P (X = k n X = )E (X k=1 k=1 ⇓ 2 (1 − p) E (X) = (1 − p) p + 2p (1 − p) + 3p (1 − p) + ... ⇓ 2 3 (1 − p) E (X) = p (1 − p) + 2p (1 − p) + 3p (1 − p) ... ⇓ 3 2 p · E (X) = E (X) − p (1 − p) + 2p (1 − p) + 3p (1 − p) ... ⇓ 2 2 3 p · E (X) = p + 2p (1 − p) + 3p (1 − p) + ... − p (1 − p) + 2p (1 − p) + 3p (1 − p) ... ⇓ 2 3 p · E (X) = p + p (1 − p) + p (1 − p) + p (1 − p) + ... = 1 ⇓ E (X) = p1 השוויון הלפני־אחרון נובע מכך שהביטוי nk=0 p(1−p)kהוא סכום ההסתברויות של מ"מ ) ,Y ∼ Geo (λולכן מהגדרת התפלגות של סכום מ"מ זה שווה ל .1- P • נוכיח באופן נוסף שזו התוחלת של מ"מ גאומטרי ,ולצורך כך נוכיח טענת־עזר. טענת־עזר :אם Xמ"מ שלם ואי־שלילי ,אז: )P (X ≥ k ∞ X = )E (X k=1 נימוק :נסמן P (X = x) = pxונקבל לפי הגדרת התוחלת: k · P (X = k) = p1 + 2p2 + 3p3 + 4p4 + ... ∞ X = )E (X k=1 נתבונן בסכום שקיבלנו באופן הבא: +... +... +... +... . .. + p4 + p4 + p4 p4 + p3 + +p3 p3 + p2 p2 ≥ 1) = p1 = )≥ 2 = )≥ 3 = )≥ 4 .. . (X (X (X (X P P P P נשים לב שזה בדיוק אותו סכום שהצגנוPלעיל לפי הגדרת התוחלת ,ולכן התוחלת ∞ ניתנת להצגה כסכום ). k=1 P (X ≥ k 81 הוכחה שנייה :ראינו לעיל בהתפלגות הגאומטרית ,שמתקיים עבור .k ≥ 1 נסיק: 1 1 = )1 − (1 − p p = k−1 )(1 − p ∞ X k−1 ),P (X ≥ k) = (1 − p = )P (X ≥ k k=1 ∞ X = )E (X k=1 השוויון השלישי נובע מנוסחת הסוכם של טור הנדסי ,שאיברו הראשון הוא 1ומנת הטור היא .1 − p תוחלת של מ"מ בינומי שלילי 9.1.6 r p = )X ∼ N B (r, p) E (X הוכחה לכך נראה בהמשך. תוחלת של מ"מ היפר־גאומטרי 9.1.7 a a+b · X ∼ HG (n, a, b) E (X) = n הוכחה לכך נראה בהמשך. 9.2 שכיח הגדרה :השכיח של מ"מ הוא הערך xשמקבל את ההסתברות הגבוהה ביותר .כלומר }).argmax {P (X = x x 9.2.1 שכיח של מ"מ ברנולי נניח כי )) X ∼ Bin (1, pלמעשה זהו מ"מ ברנולי( ,נקבל: ( 1 p > 21 = Mode 0 p < 12 במקרה 9.2.2 1 2 = pשני הערכים שכיחים באותה מידה ולכן שניהם שכיחים. שכיח של מ"מ פואסון נוכיח שהשכיח של מ"מ ) X ∼ P ois (λהוא ) bλcהערך השלם(. 82 נתון כי k ≥ 0וכן נשים לב לקשר שבין pkל:pk−1 - λk λk−1 λ λ · = e−λ · · = pk−1 !k (k − 1)! k k · pk = e−λ נסיק שכאשר λk > 1אז ,pk > pk−1וכאשר λk < 1אז .pk < pk−1 מכאן ש pk -כפונקציה של ,kבתחילה עולה ואח"כ יורדת. השכיח הוא ה k-האחרון שעבורו .pk−1 < pkכלומר ה k-האחרון שעבורו ,λ > kמשמע הערך השלם של .λ 9.2.3 שכיח של מ"מ בינומי נוכיח שהשכיח של מ"מ ) X ∼ Bin (n, pהוא .b(n + 1) pc נשים לב לקשר שבין pkל:pk−1 - = (n−k+1)p )k(1−p · = pk−1 n−k )· pk (1 − p (n−k+1)p )k(1−p · !n !)k!(n−k n−k+1 = pk )· pk−1 (1 − p !n !)(k−1)!(n−k+1 כמו־כן מתקיים: )(n + 1) p > k ⇔ (n − k + 1) p > k (1 − p ולכן נקבל שכאשר (n + 1) p > kאז ,pk > pk−1וכאשר (n + 1) p < kאז .pk < pk−1 מכאן ש pk -כפונקציה של ,kבתחילה עולה ואח"כ יורדת )פונקציה יונימודלית(. השכיח הוא ה k-האחרון שעבורו .pk−1 < pkכלומר ה k-האחרון שעבורו ,(n + 1) p > k משמע הערך השלם של .(n + 1) p 9.2.4 שכיח של מ"מ גאומטרי מ"מ גאומטרי הוא דוגמה למקרה בו משמעותו של השכיח כמדד מרכזי היא בעייתית. נוכיח שעבור מ"מ ) X ∼ Geo (pהשכיח הוא ,1ללא כל תלות ב.p- k−1 ).pk = p (1 − p נשים לב שמתקיים פונקציה זו מונוטונית יורדת ב ,k-ולכן הערך המקסימלי מתקבל עבור ,1ללא קשר לערכו של .p 9.3 תוחלת של פונקציות של משתנים מקריים נניח כי Xמ"מ כלשהו ,ונניח כי fהיא פונקציה של .X כלומר דוגמים מ"מ ,מפעילים עליו את fומתייחסים לתוצאה שהתקבלה ,שנסמן ).f (X נשים לב שהערך שמתקבל הוא עצמו מ"מ בעל התפלגות ותוחלת. דוגמה :נניח כי ].f (x) = x2 ,X ∼ U [1, 6 בחישוב פשוט נקבל את ההתפלגות: 6 36 5 25 4 16 3 9 2 4 1 1 1 6 1 6 1 6 1 6 1 6 1 6 83 x X2 P X 2 = x2 וכן חישוב נוסף ייתן לנו את התוחלת של המ"מ :X 2 1 91 1 = )E X 2 = (1 + 4 + 9 + 16 + 25 + 36 = 15 6 6 6 הגדרה :תוחלת של פונקציה של מ"מ היא: )f (x) · P (X = x X = ])E [f (X x 9.3.1 תוחלת של פונקציה־לינארית נניח כי fהיא פונקציה לינארית .כלומר היא מהצורה .f (x) = a + bx טענה :התוחלת של פונקציה מהצורה הזו היא: )E [a + bx] = a + bE (X כלומר ,עבור פונקציות לינאריות ,תוחלת הפונקציה שווה לפונקציה של התוחלת )כפי שגם מתקיים בממוצעים(. תובנה זו מאפשרת לעבור בין יחידות מדידה שונות ,שכן מדובר בפונקציה לינארית. הוכחה :נחשב לפי הגדרת התוחלת: = )(a + bx) P (X = x X = )E [f (x)] = E (a + bx x )xP (X = x) = a + b · E (X X P (X = x) + b X x =a x דוגמה :נמשיך את הדיון בדוגמה ] ,f (x) = x2 ,X ∼ U [1, 6ונקבל שמכיוון שזו אינה פונקציה לינארית ,אז: 2 7 2 91 = )> E 2 (X = 6 2 E [f (x)] = E X בהמשך נוכיח שלא מדובר במקרה ,ולכל מ"מ Xמתקיים ,E 2 (X) ≤ E X 2באופן 2 אנלוגי לתוצאה שהראינו בפרק על סטטיסטיקה תאורית.X ≤ X 2 , 84 תוחלת של הרכבת פונקציות 9.3.2 נניח שנתונות שתי פונקציות ) .f (x) , g (xנגדיר פונקציה שלישית שמהווה פעולה לינארית על הפונקציות הללו. כלומר ניקח את הפונקציה הלינארית h (y, z) = ay + bz + cונרכיב אותה על הפונקציות הללו שמופעלות על המ"מ: h (f (X) , g (X)) = af (X) + bg (X) + c טענה :התוחלת של ההרכבה היא: E [h (f (X) , g (X))] = aE [f (X)] + bE [g (X)] + c הוכחה: = )h (f (X) , g (X)) P (X = x P x = ]))E [h (f (X) , g (X = )(af (X) + bg (X) + c) · P (X = x = )P (X = x P x · g (X) P (X = x) + c P x P x = f (X) P (X = x) + b = aE [f (X)] + bE [g (X)] + c חשוב לשים לה שהטענה אינה נכונה עבור מכפלה .כלומר: ])E [f (X) · g (X)] 6= E [f (X)] E [g (X 10 10.1 מדדי פיזור של משתנים מקריים שונות של משתנים מקריים בדומה למדד הפיזור עבור התצפיות ,נציע מדד פיזור למשתנים מקריים. הגדרה :השונות של מ"מ Xמוגדרת ומסומנת: 2 ])V ar (X) = E [X − E (X התוחלת ) E (Xקבועה בהינתן המ"מ. 2 נשים לב שהשונות היא תוחלת של הפונקציה )).f (X) = (X − E (X 85 P x =a הסבר :אם כן ,בשונות של משתנים מקריים אנו מסתכלים על המרחק של המ"מ ממדד מרכזי התוחלת ,כאשר את המרחק מגדירים כריבוע ההפרש.נרצה מדד מרכזי למרחקים אלו ,ולכן נבחר את התוחלת .כך קיבלנו את הגדרת השונות. הסיבה שמסתכלים דווקא על ריבוע ההפרש ,היא כי לו היינו מסתכלים למשל רק על ההפרש ,אז תוחלת ההפרש הייתה אפס .כי אם נסמן ) ,f (x) = x − E (Xנקבל: E [X − E (X)] = E [f (X)] = f (E (X)) = E (X) − E (X) = 0 דוגמה :נניח כי ] .X ∼ U [1, 6בחישוב מפורט שביצענו נבע כי התוחלת היא 6 5 4 3 2 1 1 6 25 4 1 6 9 4 1 6 1 4 1 6 1 4 1 6 9 4 1 6 25 4 7 2 = ).E (X x )P (X = x 2 x − 72 ומכאן שהשונות היא: 35 1 25 1 9 1 1 1 9 1 25 · · + · + · + · + = 6 4 6 4 6 4 6 4 6 4 12 = )V ar (X דוגמה :נניח כי ) .X ∼ Bin (1, pראינו שהתוחלת של מ"מ ברנולי היא .pמכאן שהשונות 2 היא ]:V ar (X) = E [X − p 1 p 2 )(1 − p 0 1−p p2 x )P (X = x 2 )(x − p ומכאן שהשונות היא: 2 )V ar (X) = (1 − p) p2 + p (1 − p) = p (1 − p) (p + 1 − p) = p (1 − p 86 הערה :השונות של מ"מ ברנולי היא .p (1 − p) = p − p2זו פונקציה ריבועית שסימטרית סביב .p = 0.5 הגרף שלה נראה כך: נשים לב כי השונות שווה לאפס כאשר pשווה 0או .1כלומר ,התוצאה של המשתנה המקרי קבועה כ"כשלון" או "הצלחה" )בהתאמה(. השונות מקבלת ערך מקסימלי כאשר ,p = 0.5מה שמרמז על כך שכאשר p = 0.5מידת האי ודאות הקיימת במ"מ ברנולי היא מקסימלית. תכונות השונות V ar (X) ≥ 0 .1 V ar (X) = 0 .2אם ורק אם P (X = E (X)) = 1 כלומר קיים aקבוע ,שעבורו ) P (X = a) = 1מ"מ דטרמיניסטי/מנוון(. .3יחידות המדידה של ) V ar (Xהן ריבוע יחידות המדידה של .X V ar (X + a) = V ar (X) .4 V ar (aX) = a2 V ar (X) .5 הערה: ))V ar (f (X) + g (X)) 6= V ar (f (X)) + V ar (g (X 87 10.1.1 סטיית תקן של משתנה מקרי הגדרה :סטיית תקן של מ"מ Xהיא שורש השונות .מסמנים: p )SD (X) = V ar (X תכונות סטיית התקן SD (X) ≥ 0 .1 SD (X) = 0 .2אם ורק אם P (X = E (X)) = 1 כלומר קיים aקבוע ,שעבורו ) P (X = a) = 1מ"מ דטרמיניסטי/מנוון(. .3יחידות המדידה של ) SD (Xהן אותן יחידות המדידה של .X זוהי הסיבה שסטיית התקן היא מדד הפיזור המועדף. SD (X + a) = SD (X) .4 SD (aX) = |a| SD (X) .5 10.1.2 נוסחה לחישוב השונות 2 ])V ar (X) = E X 2 − [E (X הוכחה :נשים לב שבאופן כללי מהנוסחה לפולינום ריבועי נובע: = E X 2 − 2XA + A2 = E X 2 − 2AE (X) + A2 מתקבלת פרבולה צוחקת ב ,A-שהגרף שלה הוא: 88 2 )E (X − A ).Amin = − −2E(X המינימום של הפרבולה מתקבל עבור )= E (X 2·1 b2 כאשר y = ax2 + bx + cנקבל .ymin = c − 4a לכן: 2 2 = V ar (X) = E (X − E (X)) = E (X − A)min 2 ])= E X 2 − [E (X [−2E(X)]2 4 = E X2 − מסקנה :ידוע כי ,V ar (X) ≥ 0ולכן נסיק: )0 ≤ V ar (X) = E X 2 − E 2 (X ⇓ E 2 (X) ≤ E X 2 10.1.3 שונות של מ"מ ברנולי )X ∼ Bin (1, p) V ar (X) = p (1 − p הוכחה :נניח כי ) X ∼ Bin (1, pכך שההתפלגות שלו היא: 89 1 p 1 x )P (X = x x2 0 1−p 0 ולכן נסיק כי ,E X 2 = E (X) = pונקבל: )V ar (X) = E X 2 − E 2 (X) = p − p2 = p (1 − p שונות של מ"מ פואסון 10.1.4 X ∼ P ois (λ) V ar (X) = λ הוכחה :ראשית נוכיח את השוויון ) E X 2 = λ2 + λשימו לב לאינדקסים(: ∞ ∞ ∞ X X λk λk X −λ λk · k 2 e−λ · k (k − 1) e−λ · ke = E X2 = + = !k !k !k k=0 k=0 + λ = λ2 + λ ∞ X e−λ λk !k + λ = λ2 k=0 k=0 ∞ X e−λ λk−2 !)(k − 2 = λ2 k=2 השוויון השלישי מבוסס על כך ש.E (X) = λ- כעת נוכל להסיק: V ar (X) = E X 2 − E 2 (X) = λ2 + λ − λ2 = λ 10.1.5 שונות של מ"מ בינומי )X ∼ Bin (n, p) V ar (X) = np (1 − p לא נוכיח טענה זו. 10.1.6 שונות של מ"מ גאומטרי 1−p p2 = )X ∼ Geo (p) V ar (X 90 הוכחה :לפי הגדרת התוחלת של פונקציה מתקיים: 2 3 E X 2 = 1 · p + 4p (1 − p) + 9p (1 − p) + 16p (1 − p) + ... ⇓ 2 3 4 (1 − p) E X 2 = p (1 − p) + 4p (1 − p) + 9p (1 − p) + 16p (1 − p) + ... ⇓ 2 3 4 2 2 pE X = E X − p (1 − p) + 4p (1 − p) + 9p (1 − p) + 16p (1 − p) + ... ⇓ 2 3 pE X 2 = p + 3p (1 − p) + 5p (1 − p) + 7p (1 − p) + ... ⇓ 2 3 E X 2 = 1 + 3 (1 − p) + 5 (1 − p) + 7 (1 − p) + ... ⇓ 2 3 4 (1 − p) E X 2 = (1 − p) + 3 (1 − p) + 5 (1 − p) + 7 (1 − p) + ... ⇓ 2 3 4 2 2 pE X = E X − (1 − p) + 3 (1 − p) + 5 (1 − p) + 7 (1 − p) + ... ⇓ 2 3 = pE X 2 = 1 + 2 (1 − p) + 2 (1 − p) + 2 (1 − p) + ... 2−p p )2(1−p )1−(1−p )= 1 + 2(1−p = p ⇓ E X 2 = 2−p p2 =1+ השוויון שלפני האחרון נובע מנוסחת הסכום של טור חשבוני . 10.1.7 שונות של מ"מ אחיד )(b − a + 2) (b − a 12 = )X ∼ U [a, b] V ar (X הוכחה :ראשית נניח כי .a = 1, b = nנקבל: 1≤i≤n 1+n 2 = i2 Pn i=1 1 n = · n2 1 n 1 n, = )P (X = i = )E (X · 16 + ... + )(n+1)(2n+1 6 = 1 n ·4+ )n(n+1)(2n+1 6 1 n · ·1+ 1 n השוויון השלישי ניתן להוכחה כללית באמצעות אינדוקציה. 91 = 1 n = E X2 נסיק מכאן כי השונות היא: = (n+1)2 4 n2 −1 12 = − )(n+1)(2n+1 6 )(n+1)(n−1 12 = = )V ar (X) = E X 2 − E 2 (X )(n+1)(4n+2−3n−3 12 )()(n+1 12 = = נסיק מכאן באופן כללי שאם ] ,X ∼ U [a, bאז: ]Y = X − a + 1 ∼ U [1, b − a + 1 וכפי שהוכחנו מתקיים: )V ar (X − a + 1) = V ar (X ומכיוון שכעת נמצא b − a + 1בתפקיד ,nנקבל: = (b−a+1)2 −1 12 )(b−a)(b−a+2 12 = )V ar (Y ) = V ar (X = (b−a)2 +2(b−a)+1−1 12 = 10.2 פרדוקס המהמר )או :פרדוקס סנט־פטרבורג( מהמר משחק בקזינו תחת הכללים הפשוטים הבאים :כל פעם הוא מהמר על סכום מסוים. אם הוא זוכה הוא מכפיל את הכסף שיש ברשותו ,ואם הוא הפסיד ,הוא מפסיד את הכסף שיש ברשותו. נסמן ב p-את ההסתברות לזכייה. קשה לחשוב על מצב שבו ,p > 0.5כי אז תוחלת הרווח חיובית והקזינו יפסיד .נניח לכן כי .p ≤ 0.5 מהמר חושב שמצא דרך להכות את הקזינו :הוא יתחיל להמר על דולר אחד .אם הוא ירוויח הוא יפרוש והרווח שלו הוא ,1אם יפסיד יהמר שוב ,והפעם על 2דולר .אם הוא ירוויח הוא יפרוש והרווח שלו הוא .2 − 1 = 1אם יפסיד יהמר שוב ,והפעם על 4דולר .אם הוא ירוויח הוא יפרוש והרווח שלו הוא ,4 − 2 − 1 = 1וכן הלאה. בקורס בשנה א' למד המהמר שמספר הסיבובים עד לזכייה הראשונה מפולג גאומטרית עם פרמטר ,pוכן שסכום ההסתברויות הוא .1לכן במוקדם או במאוחר הוא יזכה ויפרוש לביתו עם רווח של דולר בכיסו. הסבר לפרדוקס :לרשות המהמר חייב להיות סכום התחלתי סופי ,שאם יפסיד את כולו הוא לא יוכל להמשיך לשחק .סכום זה יכול להיות גדול )אם למשל הוא מכר את ביתו לצורך כך( ,אבל הוא בכל מקרה סופי )העולם סופי(... מכאן שכדי שהמהר יוכל לשחק nמשחקים ,הסכום ההתחלתי חייב להיות )לפי נוסחת הסכום של טור הנדסי(: 2n − 1 = 2n − 1 2−1 · 1 + 2 + ... + 2n = 1 92 נניח שהמהר מחזיק באמתחתו את הסכום הזה ,ובסוף הערב המהמר מרוויח דולר אחד, בהתאם לתכנית שלו ,או מפסיד את כל כספו. נניח לצורך הפשטות כי ) p = 0.5ההסתברות האידאלית מבחינת המהמר( ,אז נקבל את פונקציית ההסתברות הבאה: X )P (X = x 1 n 2 n 1 − 12 n )− (2 − 1 1 נחשב את תוחלת הרווח של המהמר: n n n n n 1 1 1 1 1 n n E (X) = 1· 1 − = 1− −2 + =0 )−(2 − 1 n 2 2 2 2 כעת בדקו לבד מדוע כאשר p < 0.5התוחלת הופכת להיות שלילית. 10.2.1 הערה :הסתברות ושכיחות יחסית נניח כי ) X ∼ Bin (n, pכך ש.V ar (X) = np (1 − p) ,E (X) = np- מבצעים ניסוי nפעמים באופן בלתי־תלוי ,כאשר בכל פעם התוצאה Aמוגדרת כ"הצלחה", ונסמן .P (A) = pנניח כי Xהוא מספר ההצלחות. .X ראינו שכאשר ) ,X ∼ Bin (n, pהשכיחות היחסית של מספר ההצלחות היא n נשים לב שהשכיחות היחסית עצמה היא גם משתנה מקרי. אם כן נבדוק מהי תוחלת השכיחות היחסית של מספר ההצלחות: np )E (X = =p n n = X n E וכן נבדוק מהי השונות של השכיחות היחסית: 1 1 )p (1 − p = )· V ar (X) = 2 · np (1 − p −→ 0 2 ∞→n n n n = X n V ar כלומר ,ככל שמספר הניסויים גדל ,כך השונות של השכיחות היחסית קטנה. התוחלת של השכיחות היחסית היא ) pלכל (nולכן השכיחות היחסית היא אמנם מקרית, אולם היא הולכת ומתקרבת להסתברות ככל שמספר החזרות על הניסוי גדל ,בגלל שהשונות שואפת ל.0- 10.2.2הערה :סופיות התוחלת/השונות נניח כי ,X ∼ Geo 12ונניח Y = αXעבור α > 0כלשהו. נתבונן בתוחלת של Yושל :Y 2 ( α 2 P∞ i 1 i 0≤α≤2 1− α 2 = E (Y ) = i=1 α 2 ∞ 2≤α √ 0≤α≤ 2 √ 2≤α α2 2 2 1− α2 ∞ = 93 1 i 2 2i α ∞P i=1 = 2 E Y מכאן שעבור המ"מ Yהתוחלת סופית רק אם .0 ≤ α ≤ 2 כדי שהשונות תהיה מוגדרת נצטרך לדרוש גם ∞ < ,E Y 2ולכן השונות סופית רק אם √ .0 ≤ α ≤ 2 10.3 חציון נניח שנתונה פונקציית הסתברות ) ,P (X = xונתונים הערכים: x1 < x2 < x3 < ... < xn נגדיר את ההסתברויות המתאימות הבאות: p1 , p2 , p3 , ..., pn כלומר .1 ≤ i ≤ n ,P (X = xi ) = pi נגדיר פונקציית קנס )| ,f (A) = E (|X − Aונחפש Aשימזער אותה. נשים לב שלפי הגדרת התוחלת מתקיים: |xi − A| pi n X = ) |xi − A| P (X = xi i=1 n X = )f (A i=1 זוהי פונקציה לינארית למקוטעין שמזכירה פרבולה צוחקת .היא מקבלת מינימום כאשר הגרף משנה מגמה מירידה לעלייה ,וזה קורה בנקודה: i X 1 | A∗ = min xi ≥ pj 2 j=1 הערך ∗ Aמוגדר להיות החציון. דוגמה :נניח ) X ∼ Geo (pכך ש- i−1 ).P (X = i) = p (1 − p i )1 − (1 − p i )= 1−(1 − p )1 − (1 − p =p i−1 )P (X = j) = p+p (1 − p)+...+p (1 − p i X j=1 החציון הוא ערך ה i-המינימלי ,המקיים: 1 2 i ≥ )1 − (1 − p או: 1 i )≥ (1 − p 2 או: 1 log1−p ≤i 2 94 כדי לקבל ערך שלם ,החציון יהיה: 1 log1−p ≤i 2 במ"מ אחיד ,החציון יהיה תמיד הערך המרכזי .ואם יש שני ערכים מרכזיים ,החציון יהיה כל ערך שביניהם. 11 תיקנון משתנים מקריים )X−E(X )SD(X = .Zכלומר הגדרה :בהינתן מ"מ ,Xנאמר שהמשתנה המקרי המתוקנן שלו הוא נבצע את הטרנספורמציה הזו על כל התצפיות. כפי שהגדרנו בסטטיסטיקה תיאורית ,המ"מ המתוקנן משמש כדי לתאר את המרחק מהתוחלת ביחידות של סטיית תקן. דוגמה :נניח כי ] ,X ∼ U [1, 6כך ש: E (X) = 3.5 35 12 = 1.707 = )V ar (X 35 12 q = )SD (X נחשב את ההתפלגות של המ"מ המתוקנן: )P (Z = z Z=z 1 6 1 6 1 6 1 6 1 6 1 6 −2.5 1.707 −1.5 1.707 −0.5 1.707 0.5 1.707 1.5 1.707 2.5 1.707 95 X=x 1 2 3 4 5 6 חלק VI התפלגויות משותפות 12 משתנים מקריים רב־ממדיים בדיון במ"מ אלה ,מגדירים יותר ממ"מ יחיד. דוגמה :מטילים מטבע הוגן 3פעמים .מרחב המדגם מכיל 8אפשרויות: }) Ω = {(H, H, H) , (H, H, T ) , (H, T, H) , (T, H, H) , (H, T, T ) , (T, H, T ) , (T, T, H) , (T, T, T נגדיר את המ"מ Xכמספר הראשים ,ואת Yכמספר הראשים בהטלה הראשונה פחות מספרם בהטלה השנייה. Y 0 0 1 −1 1 −1 0 0 X 3 2 2 2 1 1 1 0 H, H, H H, H, T H, T, H T, H, H H, T, T T, H, T T, T, H T, T, T ניתן לבדוק את ההסתברות של Xושל Yבנפרד ,ולקבל: 1 8 = )P (X = 3 3 8 2 8 = )P (X = 2 = )P (Y = 1 3 8 4 8 = )P (X = 1 = )P (Y = 0 P (X = 0) = 18 P (Y = −1) = 82 אך ניתן גם לבדוק את ההתפלגויות המשותפות: 3 2 1 0 0 1 8 1 8 1 8 1 8 1 8 1 8 0 1 8 0 X Y −1 0 1 1 8 0 כך למשל נקבל P (X = 0, Y = −1) = 0או למשל 1 8 = ).P (X = 1.Y = 1 ניתן לחשב את ההתפלגות של Xמתוך ההתפלגות המשותפת ל X-ו .Y -בהקשר זה, ההתפלגות של Xמכונה "ההתפלגות השולית של ."X m נזכור שעבור חלוקה {Bj }j=1מתקיים: ) P (X = 0, Bi m X i=1 96 = )P (X = 0 )זה חיתוך של המאורע X = 0עם המאורע (Bi ולכן נקבל: 1 1 =+0 8 8 P (X = 0, Y = y) = 0 + X = )P (X = 0 y ובאופן דומה: 1 1 1 =+ +0 8 8 4 P (X = x, Y = 1) = 0 + X = )P (Y = 1 x וכך ניתן להשלים את כל ההסתברויות השוליות של Xושל ,Yולקבל: 1 4 1 2 1 4 12.1 3 2 1 0 0 1 8 1 8 1 8 3 8 1 8 1 8 1 8 3 8 0 1 8 0 1 8 1 8 0 X Y −1 0 1 1 8 פונקציה של משתנים מקריים בהינתן המשתנים המקריים ,X, Yנגדיר את המשתנים המקריים הבאים: Z =X +Y W =X −Y T =X ·Y טענה: ) E (X ± Y ) = E (X) ± E (Y הוכחה :נסמן ) ,pxy = P (X = x, Y = yונחשב: XX XX = (x ± y) pxy xpxy ± = ypxy y x y x XX y = ) E (X ± Y x X X X X X X x pxy ± y = pxy xP (X = x) ± = )yP (Y = y x y x y y = x ) = E (X) ± E (Y הערה :תוצאה זו בעצם אומרת כי ) f (X ± Yנקבעת רק בעזרת ) E (Xו E (Y )-ללא חשיבות להתפלגות השולית. באופן אחר :יתכנו התפלגויות משותפות רבות ל X-ול ,Y -אך ) E (X ± Yתיקבע רק לפי ההתפלגויות השוליות של Xו.Y - 97 דוגמה בכד Nכדורים ממוספרים .מוציאים שניים מתוכם ,ללא החזרה. נסמן ב X-את מספרו של הראשון וב Y -את זה של השני. במקרה N = 3נקבל את ההסתברויות המשותפות הבאות: 3 2 1 1 6 1 6 1 6 0 1 2 3 1 6 1 6 0 1 6 0 Y X ההסתברות השולית היא: 1 1 1 = + 6 6 3 P (X = 1, Y = j) = 0 + 3 X = )P (X = 1 j=1 וכן כל ההסתברויות השוליות הן . 13 נשים לב שבדוגמה זו ,לכל aמתקיים 1 3 = ).P (X = a) = P (Y = a הגדרה :משתנים מקריים X, Yייקראו שווי־התפלגות אם לכל aמתקיים: )P (X = a) = P (Y = a חשוב להפריד בין "שווי־התפלגות" לבין "שווים" .כלומר ,שוויון בהתפלגות לא אומר ,P (X = Y ) = 1כפי שראינו בדוגמה האחרונה שבה למעשה .P (X = Y ) = 0 בדוגמה שראינו מתקיים: 1 (1 + 2 + 3) = 2 3 = )E (X וכן: 1 2 2 1 2 1 )+ (2 − 2 )+ (3 − 2 = 3 3 3 3 2 )V ar (X) = (1 − 2 מכיוון שהתוחלת והשונות הן פונקציה של ההתפלגות ,נסיק שהתוחלת והשונות של Yשוות לאלו של ,Xשכן הם שווי־התפלגות. נמשיך את הדיון בדוגמה :נגדיר .Z = X · Yכלומר לכל ω ∈ Ωמתקיים = )Z (ω ).X (ω) · Y (ω )P (Z = z 0 1 3 1 3 0 1 3 0 98 z = xy 1 2 3 4 6 9 נחשב את התוחלת: 2+3+6 11 = 3 3 = )E (Z אך נשים לב: 2 2 4 11 = ) E (X) · E (Y == 6 3 9 3 נסיק מכך שהתוחלת של פונקציה של מ"מ לא בהכרח שווה לפונקציה של התוחלות. לעומת זאת כפי שראינו לעיל ,אם מדובר בפונקציה לינארית התוחלת של הפונקציה שווה לפונקציה של התוחלות: t=x+y 2 3 4 5 6 )P (T = t 0 1 3 1 3 1 3 0 ובחישוב פשוט נקבל עבור המ"מ :T = X + Y ) E (X) + E (Y ) = 2 + 2 = 4 = E (X + Y ) = E (T ניתן לראות ישירות מכך ש T ∼ U [3, 5]-שהשונות היא: 2 4 32 − 1 ) = 6= = V ar (X) + V ar (Y 12 3 3 = ) V ar (T מסקנה :רק כאשר הפונקציה לינארית ,תוחלת הפונקציה שווה לפונקציה של התוחלת. כמו־כן שונות הפונקציה לא שווה לפונקציה של השונות ,גם כאשר הפונקציה לינארית. הערה :נגדיר Wלהיות הערך על הכשור שנותר מבין השלושה .מתקיים ].W ∼ U [1, 3 נשים לב שכל מהמ"מ X, Y, Wהוא מקרי ,אולם הסכום שלהם קבוע: X +Y =6−W ⇔X +Y +6 נסיק מכך: E (X + Y ) = E (6 − W ) = E (6) − E (W ) = 6 − 2 = 4 2 3 2 = ) V ar (X + Y ) = V ar (6 − W ) = V ar (−W ) = (−1) V ar (W ) = V ar (W 99 ראינו כי אם ) X ∼ Bin (n, pאז .E (X) = npנראה הוכחה נוספת לכך. נתבונן באוכלוסייה של nאנשים ,ובודקים מי מהם מגיע לבנק .אם הפרט ה i-מגיע לבנק, נגדיר זאת כ"הצלחה" ,ונסמנה ב.1- נגדיר זאת באמצעות "פונקציית אינדיקטור": ( 1 success in the i-person = 1 ≤ i ≤ n Ii 0 otherwise נסמן לכל :i P (Ii = 1) = p P (Ii = 0) = 1 − p E (Ii ) = p נסמן את המ"מ Xלהיות מספר ההצלחות ,ולכן: Ii n X = X = I1 + I2 + ... + In i=1 p = np n X = ) E (Ii i=1 n X ! = Ii i=1 n X E (X) = E i=1 השוויון השני נובע מכך שתוחלת של סכום היא סכום התוחלות . הערה :נשים לב כי קיבלנו תוחלת של npללא הדרישה לאי־תלות בין המופעים השונים ,כפי שנדרש בהגדרת התפלגות בינומית. דוגמה :התפלגות היפר־גאומטרית באוכלוסייה קיימים aפרטים מסוג Aו b-פרטים מסוג .Bבוחרים מתוכן nפרטים ללא החזרה.1 ≤ n ≤ a + b . נדון במקרה n = 2ונגדיר: ( 1 if the rst is A = I1 0 otherwise if the second is A otherwise 1 0 ( = I2 נחשב לדוגמה: b b−1 · a+b a+b−1 = )P (I1 = 0, I2 = 0) = P (I1 = 0) P (I2 = 0|I1 = 0 ובאופן דומה נשלים את טבלת ההתפלגות המשותפת כולה: 100 1 b a+b a a+b 1 I1 0 b a+b−1 a−1 a+b−1 a a+b · · I2 b−1 a+b−1 a a+b−1 b a+b a a+b a a+b · · b a+b b a+b 0 1 טענה :עבור )) X ∼ HG (n, a, bכלומר אם דוגמים nפרטים ללא החזרה מתוך אוכלוסייה בה יש aמסוג Aו b-מסוג ,Bוהמ"מ Xסופר את מספר הנדגמים מסוג (Aמתקיים: a a+b · E (X) = n הוכחה :עבור פונקציית ההתפלגות: if the iis A otherwise 1 0 ( = 1 ≤ i ≤ n , Ii מתקיים שכל Ii , Ijהם שווי־התפלגות ,ובפרט גם: a a+b ∈ E (Ii ) = E (Ij ) = 1 · P (Ij ∈ A) + 0 · P (Ij = )/ A כמו־כן מתקיים לפי הגדרת המ"מ: Ii n X =X i=1 ולכן נקבל לפי הגדרת התוחלת: a a ·=n a+b a+b n X = ) E (Ii i=1 n X i=1 ! = Ii n X E (X) = E i=1 נשים לב שמתקיים לפי השונות של מ"מ ברנולי שהראינו לעיל: a a ab = ) V ar (Ii ) = V ar (Ij 1− = 2 a+b a+b )(a + b וכן: )a (a − 1 )(a + b) (a + b − 1 = )E (Ii · Ij ) = P (Ii · Ij = 1 101 דוגמה :נניח כי ) .X ∼ N B (r, pכלומר מבצעים ניסוי עם הסתברות pלהצלחה ,עד ההצלחה ה ,r-ו X-סופר את מספר הניסויים. נבדוק מתי תהיה ההצלחה ה ,r-מבלי שמשנה לנו התפזרות ההצלחות בדרך. כזכור ראינו שההתפלגות הבינומית השלילית היא: k−1 k−r = )k ≥ r P (X = k )pr (1 − p r−1 טענה: r p = )E (X הוכחה :נגדיר: X1הוא מספר הניסויים עד ההצלחה הראשונה. X2הוא מספר הניסויים הנוספים עד ההצלחה הבאה. .. . Xrהוא מספר הניסויים עד ההצלחה ה.r- נשים לב כי כולם שווי־התפלגות המקיימים ) ,1 ≤ i ≤ r ,X1 , X2 , ..., Xr ∼ Geo (P ולכן .E (Xi ) = p1 לפי ההגדרה של המ"מ מתקיים ,X = X1 + X2 + ... + Xrולכן: r p = ) E (X) = E (X1 ) + E (X2 ) + ... + E (Xr דוגמה :חברת קוקה־קולה מציעה מבצע :בכל פקק של בקבוק מופיעה אות עברית מקרית, 1 ) 22האותיות הסופיות ייחשבו כרגילות( .כל אדם שמצליח להרכיב את בהסתברות שמו זכאי להשתתף בהגרלת פרס. נגדיר את מספר הפקקים שיש להשיג כדי להרכיב שם ולהשתתף בהגרלה כמ"מ. כמה בקבוקים בתוחלת על "איתן" לרכוש כדי להשתתף בהגרלה? נסמן: X1מספר הבקבוקים שיש לרכוש עד לאות ראשונה מתאימה. X2הוא מספר הבקבוקים הנוספים שיש לרכוש עד לאותה השנייה המתאימה. X3הוא מספר הבקבוקים הנוספים שיש לרכוש עד לאותה השלישית המתאימה. X4הוא מספר הבקבוקים הנוספים שיש לרכוש עד לאותה האחרונה המתאימה. נסמן ,Y = X1 + X2 + X3 + X4ונשים לב ש Y -מסמן את המ"מ שהגדרנו לעיל. כעת נשים לב להתפלגויות של :Xi 4 ⇒ E (X1 ) = 22 X1 ∼ Geo 22 4 22 3 = ) ⇒ E (X1 3 22 X2 ∼ Geo 22 2 = ) ⇒ E (X1 2 22 X1 ∼ Geo 22 1 = ) ⇒ E (X1 1 22 X1 ∼ Geo 102 נסיק מכך: + 12 + 1 13 1 3 + 1 4 E (Y ) = E (X1 ) + E (X2 ) + E (X3 ) + E (X4 ) = 22 קשרים בין משתנים מקריים שונות משותפת של משתנים מקריים 13.1 הגדרה :בהינתן שני מ"מ X, Yנגדיר ונסמן את השונות המשותפת שלהם: ])) Cov (X, Y ) = E [(X − E (X)) (Y − E (Y נשים לב שמההגדרה נובע מיד ).Cov (X, Y ) = Cov (Y, X נדון בדוגמה :1לכל זוג x, yנבדוק את הערך של )) ,(x − E (X)) (y − E (Yונזכור כי :E (X) = E (2) = 2 Y 3 2 1 (1 − 2) (3 − 2) = −1 (2 − 2) (3 − 2) = 0 (3 − 2) (3 − 2) = 1 (1 − 2) (2 − 2) = 0 (2 − 2) (2 − 2) = 0 (3 − 2) (2 − 2) = 0 (1 − 2) (1 − 2) = 1 (2 − 2) (1 − 2) = 0 (3 − 2) (1 − 2) = −1 X 1 2 3 כעת נוכל לחשב את התוחלת של ההתפלגות שקיבלנו כדי למצוא את השונות המשותפת: = ])) Cov (X, Y ) = E [(X − E (X)) (Y − E (Y = ])[(x − 2) (y − 2)] · P [(X − 2) (Y − 2) = (x − 2) (y − 2 X = x,y + 1 · 0 = − 31 1 6 ·+0 1 6 ·−1 1 6 ·+0·0+0 1 6 ·+0 1 6 ·−1 נוסחה: ) Cov (X, Y ) = E (XY ) − E (X) E (Y 103 1 6 ·=1·0+0 הוכחה: = ])) Cov (X, Y ) = E [(X − E (X)) (Y − E (Y = ]) = E [XY − E (Y ) X − E (X) Y + E (X) E (Y = ]) = E (XY ) − E [E (Y ) X] − E [E (X) Y ] + E [E (X) E (Y = ) = E (XY ) − E (Y ) E (X) − E (X) E (Y ) + E (X) E (Y )= E (XY ) − E (Y ) E (X בדוגמה :מתקיים ,E (X) = E (Y ) = 2וכן חישבנו לעיל 1 11 −4=− 3 3 11 3 = ) ,E (XYולכן: = ) Cov (X, Y תכונות השונות המשותפת: .1יחידות המדידה של השונות המשותפת הן מכפלת יחידות המדידה של שני המשתנים המקריים. Cov (aX + b, cY + d) = ac · Cov (X, Y ) .2 Cov (X, Y ) = Cov (Y, X) .3 Cov (X, X) = V ar (X) .4 דוגמה :באוכלוסייה aפרטים מסוג ,Aו b-פרטים מסוג .Bבוחרים שני פרטים ללא החזרה. פונקציית ההתפלגות היא: ( 1 if the rst is A = I1 0 otherwise if the second is A otherwise 1 0 ( = I2 חישבנו את התוחלת: a a+b = ) E (I1 ) = E (I2 נבדוק מהי השונות המשותפת של שני מ"מ אלו. אינטואיטיבית ניתן לקבוע שהשונות המשותפת שלילית ,שכן אם ידוע כי I1 = 1אז 104 ההסתברות לאירוע I2 = 1קטנה יותר .ואכן כפי שנראה זה המצב. חישוב עזר: ( a a−1 1 a+b · a+b−1 = I1 · I2 a a−1 0 1 − a+b · a+b−1 ולכן: a a−1 · a+b a+b−1 = ) E (I1 · I2 כעת נחשב פורמלית את השונות המשותפת: 2 a a a−1 Cov (I1 , I2 ) = E (I1 · I2 ) − E (I1 ) E (I2 ) = a+b · a+b−1 − a+b = <0 13.2 −ab )(a+b)2 (a+b−1 = )a(a2 −a+ab−b−a2 −ab+a )(a+b)2 (a+b−1 = )a(a−1)(a+b)−a2 (a+b−1 )(a+b)2 (a+b−1 מקדם המתאם של משתנים מקריים הגדרה :בהינתן המ"מ ,X, Yמקדם המתאם ביניהם מוגדר ומסומן: ) Cov (X, Y ) SD (X) · SD (Y = ) Corr (X, Y תכונות מקדם המתאם: .1מקדם המתאם הוא ערך מספרי ללא יחידות מדידה. .2 Corr (X, Y ) ac > 0 −Corr (X, Y ) ac < 0 ( = )Corr (aX + b, cY + d טענה :לכל מ"מ X, Yמתקיים: −1 ≤ Corr (X, Y ) ≤ 1 נוכיח טענה זו בהמשך. נמשיך לדון בדוגמה הקודמת :נשים לב שמתקיים: b a+b · a a+b a I1 ∼ I2 ∼ Bin 1, a+b = ) ⇒ V ar (I1 ) = V ar (I2 105 = מכאן: −1 a+b−1 = −ab )(a+b)2 (a+b−1 ab (a+b)2 ) Cov (I1 , I2 = ) SD (I1 ) · SD (I2 = ) Corr (X, Y נשים לב שנובע מכאן כי ככל ש a, b-גדולים יותר ,מקדם המתאם )בערך מוחלט( בין I1 , I2 חלש יותר .ואכן באופן אינטואיטיבי ככל שהאוכלוסיות גדולות יותר ,ההשפעה של שליפת פריט אחד על שליפת השני -קטנה יותר. טרמינולוגיה X, Yייקראו מתואמים שלילית אם.Corr (X, Y ) < 0 : X, Yייקראו מתואמים חיובית אם.Corr (X, Y ) > 0 : X, Yייקראו בלתי־מתואמים אם: E (XY ) = E (X) E (Y ) ⇔ Cov (X, Y ) = 0 ⇔ Corr (X, Y ) = 0 . טענה: ) V ar (X ± Y ) = V ar (X) + V ar (Y ) ± 2Cov (X, Y הוכחה: 2 2 = ])) V ar (X ± Y ) = E [X ± Y − E (X ± Y )] = E [X − E (X) ± (Y − E (Y 2 2 = )) = E (X − E (X)) ± 2E (X − E (X)) (Y − E (Y )) + E (Y − E (Y ) = V ar (X) ± 2Cov (X, Y ) + V ar (Y מסקנה X, Y :בלתי־מתואמים אם ורק אם מתקיים: ) V ar (X ± Y ) = V ar (X) ± V ar (Y מסקנה: ) V ar (aX ± bY ± c) = V ar (aX ± bY ) = a2 V ar (X)+b2 V ar (Y )±2abCov (X, Y 106 מסקנה: = )V ar (X ± Y ± Z )= V ar (X) + V ar (Y ) + V ar (Z) ± 2Cov (X, Y ) ± 2Cov (X, Z) ± 2Cov (Y, Z נשאיר טענה זו ללא הוכחה. חישבו על ההכללה של טענה זו לסכום כללי של nמשתנים מקריים. טענה: −1 ≤ Corr (X, Y ) ≤ 1 הוכחה :נתבונן בביטוי הבא כפונקציה של :b ) V ar (Y − bX) = V ar (Y ) + b2 V ar (X) − 2bCov (X, Y זו פונקציה ריבועית ב ,b-והיא אי־שלילית. כזכור עבור פונקציה ריבועית כללית y = ax2 + bx + cמתקבל מינימום בערך: b2 4a ymin = c − במקרה הנוכחי ידוע כי ymin ≥ 0כי הוא שונות y − bXעבור bכלשהו ,ולכן נסיק: ≥0 ) Cov 2 (X,Y )V ar(X = V ar (Y ) − ) 4Cov 2 (X,Y )4V ar(X ymin = V ar (Y ) − ⇓ h i 2 ) (X,Y = V ar (Y ) 1 − Cov = ) V ar(Y ⇓ ) 0 ≤ V ar (Y ) 1 − Corr2 (X, Y ⇓ ) 1 ≤ Corr2 (X, Y ⇓ −1 ≤ Corr (X, Y ) ≤ 1 ) 4Cov 2 (X,Y )4V ar(X 0 ≤ V ar (Y ) − ערכו של bשמתאר את ) V ar (Y − bXהוא: ) Cov (X, Y ) SD (Y · ) = Corr (X, Y )V ar (X )SD (X דוגמה :בכד נמצאים N = 3כדורים ממוספרים .1, 2, 3מוציאים שניים ללא החזרה. נגדיר את Xכמספר על הכדור הראשון ואת Yכמספר שעל השני. 107 נחשב את מקדם המתאם. X, Yשווי־התפלגות ולכן: E (X) = E (Y ) = 2 2 3 − 2 · 2 = − 13 = 11 3 32 −1 12 = ) V ar (X) = V ar (Y = ) Cov (X, Y ) = E (XY ) − E (X) E (Y נסיק מכאן: − 31 1 q =− 2 2 2 · 3 3 Corr (X, Y ) = q הכללה :נכליל את התוצאה שראינו בדוגמה. נניח שבכד Nכדורים ממוספרים ,1, 2, ..., Nומוציאים שניים ללא החזרה. נגדיר את X1כמספר שעל הכדור הראשון ואת X2כמספר שעל השני. נוכיח שמתקיים: 1 N −1 Corr (X1 , X2 ) = − הוכחה :ברור כי X1 , X2שווי־התפלגות ,ולכן: N +1 2 = N 2 −1 12 = ) E (X1 ) = E (X2 = ) V ar (X1 ) = V ar (X2 נניח שכל הכדורים הוצאו בזה אחר זה ,ונגדיר בהתאם בנוסף את המ"מ .X3 , ..., XN נטען שלכל זוג מ"מ שנבחר ) 1 ≤ i, j ≤ N ,(Xi , Xjהתפלגות משותפת זהה עם כל זוג משתנים שנבחר ) .1 ≤ r, k ≤ N ,(Xr , Xk כלומר ,למשל ההתפלגות המשותפת של ) (X2 , X7זהה להתפלגות המשותפת של ) (X4 , X6או של ) .(X2 , X6 לכן נוכל לסמן באופן כללי את הקבוע: Cov (Xi , Xj ) = C, i 6= j נשים לב שמתקיים ,V ar (X1 + X2 + ... + XN ) = 0כי הסכום X1 +X2 +...+XN הוא ערך קבוע ושווה ל N (N2+1) -לפי נוסחת סכום של טור חשבוני ,ושונות של קבוע היא .0 מאידך נזכור: = )V ar (X + Y + Z )= V ar (X) + V ar (Y ) + V ar (Z) ± 2Cov (X, Y ) ± 2Cov (X, Z) ± 2Cov (Y, Z 108 וניתן להכליל זאת לכל מספר של מ"מ ,ולכן: = ·C )N (N +1 2 · 0 = V ar (X1 + X2 + ... + XN ) = N V ar (X1 ) + 2 + N (N − 1) C )(N 2 −1 12 =N וכעת אם נחלץ מהמשוואה את ) C = Cov (Xi , Xjנקבל: −N N 2 − 1 )− (N + 1) (N − 1 )− (N + 1 =C = = )12N (N − 1 )12 (N − 1 12 ולכן לפי הגדרת מקדם המתאם: 1 N −1 = )−(N +1 12 )(N 2 −1 q )(N 2 −1 12 Corr (X, Y ) = q 12 כלומר ככל ש N -גדול יותר ההשפעה של מ"מ אחד על האחר קטנה יותר . הערה :מתוצאה זו נובע שעבור N = 2מתקיים .Corr (X1 , X2 ) = −1כלומר מתקבל מתאם מקסימלי )בערך מוחלט( .ההסבר הוא שקיים קשר לינארי בין X1לX2 - שניתן להציגו .X2 = 3 − X1 13.3 ישר הרגרסיה בין משתנים מקריים נבחר ,a, bולאחר שנבדוק את ערכו של Xננבא את ערכו של Yלהיות .Yˆ = b + aX נשים לב שבחירת a, bהיא עוד לפני שידענו את ערכו של .X תוחלת ריבוע השגיאה בין הערך המנובא לערך האמתי היא: 2 ])E [Y − (b + aX כעת נחפש מקדמים a, bשימזערו את השגיאה. טענה: )SD(X ) SD(Y · ) amin = Corr (X, Y )bmin = E (Y ) − amin E (X הוכחה :נזכור כי: )= V ar (X) + E 2 (X 2 − E 2 (X) ⇒ E X 2 V ar (X) = E X ומכאן שמתקיים: 2 = )E (Y − b − aX) = V ar (Y − b − aX) + E 2 (Y − b − aX )= V ar (Y − aX) + E 2 (Y − b − aX 109 כאשר ) b = E (Y ) − aE (Xהמחובר השני יתאפס ,ולכן זה אידאלי כדי למזער את הביטוי. ) a = Corr (X, Y ) · SD(Xהמחובר הראשון יקבל ערך שכאשר ראינו כמו־כן, ) SD(Y מינימלי . הישר y = bmin + amin xנקרא ישר הרגרסיה של Yעל .X דוגמה :נמשיך עם הדוגמה הקודמת -מוציאים שני כדורים ללא החזרה ,מתוך כד של N כדורים ממוספרים. מגדירים את Xלהיות המספר שעל הכדור הראשון ואת Yלהיות המספר שעל השני. נחשב את ישר הרגרסיה של Yעל :X y = b + ax )SD(X ) SD(Y · ) a = Corr (X, Y )b = E (Y ) − aE (X הראינו לעיל שבדוגמה זו מתקיים: −1 N −1 = ) Corr (X, Y ). SD(X ומאחר ש X, Y -שווי־התפלגות אז ) SD (X) = SD (Yולכן SD(Y ) = 1 נסיק מכך את ערכו של :a −1 N −1 =a כמו־כן נזכור שמתקיים: N +1 2 = ) E (X) = E (Y ולכן נקבל את ערכו של :b N +1 1 N +1 N2 − 1 + N + 1 )N (N + 1 + · = = 2 N −1 2 )2 (N − 1 )2 (N − 1 =b מכאן שישר הרגרסיה הוא: )N (N + 1 1 − ·x )2 (N − 1 N −1 =y נשים לב שברגע שיש הרבה כדורים ,המידע על תוצאת הראשון לא מספק הרבה מידע על התוצאה של השני .זה ניכר בביטוי שקיבלנו בכך שכאשר ∞ → Nאז השיפוע שואף ל ,0-והיחס בין המקדם החופשי לבין התוחלת של Yשואף ל.1- נשים לב כי החותך שואף ל. N2 - 110 שונות מוסברת ולא־מוסברת הראינו שעבור ישר הרגרסיה ,הביטוי: ) E (Y − b − aX) = 1 − Corr (X, Y ) V ar (Y 2 2 הוא השונות הבלתי־מוסברת של ,Yכפונקציה לינארית ב .X-כלומר גודל הטעות בניבוי, במונחי תוחלת. 2 באופן טבעי ,השונות המוסברת תהיה )) .E (b + aX − E (Y טענה: 2 ) E (b + aX − E (Y )) = Corr2 (X, Y ) · V ar (Y הוכחה :נוכיח זאת לפי הנוסחה ) :E T 2 = V ar (T ) + E 2 (T 2 )) E (b + aX − E (Y )) = V ar (b + aX − E (Y )) + E 2 (b + aX − E (Y | {z } =0 ⇓ 2 )) E (b + aX − E (Y )) = V ar (b + aX − E (Y כמו־כן מתקיים: = )V ar (b + aX − E (Y )) = V ar (aX) = a2 V ar (X ) · V ar (X) = Corr2 (X, Y ) · V ar (Y ) V ar(Y )V ar(X · ) = Corr2 (X, Y ומכאן השוויון המבוקש . לסיכום ,השונות של Yשווה ל: }השונות המוסברת של Yעל־ידי פונקציה לינארית ב}+{X-השונות הבלתי־מוסברת של Y על־ידי פונקציה לינארית ב.{X- 14 אי־תלות בין משתנים מקריים הגדרה :המשתנים המקריים X1 , X2 , ..., Xnייקראו בלתי־תלויים אם לכל x1 , x2 , ..., xn מתקיים: ) P (X1 = x1 , X2 = x2 , ..., Xn = xn ) = P (X1 = x1 )·P (X2 = x2 )·...·P (Xn = xn דוגמה: 0.3 0.7 1 0 0.18 0.42 0.6 0.12 0.28 0.4 111 X1 X2 0 1 כך למשל ניתן לראות שמתקיים: )P (X1 = 1, X2 = 0) = 0.18 = 0.6 · 0.3 = P (X1 = 1) P (X2 = 0 טענה :אם X1 , X2 , X3בלתי־תלויים ,אז גם כל זוג מביניהם בלתי־תלוי. ובאופן כללי ,אם X1 , X2 , ..., Xnמ"מ בלתי־תלויים ,אז גם כל קבוצה חלקית שלהם מורכבת ממ"מ בלתי־תלויים. הוכחה :לכל x1 , x2מתקיים: = ) P (X1 = x1 , X2 = x2 , X3 = x3 X = ) P (X1 = x1 , X2 = x2 x3 X P = ) P (X1 = x1 ) P (X = x2 ) P (X3 = x3 ) = P (X1 = x1 ) P (X = x2 ) x3 P (X3 = x3 x3 ) = P (X1 = x1 ) P (X = x2 ) · 1 = P (X1 = x1 ) P (X = x2 טענה :אם X1 , X2מ"מ ב"ת אז .Corr (X1 , X2 ) = 0 הוכחה :נוכיח את הטענה השקולה ) :E (X1 X2 ) = E (X1 ) E (X2 XX = ) E (X1 X2 = ) x1 x2 P (X1 = x1 , X2 = x2 x2 ) x2 P (X1 = x1 ) = E (X1 ) E (X2 X x1 ) x1 P (X2 = x2 x2 X = x1 הערה :הטענה ההפוכה אינה נכונה .כלומר ,אם Corr (X1 , X2 ) = 0זה לא אומר שהם בלתי־תלויים. דוגמה־נגדית :ניקח סדרה של זוגות נתונים ) ,(0, 1) , (1, 0) , (0, −1) , (−1, 0כאשר בכל זוג הערך הראשון הוא X1והשני הוא .X2כל זוג מתקבל בהסתברות .0.25 נשים לב שמתקיים: E (X1 ) = E (X1 ) = 0 X1 · X2 = 0 Cov (X1 , X2 ) = 0 − 0 = 0 וכעת נחשב את הדוגמה הנגדית: 1 1 1 · = )= P (X1 = −1, X2 = 0) 6= P (X1 = −1) P (X2 = 0 4 4 2 112 התפלגות סכום של מ"מ בינומיים :נניח כי ) ,X2 ∼ Bin (m, p) ,X1 ∼ Bin (n, pוהם ב"ת. אז מתקיים כי ).X1 + X2 ∼ Bin (n + m, p הוכחה ראשונה :כדי להוכיח שמ"מ מתפלג באופן כלשהו ,צריך להראות שפונקצייה ההתפלגות שלו מתאימה להגדרת ההתפלגות. כלומר במקרה זה צריך להראות שלכל 0 ≤ i ≤ n + mמתקיים: n+m n+m−i = )P (X1 + X2 = i )pi (1 − p i נחשב: == )P (X1 = k, X2 = i − k i X = )P (X1 + X2 = i k=0 )P (X1 = k) P (X2 = i − k Pi k=0 = i X n m n−k m−i+k )pk (1 − p )pi−k (1 − p = k i−k = k=0 = m i−k n k Pi m−i+k k=0 i )= p (1 − p n+m i X i n m m−i+k = )= pi (1 − p · k i−k n+m k=0 i n+m−i )pi (1 − p n+m i המעבר האחרון נובע מכך שמתקיים = 1 m i−k n+m i = n k Pi , k=0שכן זהו סכום ההסתברויות של מ"מ היפר־גאומטרי . הערה :שימו לב שכאשר i − k ≥ m ,k ≥ nאו ,i − k ≤ 0ערכו של המקדם הקומבינטורי המתאים הוא .0 113 הוכחה שנייה :מ"מ בינומי הוא סכום של מ"מ ברנוליים שווי־התפלגות וב"ת .ולכן הוא ניתן להצגה באופן הבא: Pn X1 = i=1 Ii Pn+m i=n+1 Ii = X2 כאשר מגדירים: p 1−p 1 0 ( = Ii ולכן i 6= jהמ"מ Ii , Ijב"ת. מכאן ניתן להסיק: Ii n+m X = X1 + X2 i=1 ובמילים :סכום של n + mמ"מ ב"ת מפולגים ברנולית עם פרמטר ,pכלומר מ"מ מפולג בינומית עם פרמטרים n + mו .p- טענה: )V ar (x) = np (1 − p הוכחה :נחשב: )p (1 − p) = np (1 − p n X = ) V ar (Ii i=1 n X i=1 ! = Ii n X V ar (X) = V ar i=1 השוויון השני נובע מכך שמדובר במ"מ ב"ת . טענה :אם ) X ∼ P ois (λאז .V ar (X) = λ הוכחה :פואסון הוא קירוב בינומי של ) ,X ∼ Bin (n, pולכן: V ar (X) = np (1 − p) = np − np2 −→ λ − 0 = λ ∞→n p→0 np→λ 114 חלק VII שקלול בין משתנים מקריים נניח שמתעניינים בהכנסה הממוצעת של שכירים .ממוצע זה יתקבל אם נתבונן באוכלוסיה כולה ונחשב את הממוצע מתוך נתוני ההכנסות .כך גם נוכל לקבל את שונות ההכנסות. נסמן את ממוצע ההכנסות ב µ-ואת שונותן ב.σ 2 - לפני שאנו יודעים מהם ,µ, σ 2נדגום מתוך האוכלוסייה נדגם מקרי בודד ,נסמן את הכנסתו ב X1 -ונניח שמתקיים: E (X1 ) = µ V ar (X1 ) = σ 2 נרצה לאמוד את ערכו של ,µונעשה זאת באמצעות ממוצע שיילקח על־פני מדגם מסוים. אנו חשים כי ככל שניקח יותר נדגמים ב"ת כך נאמוד בצורה טובה יותר את ערכו של .µ אם ניקח למשל שני נדגמים ב"ת ונמצע עליהם ,נקבל: 1 X1 + X2 1 E = (E (X1 ) + E (X2 )) = (µ + µ) = µ 2 2 2 X1 + X2 2σ 2 σ2 1 V ar = = )) = · (V ar (X1 ) + V ar (X2 2 4 4 2 ככלל ,התוחלת קבועה לכל מספר של נדגמים ,אולם השונות תקטן ככל שנגדיל את מספר 2 הנדגמים ,כי ערכה הוא . σn הקיטון בשונות מעניק משמעות פורמלית לתחושה שככל שהמדגם גדול יותר השגיאה של X באמידת µקטנה יותר. ואכן מתקיים: 2 = E X − µ = V ar X − µ + E 2 X − µ = V ar X + 0 ! σ2 n = )· n · V ar (X 1 n2 = Xi n X 1 n = V ar X = V ar i=1 במידה ונרצה שלא לתת משקל שווה לכל נדגם ,כך שהאומד ל µ-יהיה .αX1 + (1 − α) X2 התוחלת לא תשתנה: E [αX1 + (1 − α) X2 ] = αE (X) + (1 − α) E (X2 ) = E (X1 ) = µ ואולם השונות תהיה: 2 = ) V ar [αX1 + (1 − α) X2 ] = α2 V ar (X1 ) + (1 − α) V ar (X2 ) = α2 [V ar (X1 ) + V ar (X2 )] − 2αV ar (X2 ) + V ar (X2 נשים לב שקיבלנו משוואה ריבועית ב ,α-ולכן הערך שממזער אותה הוא )השונויות שוות(: ]) − [−2V ar (X2 ) V ar (X2 1 = = ]) 2 [V ar (X1 ) + V ar (X2 )V ar (X1 ) + V ar (X)2 2 115 = αmin מכאן שהמשקלים האופטימליים כאשר ) V ar (X1 ) = V ar (X2הם אלו השווים לכל הנדגמים. ניתן לראות שאם למשל מתקיים ) V ar (X1 ) < V ar (X2נעדיף להעניק משקל גדול יותר למדגם בעל השונות הנמוכה ,כדי להקטין את שונות האומד. 14.0.1 דוגמה :השקעה אופטימלית שתי מניות X1 , X2בעלות תוחלת שווה ,אך בעלות שונות שונה ,ונניח ≤ ) V ar (X1 ) ) .V ar (X2המשמעות היא שהמניה השנייה מסוכנת יותר(. אם X1 , X2ב"ת ואנו שונאי־סיכון ייתכן ובמחשבה ראשונה נחליט שעדיף להשקיע את כל כספינו במניה הראשונה ,אך נראה שגם אם אנחנו שונאי־סיכון כדאי אמנם להשקיע יותר במניה הראשונה אך לא הכל. ) V ar(X2 כלומר להשקיע שיעור של V ar(Xמהכסף במניה הראשונה ,ובמניה השנייה ) 1 )+V ar(X2 ) V ar(X1 . V ar(X להשקיע שיעור של ) 1 )+V ar(X2 תוצאה זו נראית מוזרה במבט ראשון ,אך האינטואיציה מאחוריה היא שתמיד רצוי להגדיל את המדגם לצורך הקטנת השונות .למרות ש X1 -מסוכן פחות לא נשים את כל הביצים בסל אחד. ***** אגב ,ניתן לראות שכאשר מציבים במשוואה הריבועית את הערך האופטימלי αminשקיבלנו, מתקבלת השונות: h i2 h i ) V ar(X2 ) V ar(X2 [V ar (X ) + V ar (X ]) − 2 1 2 )V ar(X1 )+V ar(X)2 = ) V ar(X1 )+V ar(X)2) V ar (X2 ) + V ar (X2 = ) V ar 2 (X2 ) V ar(X1 )+V ar(X2 + V ar (X2 ) = V ar (X2 ) − 1 1 1 + V ar(X ) V ar(X1 )2 = ) V ar(X1 )V ar(X2 ) V ar(X1 )+V ar(X2 = ) 2V ar 2 (X2 ) V ar(X1 )+V ar(X2 − ) V ar 2 (X2 ) V ar(X1 )+V ar(X2 ) V ar(X2 )V ar(X1 )+V ar 2 (X2 )−V ar(X2 ) V ar(X1 )+V ar(X2 = = כלומר מחצית הממוצע ההרמוני בין השונויות. ***** טענה: ) V ar (X2 ) − Cov (X1 , X2 ) V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2 = αmin הוכחה: = ] V ar [αX1 + (1 − α) X2 2 = ) = α2 V ar (X1 ) + (1 − α) V ar (X2 ) + 2α (1 − α) Cov (X1 , X2 = ) = α2 V ar (X1 ) + 1 − 2α + α2 V ar (X2 ) + 2α − 2α2 Cov (X1 , X2 ) = α2 (V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2 )) − 2α (V ar (X2 ) − Cov (X1 , X2 )) + V ar (X2 116 כפי שראינו השונות של הסכום היא פונקציה ריבועית ב ,α-ערכו של αminנקבע לפי הנוסחה למינימום של פונקציה מסוג זה . כאשר מציבים במשוואה הריבועית את ערך ה αmin -שקיבלנו ,ניתן לראות שהשונות המינימלית יוצאת: ) V ar (X1 ) V ar (X2 ) − Cov 2 (X1 , X2 ) V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2 שונאי־סיכון יעדיפו שונות משותפת שלילית .ניתן להראות כי: 1 ) V ar (X2 ≤ ≤ αmin ≤1 2 ) V ar (X1 + X2 ⇒ Cov (X1 , X2 ) < 0 כלומר כאשר המתאם שלילי נשקיע יותר במניה המסוכנת על חשבון הבטוחה ,בהשוואה למקרה של חוסר מתאם. כאשר α > 1כך שהמקדם של X2יוצא שלילי ,מתייחסים לזה כאילו "לווים" מ X2 -לטובת ) .X1בדומה למכירת .(short הערה :מתקיים: ) V ar (X1 ) V ar (X2 ) V ar (X1 ) V ar (X2 ) − Cov 2 (X1 , X2 < ) V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2 ) V ar (X1 ) + V ar (X2 כאשר Cov (X1 , X2 ) > 0ייתכן שמתקיים: ) V ar (X2 ) − Cov 2 (X1 , X2 ) V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2 <1 ונצטרך לתקן זאת כך ש: ) V ar (X2 ) − Cov 2 (X1 , X2 = min 1, ) V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2 117 αmin חלק VIII אי־שוויונים 15 אי־שוויון מרקוב משפט :נניח שהמ"מ Xיכול לקבל רק ערכים אי־שליליים ,אזי לכל a > 0מתקיים: )E (X a ≤ )P (X ≥ a ובאופן שקול: )E (X a P (X < a) ≥ 1 − הוכחה :נחשב: X ≥ )x · P (X = x ≥ )x · P (X = x X x x≥a = )P (X = x = )E (X X · a · P (X = x) = a x≥a X ≥ x≥a )a · P (X ≥ a נעביר אגפים ונקבל את אי השוויון . דוגמה :מחיר כרטיס למשחק קוביה עולה 4ש"ח .במהלך המשחק מטילים את הקוביה וזוכים בשקלים כמספר שיצא בקוביה. נשחק 100פעמים ונרצה לחסום את ההסתברות שלא נצא בהפסד .כלומר: ! 100 X P Xi ≥ 400 i=1 כאשר Xiהוא ערך הזכייה במשחק ה.i- לפי אי־שוויון מרקוב נוכל להסיק: P100 ) E (Xi 100 · 3.5 7 = = 400 400 8 i=1 = Xi P 100 i=1 ! E ≤ 400 i=1 ובאופן שקול נוכל לקבוע: 7 1 = 8 8 ! ≥1− Xi < 400 100 X i=1 118 Xi ≥ 400 100 X P P הערה :אי־שוויון שקול לאי־שוויון מרקוב הוא: 1 t משמעות אי־שוויון זה היא שההסתברות להתרחק מהתוחלת קטנה יותר ככל שהמרחק גדול יותר ,כאשר את המרחק מודדים ביחידות התוחלת. ≤ ))P (X ≥ tE (X 16 אי־שוויון צ'בישב משפט :בהינתן מ"מ Xכלשהו ,לכל a > 0מתקיים: )V ar (X a2 ≤ )P (|X − E (X)| ≥ a ובאופן שקול: 1 t2 ≤ |)|X − E (X ≥t )SD (X P המשמעות היא שההסתברות שמ"מ יהיה רחוק מהתוחלת שלו קטנה ככל שהמרחק ביניהם גדל. 2 הוכחה :נגדיר מ"מ חדש )) ,(X − E (Xונשים לב שמתקיים לפי הגדרת השונות: 2 )E [(X − E (X))] = V ar (X כעת בהינתן aנפעיל את אי־שוויון מרקוב עבור :a2 E [X − E (X)]2 )V ar (X 2 ≤ P [X − E (X)] ≥ a2 = a2 a2 נעביר אגפים ונקבל את אי השוויון . המשך הדוגמה :נשים לב שמתקיים עבור :1 ≤ i ≤ 100 7 2 35 12 = ) E (Xi = ) V ar (Xi ונסמן ונקבל: 35 12 E (X) = 350 · V ar (X) = nV ar (Xi ) = 100 ( ⇒ Xi 100 X =X i=1 )שונות הסכום היא סכום השונויות כי מדובר בסכום של מ"מ ב"ת(. נשתמש בטריק כדי להגיע לביטוי שמכיל את התוחלת :350 ! ! ! 100 100 100 X X X Xi ≥ 400 = P Xi − 350 ≥ 400 − 350 = P Xi − 350 ≥ 50 i=1 i=1 119 i=1 P וכעת נשתמש באי־שוויון צ'בישב כדי לחסום את ההסתברות לרווח: 100 ! ! 100 X 35 X 1 100 · 12 1 7 Xi − 350 ≥ 50 = ·P · ≤ Xi − 350 ≥ 50 = 2 2 2 50 120 i=1 i=1 P P100 השוויון השני נובע מהסימטריות של המ"מ X = i=1 Xiסביב התוחלת. נשים לב שקיבלנו חסם משופר משמעותית ביחס לזה שהתקבל באי־שוויון מרקוב, שכן נעזרנו בערך השונות. דוגמה :מעוניים לאמוד את pשמוגדר כפרופורציית התמיכה במפלגת הליכוד. נשאל nנדגמים ב"ת האם הם תומכים בליכוד או לא. נגדיר אינדיקטור לתמיכה בליכוד:1 ≤ i ≤ n , ( 1 p = Xi 0 1−p האומד לפרופורציית התומכים בליכוד הוא המ"מ הממוצע Xi מדוע זהו אומד ל:p- ! n 1 1 X · Xi = · np = p E n i=1 n Pn i=1 · 1 n = .Xנראה וכמו־כן: 1 )p (1 − p 1 = )· np (1 − p ≤ n2 n 4n ! = n 1 X · Xi n i=1 V ar מפרסמי הסקר מעוניינים שהטעות הסטטיסטית תהיה חסומה על־ידי .3%כלומר .a = 0.03 נדרוש שהוודאות שלא תתרחש טעות של 3%או יותר ,תהיה 0.95לפחות. ננסח את הדרישה באופן פורמלי: ! n 1 X )p (1 − p 1 · P Xi − p ≤ 0.03 ≥ 1 − ≥1− ≥ 0.95 2 n n · 0.03 4n · 0.032 i=1 כעת נצטרך למצוא מהו nמספיק גדול שמקיים את הדרישה הזו: ≥ 0.95 1 4n·0.032 1− m ≤ 0.05 1 4n·0.032 m = 5555.55 1 4·0.032 ·0.05 ≥n ולכן כדי לעמוד בדרישות שהצבנו נצטרך לשאול 5556אנשים לפחות. 120 17 החוק החלש של המספרים הגדולים n משפט :תהי {Xi }i=1סדרת משתנים מקריים בלתי־תלויים עם תוחלת ) E (Xושונות ) V ar (Xסופיות ושוות לכולם. אזי לכל התפלגות בעלת פונקציית הסתברות Pולכל ε > 0מתקיים: ! n 1 X Xi − E (X) > ε = 0 · n i=1 lim P ∞→n הגבול קיין במובן זה שלכל ε > 0ולכל δ > 0קיים ,Nכך שלכל n > Nמתקיים: ! n 1 X · P Xi − E (X) > ε < δ n i=1 הערה :1החוק החלש של המספרים הגדולים מתייס לשונות רק בעקיפין -הוא מניח את היותה סופית. הערה N :2הוא פונקציה של ε, δוהוא תלוי בהתפלגות. Pn הוכחה :נפעיל את אי־שוויון צ'בישב על המ"מ n1 · i=1 Xiשתוחלתו היא ) E (Xושונותו ): V ar(X היא n ! n 1 X )V ar (X ≤ Xi − E (X) > ε · P −→ 0 ∞→n n nε2 i=1 במציאות בדרך כלל לא יודעים מהי התוחלת ולכן לוקחים את ממוצע המדגם במקומה כאומד .החוק אומר שככל שניקח מדגם יותר גדול ,כך נקטין את השגיאה שלנו באמידת תוחלת האוכלוסייה באמצעות ממוצע המדגם. 121
© Copyright 2024