Download Report

‫יסודות ההסתברות‬
‫פרופ' משה חביב‪ ,‬המחלקה לסטטיסטיקה‪ ,‬האוניברסיטה העברית‬
‫מבוסס על קורס "יסודות הסתברות נתונים ומחשבים" )‪(52220‬‬
‫להערות‪:‬‬
‫‪[email protected]‬‬
‫נחי‬
‫‪1‬‬
‫תוכן עניינים‬
‫‪I‬‬
‫סטטיסטיקה תיאורית‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪II‬‬
‫‪5‬‬
‫מדדי מרכז ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫ממוצע חשבוני )‪ Arithmetic mean‬או ‪. . . . . . . . . (Average‬‬
‫‪1.1‬‬
‫ממוצע הנדסי )‪. . . . . . . . . . . . . . . . . (Geometric mean‬‬
‫‪1.2‬‬
‫ממוצע הרמוני )‪. . . . . . . . . . . . . . . . . (Harmonic mean‬‬
‫‪1.3‬‬
‫בחירת סוג ממוצע ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪1.4‬‬
‫חציון )‪. . . . . . . . . . . . . . . . . . . . . . . . . . . (median‬‬
‫‪1.5‬‬
‫מדדי פיזור ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫שונות )‪. . . . . . . . . . . . . . . . . . . . . . . . . . (Variance‬‬
‫‪2.1‬‬
‫סטיית תקן )‪. . . . . . . . . . . . . . . . (Standard deviation‬‬
‫‪2.2‬‬
‫אי־שוויון צ'בישב ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪2.2.1‬‬
‫ציוני־תקן )תיקנון( ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪2.3‬‬
‫היסטוגרמה ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪2.4‬‬
‫סוגי משתנים ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫מדדי קשר בין משתנים ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫שונות משותפת )‪. . . . . . . . . . . . . . . . . . . (Covariance‬‬
‫‪4.1‬‬
‫מקדם המתאם )‪. . . . . . . . . . . . . (Correlation coecient‬‬
‫‪4.2‬‬
‫רגרסיה לינארית )‪ .Linear regression‬או‪ :‬ישר הריבועים הפחותים( ‪. . . .‬‬
‫נסיגה לממוצע )‪. . . . . . . . . . . . (Regression to the mean‬‬
‫‪5.1‬‬
‫מבוא לתורת הקבוצות‬
‫‪5.2‬‬
‫‪5.3‬‬
‫‪5.4‬‬
‫‪5.5‬‬
‫מונחים יסודיים‬
‫כללי דה־מורגן‬
‫שכיחות יחסית‬
‫חלוקה ‪. . . . .‬‬
‫‪III‬‬
‫תורת ההסתברות‬
‫‪IV‬‬
‫קומבינטוריקה‬
‫‪5.6‬‬
‫‪5.7‬‬
‫‪5.8‬‬
‫‪5.9‬‬
‫‪5.10‬‬
‫‪5‬‬
‫‪5‬‬
‫‪8‬‬
‫‪9‬‬
‫‪9‬‬
‫‪12‬‬
‫‪15‬‬
‫‪15‬‬
‫‪17‬‬
‫‪17‬‬
‫‪18‬‬
‫‪19‬‬
‫‪20‬‬
‫‪21‬‬
‫‪22‬‬
‫‪24‬‬
‫‪25‬‬
‫‪32‬‬
‫‪35‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪.‬‬
‫‪35‬‬
‫‪37‬‬
‫‪38‬‬
‫‪40‬‬
‫‪41‬‬
‫‪46‬‬
‫מדגם סדור עם החזרה ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫מדגם סדור ללא החזרה ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫מדגם לא סדור ללא החזרה ‪. . . . . . . . . . . . . . . . . . . . .‬‬
‫הבינום של ניוטון ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪5.8.1‬‬
‫מדגם לא סדור עם החזרה ‪. . . . . . . . . . . . . . . . . . . . .‬‬
‫דוגמאות ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫זריקת קוביות ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪5.10.1‬‬
‫ימי־הולדת ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪5.10.2‬‬
‫זריקת כדורים לתאים ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪5.10.3‬‬
‫קלפי ברידג' ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪5.10.4‬‬
‫חברי־כנסת ‪. . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪5.10.5‬‬
‫‪2‬‬
‫‪46‬‬
‫‪46‬‬
‫‪47‬‬
‫‪49‬‬
‫‪50‬‬
‫‪50‬‬
‫‪50‬‬
‫‪51‬‬
‫‪52‬‬
‫‪52‬‬
‫‪53‬‬
‫הסתברויות היפר־גאומטריות ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪5.11‬‬
‫הסתברות מותנה )‪. . . . . . . . . . . . . . . (Conditional probability‬‬
‫נוסחת ההסתברות השלמה ‪. . . . . . . . . . . . . . . . . . . . .‬‬
‫‪6.1‬‬
‫נוסחת ביאס )‪. . . . . . . . . . . . . . . . . . (Bayes' theorem‬‬
‫‪6.2‬‬
‫שכיחות יחסית מותנה ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪6.3‬‬
‫אי־תלות )‪. . . . . . . . . . . . . . . . . . . . . . . . . (Independence‬‬
‫דוגמה‪ :‬אוניברסיטת ברקלי ‪. . . . . . . . . . . . . . .‬‬
‫‪7.0.1‬‬
‫דוגמה‪ :‬גנטיקה ‪. . . . . . . . . . . . . . . . . . . . .‬‬
‫‪7.0.2‬‬
‫‪6‬‬
‫‪7‬‬
‫‪V‬‬
‫משתנים מקריים‬
‫‪8‬‬
‫‪9‬‬
‫‪10‬‬
‫‪54‬‬
‫‪54‬‬
‫‪56‬‬
‫‪57‬‬
‫‪62‬‬
‫‪62‬‬
‫‪67‬‬
‫‪67‬‬
‫‪69‬‬
‫פונקציית התפלגות מצטברת ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪7.1‬‬
‫התפלגויות מיוחדות ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫התפלגות ברנולי ‪. . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪8.1‬‬
‫התפלגות אחידה ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪8.2‬‬
‫התפלגות בינומית ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪8.3‬‬
‫התפלגות גאומטרית ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪8.4‬‬
‫התפלגות פואסון ‪. . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪8.5‬‬
‫התפלגות בינומית שלילית ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪8.6‬‬
‫התפלגות היפר־גאומטרית ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪8.7‬‬
‫מדדי מרכז של משתנים מקריים ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫תוחלת של משתנה מקרי )‪. . . . . . . . . . . . (Expected value‬‬
‫‪9.1‬‬
‫תוחלת של מ"מ ברנולי ‪. . . . . . . . . . . . . . . . .‬‬
‫‪9.1.1‬‬
‫תוחלת של מ"מ אחיד ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪9.1.2‬‬
‫תוחלת של מ"מ בינומי ‪. . . . . . . . . . . . . . . . .‬‬
‫‪9.1.3‬‬
‫תוחלת של מ"מ פואסון ‪. . . . . . . . . . . . . . . . .‬‬
‫‪9.1.4‬‬
‫תוחלת של מ"מ גאומטרי ‪. . . . . . . . . . . . . . . .‬‬
‫‪9.1.5‬‬
‫תוחלת של מ"מ בינומי שלילי ‪. . . . . . . . . . . . . .‬‬
‫‪9.1.6‬‬
‫תוחלת של מ"מ היפר־גאומטרי ‪. . . . . . . . . . . . .‬‬
‫‪9.1.7‬‬
‫שכיח ‪. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪9.2‬‬
‫שכיח של מ"מ ברנולי ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪9.2.1‬‬
‫שכיח של מ"מ פואסון ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪9.2.2‬‬
‫שכיח של מ"מ בינומי ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪9.2.3‬‬
‫שכיח של מ"מ גאומטרי ‪. . . . . . . . . . . . . . . . .‬‬
‫‪9.2.4‬‬
‫תוחלת של פונקציות של משתנים מקריים ‪. . . . . . . . . . . . . .‬‬
‫‪9.3‬‬
‫תוחלת של פונקציה־לינארית ‪. . . . . . . . . . . . . .‬‬
‫‪9.3.1‬‬
‫תוחלת של הרכבת פונקציות ‪. . . . . . . . . . . . . .‬‬
‫‪9.3.2‬‬
‫מדדי פיזור של משתנים מקריים ‪. . . . . . . . . . . . . . . . . . . . . .‬‬
‫שונות של משתנים מקריים ‪. . . . . . . . . . . . . . . . . . . . .‬‬
‫‪10.1‬‬
‫סטיית תקן של משתנה מקרי ‪. . . . . . . . . . . . . .‬‬
‫‪10.1.1‬‬
‫נוסחה לחישוב השונות ‪. . . . . . . . . . . . . . . . .‬‬
‫‪10.1.2‬‬
‫שונות של מ"מ ברנולי ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪10.1.3‬‬
‫שונות של מ"מ פואסון ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪10.1.4‬‬
‫שונות של מ"מ בינומי ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪10.1.5‬‬
‫שונות של מ"מ גאומטרי ‪. . . . . . . . . . . . . . . . .‬‬
‫‪10.1.6‬‬
‫שונות של מ"מ אחיד ‪. . . . . . . . . . . . . . . . . .‬‬
‫‪10.1.7‬‬
‫‪3‬‬
‫‪70‬‬
‫‪71‬‬
‫‪71‬‬
‫‪71‬‬
‫‪72‬‬
‫‪73‬‬
‫‪74‬‬
‫‪76‬‬
‫‪77‬‬
‫‪78‬‬
‫‪78‬‬
‫‪79‬‬
‫‪79‬‬
‫‪79‬‬
‫‪80‬‬
‫‪80‬‬
‫‪82‬‬
‫‪82‬‬
‫‪82‬‬
‫‪82‬‬
‫‪82‬‬
‫‪83‬‬
‫‪83‬‬
‫‪83‬‬
‫‪84‬‬
‫‪85‬‬
‫‪85‬‬
‫‪85‬‬
‫‪88‬‬
‫‪88‬‬
‫‪89‬‬
‫‪90‬‬
‫‪90‬‬
‫‪90‬‬
‫‪91‬‬
‫‪11‬‬
‫‪VI‬‬
‫‪12‬‬
‫‪13‬‬
‫‪14‬‬
‫‪VII‬‬
‫‪VIII‬‬
‫‪15‬‬
‫‪16‬‬
‫‪17‬‬
‫פרדוקס המהמר )או‪ :‬פרדוקס סנט־פטרבורג( ‪92 . . . . . . . . . . .‬‬
‫‪10.2‬‬
‫הערה‪ :‬הסתברות ושכיחות יחסית ‪93 . . . . . . . . . . . .‬‬
‫‪10.2.1‬‬
‫הערה‪ :‬סופיות התוחלת‪/‬השונות ‪93 . . . . . . . . . . . . .‬‬
‫‪10.2.2‬‬
‫חציון ‪94 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪10.3‬‬
‫תיקנון משתנים מקריים ‪95 . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪96‬‬
‫התפלגויות משותפות‬
‫משתנים מקריים רב־ממדיים ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫פונקציה של משתנים מקריים ‪. . . . . . . . . . . . . . . . . . . .‬‬
‫‪12.1‬‬
‫קשרים בין משתנים מקריים ‪. . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫שונות משותפת של משתנים מקריים ‪. . . . . . . . . . . . . . . .‬‬
‫‪13.1‬‬
‫מקדם המתאם של משתנים מקריים ‪. . . . . . . . . . . . . . . .‬‬
‫‪13.2‬‬
‫ישר הרגרסיה בין משתנים מקריים ‪. . . . . . . . . . . . . . . . .‬‬
‫‪13.3‬‬
‫אי־תלות בין משתנים מקריים ‪. . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫שקלול בין משתנים מקריים‬
‫‪96‬‬
‫‪97‬‬
‫‪103‬‬
‫‪103‬‬
‫‪105‬‬
‫‪109‬‬
‫‪111‬‬
‫‪115‬‬
‫‪14.0.1‬‬
‫דוגמה‪ :‬השקעה אופטימלית ‪116 . . . . . . . . . . . . . . .‬‬
‫אי־שוויונים‬
‫‪118‬‬
‫אי־שוויון מרקוב ‪118 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫אי־שוויון צ'בישב ‪119 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .‬‬
‫החוק החלש של המספרים הגדולים ‪121 . . . . . . . . . . . . . . . . . . . . .‬‬
‫‪4‬‬
‫חלק ‪I‬‬
‫סטטיסטיקה תיאורית‬
‫תפקידה של הסטטיסטיקה התיאורית הוא לעבד נתונים‪ .‬למשל‪ ,‬נניח שנתונות ההכנסות‬
‫של כל משקי הבית בישראל‪ .‬כלומר‪ ,‬נתונים לנו כמה מיליוני מספרים שכל אחד מהם הוא‬
‫הכנסה של משק בית כלשהו בישראל‪ .‬אנו נרצה לראות את ה"יער" מתוך ה"עצים"‪ .‬נרצה‬
‫לסכם נתונים בתמציתיות או לתאר אותם באמצעות המחשות כמו דיאגרמה או גרף‪ ,‬כך‬
‫שנקבל תמונה כללית על ההכנסות במשקי בית בישראל‪.‬‬
‫הסטטיסטיקה התיאורית עוסקת בעיקר )אך לא רק( במשתנים כמותיים‪ .‬נניח שמתייחסים‬
‫לגובה של אנשים השייכים לאוכלוסייה מסויימת‪ .‬נסמן את המשתנה המספרי שמקבל את ערך‬
‫הגובה של כל אדם ב‪ .Y -‬נקבע יחידות מדידה קבועות‪ ,‬למשל מטרים‪ ,‬וכל התצפיות )האנשים‬
‫השייכים לאוכלוסייה( יימדדו באותן יחידות‪ .‬נניח כי נתונים לנו ‪ n‬אנשים באוכלוסיית היעד‪,‬‬
‫כך שקיימות התצפיות המתאימות ‪.Y1 , Y2 , ..., Yn‬‬
‫הערה‪ :‬נשים לב כי ‪ Y1‬הוא שמה של התצפית שאנו קוראים לה ראשונה‪.‬‬
‫"ראשונה" איננו יותר מאשר שם או כינוי לצורכי התייחסות‪ .‬כלומר‪ ,‬האינדקס אינו‬
‫מעיד על הערך של התצפית אלא רק על המספר הסידורי שלה בתוך כלל התצפיות‪.‬‬
‫האינדקס מאפשר להתייחס לאוכלוסייה כאל סדרה‪ ,‬כלומר קבוצה שיש בה סדר‪.‬‬
‫‪1‬‬
‫מדדי מרכז‬
‫נרצה לסכם את התצפיות שקיבלנו במספר או שניים שמייצגים באיזשהו אופן את כלל‬
‫התצפיות‪ .‬מספרים אלה מייצגים במידה מסוימת את התכונות של כלל האוכלוסייה הנמדדת‪,‬‬
‫ועל־כן הם מאפשרים להשוות באופן כללי בין אוכלוסיות שונות‪.‬‬
‫‪1.1‬‬
‫ממוצע חשבוני )‪ Arithmetic mean‬או ‪Average‬‬
‫‪n‬‬
‫‪{Yi }i=1‬‬
‫(‬
‫)כלומר‪ ,‬אוסף התצפיות ‪.(Y1 , Y2 , ..., Yn‬‬
‫הגדרה‪ :‬נניח כי נתונה הסדרה‬
‫נאמר שהממוצע החשבוני של הסדרה הוא‪:‬‬
‫!‬
‫‪Yi‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪Y1 + Y2 + ... + Yn‬‬
‫‪1‬‬
‫= ‪Y‬‬
‫· =‬
‫‪n‬‬
‫‪n‬‬
‫דוגמה‪ :‬נניח שהערכים הנתונים הם ‪.−1, 0, 2, 4, 7‬‬
‫נשתמש בנוסחה שהגדרנו ונקבל שהממוצע החשבוני הוא‪:‬‬
‫‪−1 + 0 + 2 + 4 + 7‬‬
‫‪= 2.4‬‬
‫‪5‬‬
‫‪5‬‬
‫תכונות הממוצע החשבוני‬
‫‪ .1‬הממוצע החשבוני משמר את יחידות המדידה‪.‬‬
‫‪n‬‬
‫למשל אם נתונה הסדרה ‪) {Yi }i=1‬כלומר‪ (Y1 , Y2 , ..., Yn ,‬ביחידות של מטרים‪ ,‬אז‬
‫גם הממוצע החשבוני ‪ Y‬מתקבל ביחידות של מטרים‪.‬‬
‫‪ .2‬הממוצע החשבוני אדיש ל"טרנספורמציה לינארית"‪.‬‬
‫כלומר‪ ,‬עבור כל זוג מספרים קבועים כלשהם ‪ a, b‬מתקיימת הנוסחה‪:‬‬
‫‪a·Y +b=a·Y +b‬‬
‫‪n‬‬
‫נסביר‪ :‬אם עבור הסדרה ‪ {Yi }i=1‬הממוצע החשבוני הוא ‪ ,Y‬אז עבור הסדרה‬
‫‪n‬‬
‫‪) {aYi + b}i=1‬כלומר‪ (aY1 +b, aY2 +b, ..., aYn +b ,‬הממוצע החשבוני יהיה ‪.aY +b‬‬
‫נשים לב שחיבור וכפל הן פעולות שנקראות לינאריות‪ ,‬ולכן הממוצע אדיש גם לחיבור‬
‫של קבוע וגם לכפל בקבוע‪.‬‬
‫דוגמה לשימוש היא חישוב הממוצע לאחר שינוי ביחידות המדידה‪.‬‬
‫כך למשל אם נתון ממוצע ביחידות של מטרים‪ ,‬נשתמש בטרנספורמציה הלינארית‬
‫‪ f (x) = 100x‬כדי לקבל את הממוצע ביחידות של סנטימטרים‪.‬‬
‫‪ .3‬ממוצע של סכום שווה לסכום הממוצעים‪.‬‬
‫‪n‬‬
‫‪n‬‬
‫כלומר‪ ,‬עבור כל זוג סדרות ‪ {Xi }i=1 ,{Yi }i=1‬מתקיימת הנוסחה‪:‬‬
‫‪X +Y =X +Y‬‬
‫גם תכונה זו נובעת מהלינאריות של הממוצע החשבוני‪.‬‬
‫‪ .4‬הממוצע הוא פונקציה שתלויה בכל הערכים כולם‪.‬‬
‫כלומר‪ ,‬אם נשנה ערך אחד ‪ -‬לא משנה איזה ערך ‪ -‬הממוצע בהכרח ישתנה‪ .‬כמובן‪,‬‬
‫אם שינוי זה הוא כלפי מעלה או מטה‪ ,‬יתקיים שינוי מתאים בממוצע )אך לא באותו‬
‫ערך(‪.‬‬
‫‪ .5‬הממוצע החשבוני מביא למינימום את סכום ריבועי הסטיות של הנתונים מכל מספר‪.‬‬
‫‪n‬‬
‫נסביר‪ :‬נניח כי נתונה הסדרה ‪ {Yi }i=1‬ונניח ש‪ x-‬הוא מספר כלשהו‪.‬‬
‫נתבונן בפונקציה שמודדת את סכום ריבועי המרחקים של איברי הסדרה מ‪ .x-‬כלומר‬
‫הפונקציה הבאה‪:‬‬
‫‪2‬‬
‫)‪(Yi − x‬‬
‫‪n‬‬
‫‪X‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫= )‪f (x) = (Y1 − x) + (Y2 − x) + ... + (Yn − x‬‬
‫‪i=1‬‬
‫את הפונקציה )‪f (x‬‬
‫נוכיח שהממוצע החשבוני ‪ Y‬הוא המספר ‪ x‬שמביא למינימום ‬
‫שהגדרנו‪ .‬כלומר לא משנה איזה ‪ x‬נבחר‪ ,‬תמיד יתקיים )‪.f Y ≤ f (x‬‬
‫‪6‬‬
‫‪2‬‬
‫ראשית נשתמש בנוסחת הכפל הידועה ‪ ,(a − b) = a2 − 2ab + b2‬ונסיק כי מתקיים‪:‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫= )‪(Yi − x) = (Y1 − x) + (Y2 − x) + ... + (Yn − x‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪f (x‬‬
‫‪i=1‬‬
‫‬
‫‬
‫‬
‫= ‪= Y12 − 2Y1 x + x2 + Y22 − 2Y2 x + x2 + ... + Yn2 − 2Yn x + x2‬‬
‫‬
‫= ‪= Y12 + Y22 + ... + Yn2 − 2x (Y1 + Y2 + ... + Yn ) + nx2‬‬
‫‪Yi + nx2‬‬
‫‪n‬‬
‫‪X‬‬
‫‪Yi2 − 2x‬‬
‫‪n‬‬
‫‪X‬‬
‫=‬
‫‪i=1‬‬
‫‪i=1‬‬
‫נשים לב שקיבלנו פרבולה "צוחקת" מהצורה ‪ ,ax2 +bx+c‬כאשר הקבועים המתאימים‬
‫במקרה שלנו הם‪:‬‬
‫‪a=n‬‬
‫‪Yi‬‬
‫‪n‬‬
‫‪X‬‬
‫‪b = −2‬‬
‫‪i=1‬‬
‫‪Yi2‬‬
‫‪n‬‬
‫‪X‬‬
‫=‪c‬‬
‫‪i=1‬‬
‫עבור פרבולה צוחקת הנוסחה למציאת הערך ‪ ,xmin‬כלומר הערך שעבורו הפרבולה‬
‫)‪ f (x‬מגיעה למינימום‪ ,‬היא‪:‬‬
‫‪Pn‬‬
‫‪Pn‬‬
‫‪2 i=1 Yi‬‬
‫‪Yi‬‬
‫‪−b‬‬
‫=‬
‫‪= i=1‬‬
‫‪=Y‬‬
‫= ‪xmin‬‬
‫‪2a‬‬
‫‪2n‬‬
‫‪n‬‬
‫מכאן שהממוצע ‪ Y‬הוא הערך שמביא למינימום את פונקציית סכום ריבועי המרחקים‬
‫של הנתונים מ‪.x-‬‬
‫‪ .6‬הממוצע בריבוע קטן או שווה לממוצע הריבועים‪.‬‬
‫‪2‬‬
‫כלומר‪ ,‬מתקיים תמיד אי השוויון ‪.Y ≤ Y 2‬‬
‫‪2‬‬
‫כמו־כן המקרה של שוויון ‪ Y = Y 2‬מתקיים אך ורק כאשר כל איברי הסדרה שווים‪.‬‬
‫כלומר‪ ,‬ה"שונות" )שתוגדר פורמלית בהמשך( שווה ל‪.0-‬‬
‫הוכחה‪:‬‬
‫‪P‬‬
‫‪P‬‬
‫‪2‬‬
‫‪n‬‬
‫‪n‬‬
‫‬
‫‬
‫) ‪4n i=1 Yi2 − 4 ( i=1 Yi‬‬
‫‪4ac − b2‬‬
‫‪2‬‬
‫= ) ‪0 ≤ f (xmin‬‬
‫=‬
‫‪=n Y2−Y‬‬
‫‪4a‬‬
‫‪4n‬‬
‫‪ .7‬אם נתונים בסדרה ‪ k‬איברים זהים‪ ,‬ניתן להכפיל את האיבר המתאים ב‪.k-‬‬
‫‪7‬‬
‫כלומר‪ ,‬אם נתונה הסדרה ‪ ,Y1 , Y2 , Y, ..., Y , ..., Yn‬אז הממוצע הוא‪:‬‬
‫} ‪| {z‬‬
‫‪k times‬‬
‫‪×k‬‬
‫‪z‬‬
‫|}‬
‫{‬
‫‪Y1 + Y2 + Y + ... + Y + ... + Yn‬‬
‫‪Y1 + Y2 + kY + ... + Yn‬‬
‫= ‪Y‬‬
‫=‬
‫‪n‬‬
‫‪n‬‬
‫‪1.2‬‬
‫ממוצע הנדסי )‪Geometric mean‬‬
‫(‬
‫‪n‬‬
‫‪{Yi }i=1‬‬
‫שכל איבריה אי־שליליים‪.‬‬
‫הגדרה‪ :‬נניח כי נתונה הסדרה‬
‫נאמר שהממוצע ההנדסי )או הגאומטרי( של הסדרה הוא‪:‬‬
‫‪Y1 · Y2 · ... · Yn‬‬
‫‪p‬‬
‫‪n‬‬
‫=‪x‬‬
‫‪n‬‬
‫הסבר‪ :‬נניח שנתונה סדרה של מספרים חיוביים ‪.{Yi }i=1‬‬
‫נתבונן בסדרה שבה מוציאים לוגריתם מכל אחד מהאיברים‪ .‬כלומר‪ ,‬הסדרה‬
‫נגדיר פונקציה )‪ g (x‬שתיקרא פונקציית הפסד‪ ,‬באופן הבא‪:‬‬
‫‪2‬‬
‫)‪(log Yi − log x‬‬
‫‪n‬‬
‫‪X‬‬
‫‪2‬‬
‫‪2‬‬
‫‪n‬‬
‫‪.{log Yi }i=1‬‬
‫‪2‬‬
‫= )‪g (x) = (log Y1 − log x) +(log Y2 − log x) +...+(log Yn − log x‬‬
‫‪i=1‬‬
‫נשים לב שמהדיון לעיל בו הראינו שממוצע הוא הערך שממזער את פונקציית סכום‬
‫ריבועי המרחקים‪ ,‬נובע שהערך שממזער את הפונקציה )‪ g (x‬הוא הערך של ‪ x‬עבורו‬
‫‪.log x = log Y‬‬
‫נשים לב עוד שמתקיים לפי חוקי הלוגריתמים‪:‬‬
‫= ) ‪log (Y1 · Y2 · ... · Yn‬‬
‫‪1‬‬
‫‪n‬‬
‫= ) ‪(log Y1 + log Y2 + ... + log Yn‬‬
‫‪1‬‬
‫‪n‬‬
‫= ‪log Y‬‬
‫‬
‫‬
‫√‬
‫‪1‬‬
‫‪= log (Y1 · Y2 · ... · Yn ) n = log n Y1 · Y2 · ... · Yn‬‬
‫נסיק מכך‪:‬‬
‫‪1‬‬
‫‪Y1 · Y2 · ... · Yn‬‬
‫√‬
‫‪n‬‬
‫‪log x = log Y = log‬‬
‫⇓‬
‫‪Y1 · Y2 · ... · Yn‬‬
‫√‬
‫‪n‬‬
‫=‪x‬‬
‫מכאן שבדומה לממוצע החשבוני שהוגדר כמספר שממזער את סכום ריבועי המרחקים‬
‫של איברי הסדרה ממנו‪ ,‬הממוצע ההנדסי מוגדר כמספר שהלוגריתם שלו ממזער את‬
‫סכום ריבועי המרחקים של לוגריתם איברי הסדרה ממנו‪.‬‬
‫‪1‬פונקציית הלוגריתם היא פונקציה הפיכה‪ ,‬ולכן ניתן לצמצם אותה משני הצדדים‪.‬‬
‫‪8‬‬
‫תכונות הממוצע ההנדסי‬
‫‪ .1‬הממוצע ההנדסי משמר את יחידות המדידה‪.‬‬
‫‪ .2‬לכל ‪ a ≥ 0‬מתקיים‪:‬‬
‫‪p‬‬
‫‪aY1 · aY2 · ... · aYn = a n Y1 · Y2 · ... · Yn‬‬
‫‪p‬‬
‫‪n‬‬
‫)כלומר‪ ,‬הממוצע ההנדסי לינארי ביחס לכפל בקבוע(‪.‬‬
‫‪ .3‬לכל ‪ b 6= 0‬מתקיים‪:‬‬
‫‪p‬‬
‫‪(Y1 + b) · (Y2 + b) · ... · (Yn + b) 6= n Y1 · Y2 · ... · Yn + b‬‬
‫‪p‬‬
‫‪n‬‬
‫)כלומר‪ ,‬הממוצע ההנדסי אינו לינארי ביחס לחיבור של קבוע(‪.‬‬
‫‪n‬‬
‫‪ .4‬לכל סדרה מהצורה ‪ {xj }j=1‬מתקיים‪:‬‬
‫‪p‬‬
‫‪n‬‬
‫‪Y1 · Y2 · ... · Yn‬‬
‫‪1.3‬‬
‫· ‪x1 · x2 · ... · xn‬‬
‫√‬
‫‪n‬‬
‫= ‪x1 Y1 · x2 Y2 · ... · xn Yn‬‬
‫‪p‬‬
‫‪n‬‬
‫ממוצע הרמוני )‪Harmonic mean‬‬
‫(‬
‫‪n‬‬
‫‪,{Yi }i=1‬‬
‫שכל איבריה שונים מ‪.0-‬‬
‫הגדרה‪ :‬נניח כי נתונות הסדרה‬
‫נאמר שהממוצע ההרמוני של הסדרה הוא‪:‬‬
‫‪1‬‬
‫‪Yn‬‬
‫‪1.4‬‬
‫‪n‬‬
‫‪+ ... +‬‬
‫‪1‬‬
‫‪Y2‬‬
‫‪+‬‬
‫‪1‬‬
‫‪Y1‬‬
‫=‪x‬‬
‫בחירת סוג ממוצע‬
‫אי־שוויון הממוצעים‪ :‬ראשית נזכיר )מבלי להוכיח( תוצאה ידועה של המתמטיקאי אוגוסטין‬
‫קושי‪ ,‬שנקראת "אי־שוויון הממוצעים"‪.‬‬
‫‪n‬‬
‫משפט זה קובע שלכל סדרה של מספרים חיוביים ‪ ,{xi }i=1‬מתקיים עבור שלושת הממוצעים‬
‫שהגדרנו אי השוויון הבא‪:‬‬
‫‪x1 + x2 + ... + xn‬‬
‫‪n‬‬
‫≤ ‪x1 · x2 · ... · xn‬‬
‫√‬
‫‪n‬‬
‫≤‬
‫‪1‬‬
‫‪xn‬‬
‫‪n‬‬
‫‪+ ... +‬‬
‫‪1‬‬
‫‪x2‬‬
‫המשפט קובע ששוויון מתקיים אם ורק אם כל המספרים בסדרה זהים‪.‬‬
‫‪9‬‬
‫‪+‬‬
‫‪1‬‬
‫‪x1‬‬
‫דוגמה ‪1‬‬
‫ברוקר נוכח שבשלוש שנים עוקבות מניה הכפילה את עצמה בערכים ‪.1.1, 1.23, 0.9‬‬
‫כלומר‪ ,‬שווי המניה לאחר שלוש השנים הוכפל בערך של ‪.1.1 · 1.23 · 0.9 = 1.2177‬‬
‫‪. 1.1+1.23+0.9‬‬
‫בממוצע חשבוני‪ ,‬ערך המניה הוכפל בשנה בערך של ‪= 1.077‬‬
‫‪3‬‬
‫נשים לב שאם כל שנה היינו מכפילים את ערך המניה ב‪ 1.077-‬היינו מרוויחים יותר ממה‬
‫שהושג במציאות‪.1.0773 = 1.248 :‬‬
‫כעת נמצא תשואה קבועה כזאת שב‪ 3-‬שנים תניב את הרווח שהתקבל בפועל )‪:(1.2177‬‬
‫√‬
‫‪3‬‬
‫‪x3 = 1.2177 ⇒ x = 1.2177 = 1.068‬‬
‫נשים לב שזה התקבל למעשה באמצעות חישוב הממוצע ההנדסי‪.‬‬
‫מכאן שבחישוב תשואות הממוצע ההנדסי הוא מדד מרכזי מהימן יותר מאשר הממוצע‬
‫החשבוני‪.‬‬
‫הערה‪ :‬בהתאם לאי־שוויון הממוצעים‪ ,‬נוכחנו שהממוצע ההנדסי קטן מהממוצע החשבוני‪.‬‬
‫דוגמה ‪2‬‬
‫מכונית נוסעת מחיפה לתל־אביב‪ ,‬מרחק של ‪ 100‬ק"מ‪ ,‬במהירות קבועה של ‪ 100‬קמ"ש‪ .‬דרך‬
‫זו כמובן תארך שעה‪.‬‬
‫המכונית חוזרת את אותה הדרך במהירות של ‪ 50‬קמ"ש‪ ,‬וכעת הדרך תארך שעתיים‪.‬‬
‫מהי המהירות הממוצעת של המכונית?‬
‫תשובה פזיזה עלולה לקבוע שהמהירות הממוצעת היא ‪ 75‬קמ"ש‪.‬‬
‫אולם לכאורה זו תשובה שגויה‪ ,‬כי מהירות ממוצעת מוגדרת כסך המרחק חלקי סך הזמן‬
‫‪. 200‬‬
‫ולכן הממוצע הוא ‪3 = 66.667‬‬
‫‪120‬‬
‫ואכן אם היינו דוגמים את מהירות המכונית בכל דקה היינו מקבלים את הנתונים ‪,{50}i=1‬‬
‫‪60‬‬
‫‪ ,{100}j=1‬כך שהממוצע החשבוני בכל הדקות הוא‪:‬‬
‫‪60 · 100 + 120 · 50‬‬
‫‪= 66.667‬‬
‫‪180‬‬
‫לעומת זאת נשים לב שאם היינו בודקים את מהירות המכונית בכל קילומטר היינו מקבלים‬
‫‪100‬‬
‫‪100‬‬
‫‪ ,{100}j=1 ,{50}i=1‬כך שהממוצע החשבוני של הכל יחד הוא‪:‬‬
‫‪100 · 100 + 100 · 50‬‬
‫‪= 75‬‬
‫‪200‬‬
‫אם כן מהי התשובה הנכונה? אין תשובה נכונה יחידה‪ .‬ממוצע חייב להתייחס ליחידות‬
‫המדידה שבהן אנו בוחרים למדוד‪.‬‬
‫במקרה זה עלינו להחליט האם מעוניינים לבדוק מהירות ממוצעת לדקה )זמן( או מהירות‬
‫ממוצעת לקילומטר )מרחק(‪.‬‬
‫דוגמה ‪3‬‬
‫נכליל את הדוגמה האחרונה בה עסקנו‪.‬‬
‫‪10‬‬
‫נניח כי עוברים מרחק בגודל ‪ a‬מספר כלשהו של פעמים שנסמן ‪.n‬‬
‫בכל אחת מהפעמים עוברים את המרחק במהירות ‪ .Yi‬כלומר נתונה לנו סדרת המהירויות‬
‫‪n‬‬
‫בכל פעם‪.{Yi }i=1 :‬‬
‫‪a‬‬
‫נשים לב שמשך הזמן שאורכת הדרך בפעם ה‪ i-‬הוא ‪ , Yi‬ולכן הזמן שאורך לעבור את המרחק‬
‫‪n‬‬
‫‪X‬‬
‫‪1‬‬
‫‪.a‬‬
‫הכולל ‪ na‬הוא‬
‫‪Y‬‬
‫‪i=1 i‬‬
‫שאלה‪ :‬מהי המהירות הקבועה )שנסמן כנעלם ‪ (x‬שאם נשתמש בה בכל ‪ n‬הפעמים‪ ,‬סך הזמן‬
‫שיארך לעבור את המרחק ‪ na‬יהיה שווה לסך הזמן שאורך לעבור את אותו המרחק‬
‫‪n‬‬
‫במהירויות ‪ {Yi }i=1‬בהתאמה?‬
‫אם נתרגם את השאלה לסימונים בהם השתמשנו‪ ,‬נחפש ‪ x‬שיקיים את השוויון‪:‬‬
‫‪na‬‬
‫‪x‬‬
‫‪n‬‬
‫‪X‬‬
‫‪1‬‬
‫=‬
‫‪Y‬‬
‫‪i=1 i‬‬
‫‪m‬‬
‫‪x = Pn n‬‬
‫‪a‬‬
‫‪1‬‬
‫‪i=1 Yi‬‬
‫וזו בדיוק הגדרת הממוצע ההרמוני‪.‬‬
‫נשים לב שבתרגום למונחי פונקציית הפסד‪ ,‬נחפש ‪ x‬שימזער את הפונקציה‪:‬‬
‫‪2‬‬
‫ ‪n‬‬
‫‪X‬‬
‫‪1‬‬
‫‪1‬‬
‫‪−‬‬
‫‪Yi‬‬
‫‪x‬‬
‫‪i=1‬‬
‫אם נבחר ‪ x1 = Y1‬נקבל מינימום של הפונקציה‪ ,‬כפי שהסברנו לעיל בנוגע לממוצע החשבוני‪.‬‬
‫ולכן נציב בשוויון הנדרש את התוצאה ונקבל‪:‬‬
‫‪Pn n‬‬
‫‪1‬‬
‫‪i=1 Yi‬‬
‫=‬
‫‪Pn1‬‬
‫‪1‬‬
‫‪i=1 Yi‬‬
‫‪1‬‬
‫‪n‬‬
‫=‬
‫‪1‬‬
‫‪1‬‬
‫‪Y‬‬
‫=‪x‬‬
‫הערה‪ :‬עד כה ניגשנו להגדיר מדדי מרכז או ממוצעים למיניהם כדי שימזערו פונקציות‬
‫מסוימות‪ .‬קיימת גישה אחרת להגדיר את הממוצעים‪ ,‬לפיה מעוניינים להחליף את כל‬
‫איברי הסדרה במספר קבוע שיביא אותנו לאותו מקום‪.‬‬
‫‪Pn‬‬
‫• ממוצע חשבוני‪ :‬אם נבדוק מהו הקבוע ‪ c‬המקיים ‪ , i=1 Xi = c + c + ... + c‬נקבל‬
‫‪{z‬‬
‫}‬
‫|‬
‫‪n times‬‬
‫‪Pn‬‬
‫את הממוצע החשבוני ‪.c = X = n1 i=1 Xi‬‬
‫‪Qn‬‬
‫‪ , i=1 Xi = c| · c {z‬נקבל את‬
‫• ממוצע הנדסי‪ :‬אם נבדוק מהו הקבוע ‪ c‬המקיים ‪· ... · }c‬‬
‫‪n times‬‬
‫‪pQn‬‬
‫הממוצע ההנדסי ‪) c = n i=1 Xi‬עבור איברים שכולם חיוביים(‪.‬‬
‫‪1 1‬‬
‫‪1‬‬
‫• ממוצע הרמוני‪ :‬אם נבדוק מהו הקבוע ‪ c‬המקיים ‪+ + ... +‬‬
‫‪c‬‬
‫‪c‬‬
‫}‪c‬‬
‫|‬
‫‪{z‬‬
‫נקבל את הממוצע ההרמוני‬
‫‪Xi‬‬
‫‪Pn n‬‬
‫= ‪.c‬‬
‫‪i=1‬‬
‫‪11‬‬
‫‪n times‬‬
‫=‬
‫‪Pn‬‬
‫‪1‬‬
‫‪i=1 Xi‬‬
‫‪,‬‬
‫‪1.5‬‬
‫חציון )‪median‬‬
‫(‬
‫‪n‬‬
‫‪{Yi }i=1‬‬
‫הגדרה‪ :‬נניח כי נתונה הסדרה‬
‫נאמר שהחציון של הסדרה הוא ערך אמצעי של הערכים‪ ,‬והוא מסומן ב‪.med (Y )-‬‬
‫כלומר‪ ,‬אם מספר התצפיות הוא אי־זוגי‪ ,‬מסדרים את הערכים שבסדרה בסדר עולה‬
‫)או יורד( ובוחרים את הערך האמצעי‪.‬‬
‫אם מספר התצפיות הוא אי־זוגי‪ ,‬החציון מוגדר להיות כל ערך שנמצא בין שני הערכים‬
‫האמצעיים של הסדרה‪.‬‬
‫דוגמה‪ :‬נניח שנתונות התצפיות }‪ ,Y = {−1, 0, 2, 4, 7‬אז ‪.med (Y ) = 2‬‬
‫הסבר‪ :‬נראה שגם החציון ממזער פונקציית הפסד כלשהי‪.‬‬
‫נגדיר פונקציית הפסד )‪ h (x‬באופן הבא‪:‬‬
‫|‪|Yi − x‬‬
‫‪n‬‬
‫‪X‬‬
‫= |‪h (x) = |Y1 − x| + |Y2 − x| + ... + |Yn − x‬‬
‫‪i=1‬‬
‫נשים לב שמתקיים‪:‬‬
‫‪n‬‬
‫‪1 X‬‬
‫·‬
‫|‪|Yi − x| = n · |Y − x‬‬
‫‪n i=1‬‬
‫· ‪|Yi − x| = n‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪h (x‬‬
‫‪i=1‬‬
‫בדוגמה שהזכרנו‪ ,‬הפונקציה המתקבלת היא‪:‬‬
‫‪‬‬
‫‪−5x + 12‬‬
‫‪for x ≤ −1‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪−3x + 14 for − 1 ≤ x ≤ 0‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ −x + 10‬‬
‫‪for 0 ≤ x ≤ 2‬‬
‫= |‪h (x) = |−1 − x|+|x|+|2 − x|+|4 − x|+|7 − x‬‬
‫‪‬‬
‫‪x‬‬
‫‪+‬‬
‫‪10‬‬
‫‪for 2 ≤ x ≤ 4‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ 3x + 2‬‬
‫‪for 4 ≤ x ≤ 7‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪5x − 12‬‬
‫‪for 7 ≤ x‬‬
‫נסביר‪ :‬נשים לב שעבור ‪ x ≤ −1‬כל הביטויים בתוך סימני הערך המוחלט הם חיוביים‪,‬‬
‫ולכן בתחום זה ניתן לוותר על סימנים אלו‪ ,‬ואז הפונקציה מוגדרת ‪.h (x) = −5x+12‬‬
‫כאשר ‪ −1 ≤ x ≤ 0‬עובדה זו נכונה רק עבור ארבעת המחוברים האחרונים‪ .‬עבור‬
‫המחובר הראשון הערך המוחלט הופך את סימנו של הביטוי הרשום בתוכו והוא ‪,x+1‬‬
‫לכן עבור תחום זה הפונקציה מוגדרת ‪.h (x) = −3x + 14‬‬
‫בתחום ‪ 0 ≤ x ≤ 2‬שני המחוברים הראשונים הופכים סימן ושלושת האחרונים לא‪,‬‬
‫ולכן עבור תחום זה הפונקציה מוגדרת ‪.h (x) = −x + 10‬‬
‫וכן הלאה‪.‬‬
‫הגרף של פונקציה זו הוא‪:‬‬
‫‪12‬‬
‫ניתן לראות כי עבור ‪ x < 2‬הפונקציה מונוטונית יורדת‪ ,‬ועבור ‪ 2 ≤ x‬היא מונוטונית‬
‫עולה‪ .‬בפרט הנקודה ‪ x = 2‬היא מינימום שבו הפונקציה משנה את כיוון המונוטוניות‪.‬‬
‫נשים לב ש‪ .med (Y ) = 2-‬כלומר‪ ,‬פונקציית ההפסד שהגדרנו מתמזערת בנקודת‬
‫החציון‪.‬‬
‫במקרה שבו קיים מספר זוגי של ערכים בסדרה‪ ,‬כל הקטע שבין שני הערכים האמצעיים‬
‫יהיה בשיפוע ‪ 0‬וכל הנקודות שבו יהוו מינימום של פונקציית ההפסד שהגדרנו‪.‬‬
‫נתבונן בפונקציית ההפסד שהגדרנו )‪ .h (x‬ניתן להבחין שעבור מחצית הערכים‬
‫הגדולים מהחציון הסימן אינו משתנה כי מתקבל מספר חיובי‪ ,‬ועבור מחצית הערכים‬
‫הקטנים מהחציון הסימן משתנה משלילי לחיובי‪.‬‬
‫לכן נוכל להסיק שערך פונקציית ההפסד בחציון הוא ההפרש בין סכום המחצית‬
‫העליונה של הערכים לבין סכום המחצית התחתונה שלהם‪.‬‬
‫כלומר‪ ,‬אם נתונה הסדרה ‪ ,Y1 ≤ Y2 ≤ ... ≤ Yn‬אז מתקיים‪:‬‬
‫‪‬‬
‫‪n−1‬‬
‫‪n‬‬
‫‪2‬‬
‫‪‬‬
‫‪X‬‬
‫‪ X‬‬
‫‪‬‬
‫‪‬‬
‫‪Y‬‬
‫‪−‬‬
‫‪Yi‬‬
‫‪if nis odd‬‬
‫‪‬‬
‫‪i‬‬
‫‪‬‬
‫‪‬‬
‫‪i=1‬‬
‫‪i= n+1‬‬
‫‪2‬‬
‫= )) ‪h (med (Y‬‬
‫‪n‬‬
‫‪n‬‬
‫‪‬‬
‫‪2‬‬
‫‪X‬‬
‫‪X‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪Y‬‬
‫‪−‬‬
‫‪Yi if n is even‬‬
‫‪i‬‬
‫‪‬‬
‫‪‬‬
‫‪i=1‬‬
‫תכונות החציון‬
‫‪ .1‬החציון משמר את יחידות המדידה‪.‬‬
‫‪13‬‬
‫‪i= n‬‬
‫‪2 +1‬‬
‫‪ .2‬לכל ‪ a, b‬קבועים מתקיימת הנוסחה‪:‬‬
‫‪med (aY + b) = a · med (Y ) + b‬‬
‫‪.3‬‬
‫) ‪med (X + Y ) 6= med (X) + med (Y‬‬
‫נשים לב שחיבור קבוצות מהצורה שסימנו ” ‪ ”X + Y‬הוא חיבור של זוגות איברים‬
‫בעלי אותו אינדקס‪.‬‬
‫נתבונן למשל בסדרות הבאות‪:‬‬
‫‪med (1, 2, 4) = 2‬‬
‫‪med (1, 3, 2) = 2‬‬
‫‪med (1 + 1, 2 + 3, 4 + 2) = med (2, 5, 6) = 5‬‬
‫‪ .4‬החציון אינו רגיש כמו הממוצע לשינוי בערכי הסדרה‪ .‬שינוי של ערך בסדרה יכול‬
‫להשפיע על החציון רק אם הערך היה גדול )קטן( מהחציון והפך להיות קטן )גדול(‬
‫ממנו‪.‬‬
‫הרחבה‪ :‬נדון בדוגמה מעניינת שתשקף יתרון לשימוש בחציון כמדד מרכזי על־פני הממוצע‪.‬‬
‫נתונה שורה של בתים לאורך רחוב אחד‪.‬‬
‫מתכנן מרכזי מעוניין למקם תחנת אוטובוס שתשרת את כלל הדיירים‪.‬‬
‫המתכנן אינו יודע היכן נמצא כל בית‪ ,‬והוא סומך על המידע שנמסר לו מהדיירים‪.‬‬
‫המתכנן מחליט להשתמש במדד מרכזי כדי להחליט היכן למקם את תחנת האוטובוס‪.‬‬
‫נניח שלאחר שנאסף כל המידע על מיקום הבתים‪ ,‬הדייר ‪ x‬מקבל את הזכות לתקן‬
‫את האמירה הקודמת שלו ולשקר‪ .‬כלומר הוא יכול למסור מידע שקרי אודות המיקום‬
‫של ביתו‪.‬‬
‫האינטרס ברור‪ :‬ייתכן ועל־ידי מידע שגוי שיימסר לאחר קבלת ההחלטה על מיקום‬
‫התחנה‪ ,‬הדייר השקרן יצליח לשפר את מיקום התחנה ביחס לביתו‪.‬‬
‫טענה‪ :‬אם המתכנן המרכזי מחליט למקם את התחנה במיקום ממוצע‪ ,‬וכן ‪ x‬יודע את‬
‫מיקום כל הבתים האחרים ברחוב‪ ,‬אז הוא יכול למסור מידע כך שמיקום התחנה יהיה‬
‫במרחק ‪ 0‬מהבית שלו‪.‬‬
‫לעומת זאת אם המתכנן המרכזי מחליט למקם את התחנה במיקום חציוני )כלומר‪,‬‬
‫המיקום שחצי מהבתים נמצאים מצידו האחד החצי מצידו האחר( אז ל‪ x-‬אין אפשרות‬
‫לשפר את מיקום התחנה ביחס לבית שלו על־ידי שקר‪.‬‬
‫נימוק‪ :‬נניח שעל־פי המידע הראשוני התחנה נמצאת משמאל לבית )כלומר קרוב יותר‬
‫לאפס(‪ .‬קל להבין שאם מיקום התחנה נקבע בממוצע‪ ,‬הדייר ‪ x‬יכול לבחור להגדיל‬
‫את המרחק של הבית שלו מספיק‪ ,‬כך שהתחנה תזוז ימינה עד למיקום האמתי של‬
‫ביתו‪.‬‬
‫‪14‬‬
‫ניתן לראת כי אם נסמן את המיקומים האמיתיים של שאר הבתים ‪ ,X1 , ..., Xn‬אז‬
‫הדייר ‪ x‬ידווח על מיקום שקרי ‪ a‬המקיים‪:‬‬
‫!‬
‫‪n‬‬
‫‪1 X‬‬
‫‪Xi + a = Xi‬‬
‫‪n i=1‬‬
‫כעת נבין מדוע אם מיקום התחנה נקבע באופן חציוני‪ ,‬אין לדייר ‪ x‬אפשרות לדווח‬
‫על מיקום אחר שישפר את מצבו‪.‬‬
‫נחלק לשתי אפשרויות את הדיווח השקרי של הדייר ‪ :x‬ייתכן שלפי הדיווח השקרי‬
‫הבית של ‪ x‬יישאר באותו צד של החציון‪ ,‬וייתכן שהדיווח השקרי יעביר את הבית של‬
‫‪ x‬לצד האחר של החציון‪.‬‬
‫באפשרות הראשונה ההכרעה על מיקום התחנה כלל אינה משתנה‪ ,‬ולכן ודאי לא יחול‬
‫כל שיפור במצב הדייר ‪.x‬‬
‫באפשרות השנייה ישתנה מיקום התחנה ויזוז בית אחד קרוב יותר למיקום השקרי של‬
‫ביתו של ‪ ,x‬שבמציאות נמצא מהעבר האחר של החציון‪ .‬מצב זה מרע את מצבו של‬
‫הדייר ‪.x‬‬
‫מדדי פיזור‬
‫‪2‬‬
‫המידע שטמון במדדים מרכזיים מתעלם מהפיזור של הערכים סביב אותו מדד מרכזי‪.‬‬
‫כך למשל הממוצע של }‪ {0, 5, 10‬והממוצע של }‪ {4, 5, 6‬שניהם שווים ל‪ ,5-‬על אף שהערכים‬
‫בסדרה הראשונה מפוזרים במרחקים גדולים יותר מהממוצע‪.‬‬
‫נחפש מדדים שנכנה מדדי פיזור‪ ,‬שייתנו לנו מידע אודות מידת הפיזור של הערכים סביב‬
‫המדד המרכזי‪ .‬פיזור של אוכלוסייה כלשהי תמיד ייקבע ביחס למדד מרכזי כלשהו של‬
‫האוכלוסייה הרלוונטית‪.‬‬
‫נציע מדד שנראה טבעי )אך למעשה שגוי( למדידת הפיזור של ערכים סביב הממוצע‪:‬‬
‫‪n‬‬
‫נניח כי נתונה הסדרה ‪ {Yi }i=1‬כך ש‪ Y -‬הוא הממוצע שלה‪.‬‬
‫האיברים לבין הממוצע‪.‬‬
‫נגדיר מדד פיזור כממוצע‬
‫הסטיות בין ‬
‫‪n‬‬
‫כלומר הממוצע של הסדרה ‪: Yi − Y i=1‬‬
‫‬
‫‬
‫‬
‫‪n‬‬
‫‬
‫‪Y1 − Y + Y2 − Y + ... + Yn − Y‬‬
‫‪1X‬‬
‫= ‪Y −Y‬‬
‫=‬
‫‪Yi − Y‬‬
‫‪n‬‬
‫‪n i=1‬‬
‫נזכור שהראינו כי ‪ ,aY + b = aY + b‬ולכן נסיק‪:‬‬
‫‪2‬‬
‫‪Y −Y =Y −Y =0‬‬
‫לכן נסיק שמדובר במדד פיזור חסר משמעות‪ ,‬כי הוא קבוע ושווה ל‪.0-‬‬
‫‪2.1‬‬
‫שונות )‪Variance‬‬
‫(‬
‫הגדרה‪ :‬נניח כי נתונה הסדרה‬
‫‪n‬‬
‫‪{Yi }i=1‬‬
‫כך ש‪ Y -‬הוא הממוצע שלה‪.‬‬
‫נגדיר את השונות של הסדרה כממוצע של ריבועי הסטיות מהממוצע ‪-‬‬
‫‪2‬נשים לב ש‪Y = Y -‬‬
‫‪15‬‬
‫‪2‬‬
‫‪. Yi − Y‬‬
‫‪n‬‬
‫‪2 on‬‬
‫‪: Yi − Y‬‬
‫כלומר הממוצע של הסדרה‬
‫‪i=1‬‬
‫‪2‬‬
‫‪2‬‬
‫‪n‬‬
‫‪2‬‬
‫‪+ Y2 − Y + ... + Yn − Y‬‬
‫‪1X‬‬
‫=‬
‫‪Yi − Y‬‬
‫‪n‬‬
‫‪n i=1‬‬
‫‪2‬‬
‫‪Y1 − Y‬‬
‫= ) ‪V ar (Y‬‬
‫נוסחה‪ :‬נשים לב שמתקיים‪:‬‬
‫ ‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫‪ X‬‬
‫‪X‬‬
‫‪X‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫=‬
‫‪Yi − 2Yi Y + Y‬‬
‫=‬
‫‪Yi − 2Y‬‬
‫= ‪Yi + nY‬‬
‫‪i=1‬‬
‫‪2‬‬
‫‪n‬‬
‫‪X‬‬
‫‪Yi − Y‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫‬
‫‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪= nY 2 − 2nY + nY = n Y 2 − Y‬‬
‫!‬
‫‪2‬‬
‫‪Yi + nY‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪Yi2 − 2Y‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪1‬‬
‫‪n‬‬
‫·‪=n‬‬
‫ומכאן נובעת נוסחה עבור השונות‪:‬‬
‫‪2‬‬
‫‪V ar (Y ) = Y 2 − Y‬‬
‫מנוסחה זו ניתן להסיק שוב שמתקיים‬
‫‪2‬‬
‫‪ ,Y 2 ≥ Y‬שכן תמיד ‪.V ar (Y ) ≥ 0‬‬
‫תכונות השונות‬
‫‪ .1‬השונות מתקבלת ביחידות מדידה שהן ריבוע של יחידות המדידה של ערכי הסדרה‪.‬‬
‫למשל אם ערכי הסדרה נמדדים ביחידות של מטר‪ ,‬השונות מתקבלת ביחידות של‬
‫מטר רבוע‪.‬‬
‫ניתן להוציא שורש ולקבל את השונות במונחי היחידות המקוריות‪.‬‬
‫‪ .2‬השונות אדישה לחיבור בקבוע‪:‬‬
‫) ‪V ar (Y + b) = V ar (Y‬‬
‫ההוכחה לכך פשוטה‪:‬‬
‫‪n‬‬
‫‪2‬‬
‫‪1X‬‬
‫‪Yi + b − Y + b‬‬
‫=‬
‫‪n i=1‬‬
‫= )‪V ar (Y + b‬‬
‫‪n‬‬
‫‪n‬‬
‫‪2‬‬
‫‪2‬‬
‫‪1X‬‬
‫‪1X‬‬
‫‪Yi + b − Y + b‬‬
‫) ‪Yi − Y = V ar (Y‬‬
‫=‬
‫‪n i=1‬‬
‫‪n i=1‬‬
‫‪ .3‬עבור הכפלה בקבוע מתקיים‪:‬‬
‫) ‪V ar (aY ) = a2 V ar (Y‬‬
‫‪16‬‬
‫=‬
‫הוכחה‪:‬‬
‫=‬
‫‪2‬‬
‫‪aYi − aY‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪1‬‬
‫‪n‬‬
‫=‬
‫‪2‬‬
‫‪aYi − aY‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪1‬‬
‫‪n‬‬
‫‪n‬‬
‫= ) ‪V ar (aY‬‬
‫‪n‬‬
‫‪2‬‬
‫‪2‬‬
‫‪1X‬‬
‫‪1X‬‬
‫‪= a2‬‬
‫‪a Yi − Y‬‬
‫) ‪Yi − Y = a2 V ar (Y‬‬
‫‪n i=1‬‬
‫‪n i=1‬‬
‫נקבל משתי התוצאות הקודמות שלכל ‪ a, b‬קבועים מתקיים‪:‬‬
‫) ‪V ar (aY + b) = a2 V ar (Y‬‬
‫‬
‫סטיית תקן )‪Standard deviation‬‬
‫(‬
‫‪2.2‬‬
‫הגדרה‪ :‬נניח כי נתונה הסדרה‬
‫‪n‬‬
‫‪.{Yi }i=1‬‬
‫) ‪V ar (Y‬‬
‫סטיית התקן של ‪ Y‬היא‪:‬‬
‫‪p‬‬
‫= ) ‪SD (Y‬‬
‫תכונות סטיית התקן‬
‫‪ .1‬כמו השונות‪ ,‬סטיית התקן אדישה לחיבור קבוע‪:‬‬
‫) ‪SD (Y + b) = SD (Y‬‬
‫‪ .2‬עבור הכפלה בקבוע מתקיים‪:‬‬
‫) ‪SD (aY ) = |a| SD (Y‬‬
‫√‬
‫]נשים לב‪[. a2 = |a| :‬‬
‫נקבל משתי התוצאות הקודמות שלכל ‪ a, b‬קבועים מתקיים‪:‬‬
‫) ‪SD (aY + b) = |a| SD (Y‬‬
‫‪2.2.1‬‬
‫אי־שוויון צ'בישב‬
‫‪1‬‬
‫‪k2‬‬
‫‪ 1 −‬מהתצפיות‬
‫אי־שוויון צ'בישב קובע שבכל סדרת תצפיות ‪ Y‬עבור כל ‪ ,k > 0‬לפחות‬
‫נופל במרחק של עד ) ‪ ±k · SD (Y‬מהממוצע‪.‬‬
‫למשל עבור ‪ ,k = 3‬לפחות ‪ 1 − 91 = 89‬מהתצפיות נמצאות במרחק של עד ‪ 3‬סטיות־תקן‬
‫)למעלה או למטה( מהממוצע‪.‬‬
‫אי־שוויון זה מעניק משמעות פורמלית לטענה שלא ייתכן שחלק גדול מידי מהאוכלוסייה‬
‫נמצא במרחק רב מידי מהממוצע‪ ,‬כאשר היחידות בהן נמדד המרחק הן מספר סטיות התקן‬
‫של הערך מממוצע הסדרה ‪.Y‬‬
‫נשים לב שמרחק זה יכול להיות שלילי‪.‬‬
‫‪17‬‬
‫‪2.3‬‬
‫ציוני־תקן )תיקנון(‬
‫‪n‬‬
‫‪,{Yi }i=1‬‬
‫כך ש‪ Y -‬הוא הממוצע שלה ו‪ SD (Y )-‬הוא סטיית‬
‫הגדרה‪ :‬נניח שנתונה הסדרה‬
‫התקן‪.‬‬
‫נגדיר את סדרת ציוני התקן באופן הבא‪:‬‬
‫‪n‬‬
‫‪i=1‬‬
‫‪Yi − Y‬‬
‫) ‪SD (Y‬‬
‫טרנספורמציה זו שביצענו )כפלנו‬
‫הסדרה‪.‬‬
‫‬
‫‪n‬‬
‫= ‪{Zi }i=1‬‬
‫‪1‬‬
‫ב‪SD(Y ) -‬‬
‫‪−Y‬‬
‫‪ ( SD(Y‬נקראת "תיקנון" של‬
‫וחיברנו )‬
‫ציוני התקן אינם תלויים ביחידות המדידה המקוריות‪ .‬כך למשל נתבונן בציון־תקן‬
‫של סדרה ביחידות של ס"מ וביחידות של מטרים‪:‬‬
‫‪100Yi − 100Y‬‬
‫‪100Yi − 100Y‬‬
‫‪Yi − Y‬‬
‫=‬
‫=‬
‫) ‪SD (100Y‬‬
‫) ‪|100| SD (Y‬‬
‫) ‪SD (Y‬‬
‫הסבר‪ :‬נניח שנתונה אוכלוסייה של אנשים ולכל אחד מהם נתון ה‪ IQ-‬שלו‪ .‬קיבלנו מידע‬
‫שה‪ IQ-‬של אדם מסוים גבוה מהממוצע‪ .‬מידע זה מקבל משנה חשיבות אם ידוע‬
‫שהפיזור סביב הממוצע הוא קטן‪ ,‬יותר מאשר במצב שבו הפיזור רב‪.‬‬
‫במצב שבו הפיזור קטן סביב הממוצע "קשה" יותר להתרחק מהממוצע‪ ,‬ולכן ‪ IQ‬גבוה‬
‫במקרה זה מהווה תופעה משמעותית יותר מאשר במקרה האחר‪.‬‬
‫כדי להעניק חשיבות לעובדה שאדם זה מעל לממוצע תוך התחשבות במידת הפיזור‪,‬‬
‫נתקנן את ה‪ IQ-‬שלו‪.‬‬
‫היבט נוסף בו תיקנון שימושי‪ ,‬הוא מצב בו מעוניינים להשוות בין פרטים שונים‬
‫באוכלוסיות שונות‪ .‬למשל השוואה בין גובהם היחסי של שחקן ושחקנית כדורסל‪.‬‬
‫כמו כן תיקנון שימושי במצב בו מעוניינים להשוות בין פרטים הנמדדים ביחידות מידה‬
‫שונות‪ .‬למשל האם אדם מסוים הוא גבוה יותר או שמן יותר‪.‬‬
‫תכונות ציוני התקן‬
‫‪ .1‬הממוצע של ציוני תקן הוא תמיד ‪.0‬‬
‫הוכחה‪:‬‬
‫‪Y‬‬
‫‪Y‬‬
‫‪Y‬‬
‫‪Y‬‬
‫‪−‬‬
‫=‬
‫‪−‬‬
‫‪=0‬‬
‫) ‪SD (Y ) SD (Y‬‬
‫) ‪SD (Y ) SD (Y‬‬
‫=‪Z‬‬
‫‪ .2‬השונות של ציוני תקן היא תמיד ‪ ,1‬ולפיכך גם סטיית התקן היא ‪.1‬‬
‫הוכחה‪:‬‬
‫‬
‫‬
‫‬
‫‬
‫‪Y‬‬
‫‪Y‬‬
‫‪Y‬‬
‫‪V ar (Z) = V ar SD(Y‬‬
‫= ) ‪) − SD(Y ) = V ar SD(Y‬‬
‫‪=1‬‬
‫) ‪V ar(Y‬‬
‫) ‪V ar(Y‬‬
‫= ) ‪ar (Y‬‬
‫‪18‬‬
‫‪1‬‬
‫‪V‬‬
‫‪SD(Y )2‬‬
‫=‬
‫‪2.4‬‬
‫היסטוגרמה‬
‫היסטוגרמה היא שיטה להצגה של נתונים מרובים‪.‬‬
‫כדי ליצור היסטוגרמה עבור אוסף נתון של תצפיות נעבוד באופן הבא‪:‬‬
‫‪ .1‬נקבע טווחים של ערכים שבכל אחד מהם ייפלו כמה תצפיות )הטווחים יכולים להיות‬
‫שונים זה מזה באורכם(‪ ,‬ונמספר כל אחת מקבוצות התצפיות שבטווחים‬
‫קביעת הטווחים היא משימה מורכבת לעתים ולא חד־משמעית‪ ,‬כי מצד אחד חלוקה‬
‫לטווחים מצומצמים )כלומר לקבוצות רבות של ערכים( מעניקה מידע יותר מדויק‪,‬‬
‫אבל מאידך מטשטשת את התמונה הכללית‪.‬‬
‫‪ .2‬בשלב הבא נחשב את השכיחות היחסית של כל אחת מקבוצות הערכים‪ .‬כלומר נבדוק‬
‫מהו השיעור של כל קבוצה מתוך כלל התצפיות‪.‬‬
‫‪ .3‬נשרטט גרף לפי השכיחויות היחסיות בשיטה הבאה‪:‬‬
‫ ניצור מערכת צירים שעל ציר ה‪ x-‬יחידות המדידה של ערכי התצפיות ועל ציר ה‪y-‬‬‫השכיחות היחסית של כל קבוצה‪.‬‬
‫ נקבע שרירותית יחידת שטח כללית על המישור‪ ,‬וגודלה של יחידה זו יוגדר ‪ 1‬וייצג‬‫את כלל האוכלוסיה‪.‬‬
‫ נשרטט מלבן לכל קבוצה‪ .‬רוחב המלבן )על ציר ה‪ (x-‬ייקבע לפי הטווח המתאים‬‫לקבוצה‪ ,‬וגובה המלבן שמכונה צפיפות )על ציר ה‪ (y-‬יהיה השכיחות היחסית חלקי‬
‫אורך הטווח של הקבוצה‪.‬‬
‫הסבר על מושג הצפיפות‬
‫עד כה עסקנו ביחידות ציר ה‪ x-‬ובשכיחות היחסית שמייצג שטח המלבן‪ .‬היחידות שעל ציר‬
‫ה‪ y-‬יוגדרו כצפיפות‪.‬‬
‫מקור המונח הוא שגובה המלבן מגדיר את קצב צבירת השכיחות היחסית‪ ,‬ליחידת ‪.x‬‬
‫הצפיפות לא מייצגת שטח כמובן‪ ,‬והיא גם לא השכיחות היחסית‪ .‬הצפיפות היא השכיחות‬
‫היחסית חלקי יחידות המדידה של ‪.x‬‬
‫נשים לב שמתקבל שהשטח של כל מלבן‪ ,‬דהיינו הצפיפות )גובה( כפול יחידות המדידה‬
‫)בסיס(‪ ,‬שווה לשכיחות היחסית של הקבוצה המתאימה‪.‬‬
‫כך למשל גובה של ‪ 0.19‬אומר שכל פעם שנתקדם יחידה לאורך ציר ה‪ ,x-‬נצבור עוד ‪1.9%‬‬
‫מהשכיחות היחסית‪.‬‬
‫נציין כי בספרים ותוכנות שונים‪ ,‬לעיתים יחידות המדידה של ציר ה‪ y-‬מוגדרות כ"הסתברות"‬
‫או "שכיחות יחסית"‪ .‬זה רחוק מלהיות נכון‪ .‬למשל‪ ,‬צפיפות יכולה להיות גדולה בערכה מ‪!1-‬‬
‫בערכים נומרים‪ ,‬כאשר רוחבי הקטעים שווים‪ ,‬הערכים הרשומים על ציר ה‪ y-‬הם פרפורציונליים‬
‫לשכיחות היחסית של הקטעים הרלוונטיים‪ ,‬אך אין הם יחידות המדידה שלו‪ ,‬כנדרש מכל‬
‫פונקציה‪.‬‬
‫דוגמה‪ :‬נתונים ‪ 100‬אנשים שהתפלגות הגילאים שלהם היא‪:‬‬
‫‪19‬‬
‫‪relativefrequency‬‬
‫‪frequency‬‬
‫‪age‬‬
‫‪0.02‬‬
‫‪0.1‬‬
‫‪0.19‬‬
‫‪0.27‬‬
‫‪0.25‬‬
‫‪0.16‬‬
‫‪0.01‬‬
‫‪1‬‬
‫‪2‬‬
‫‪10‬‬
‫‪19‬‬
‫‪27‬‬
‫‪25‬‬
‫‪16‬‬
‫‪1‬‬
‫‪100‬‬
‫‪15-25‬‬
‫‪25-35‬‬
‫‪35-45‬‬
‫‪45-55‬‬
‫‪55-65‬‬
‫‪65-75‬‬
‫‪75-85‬‬
‫‪sum‬‬
‫היסטוגרמה של נתונים אלה תיראה כך‪:‬‬
‫נשים לב שבדוגמה זו הטווחים נבחרו להיות שווים באורכם )‪ ,(10‬ולכן ספציפית במקרה זה‬
‫גובהה של כל עמודה הוא השכיחות היחסית‪.‬‬
‫פוליגון‬
‫פוליגון הוא מצולע שקודקודיו הם אמצעי הפאה העליונה של המלבנים בהיסטוגרמה‪.‬‬
‫בדוגמה הקודמת פוליגון מתאים הוא‪:‬‬
‫‪3‬‬
‫סוגי משתנים‬
‫כל משתנה מקבל ערך כלשהו‪ .‬הערכים הם התצפיות או הנתונים שיש לנו עבור כל משתנה‪.‬‬
‫‪20‬‬
‫משתנה קטגוריאלי‪ :‬משתנה שמקבל ערך מתוך סדרה מוגדרת ובדרך־כלל מצומצמת של‬
‫ערכים שמכונים "קטגוריות"‪.‬‬
‫למשל המשתנה "אדם" מקבל ערך אחד מתוך הסדרה "מין" שמכילה שתי קטגוריות ‪-‬‬
‫"זכר" ו"נקבה"‪.‬‬
‫• קיימות שתי דרכים מקובלות להצגת משתנים מסוג זה‪.‬‬
‫ דיאגרמת מקלות )אופקית או אנכית(‪ :‬מציירים מקלות שגובהם הוא השכיחות‬‫היחסית )שלא כמו ההיסטוגרמה( ושלרוחבם אין משמעות‪.‬‬
‫ דיאגרמת עוגה‪ :‬מחלקים את שטח העוגה לפי השכיחות היחסית של כל קבוצה‪.‬‬‫משתנה נומרי‪ :‬משתנה שמקבל ערכים מספריים‪.‬‬
‫משתנה זה יכול להיות בדיד ורציף‪ ,‬והאבחנה בין שני המקרים לא תמיד ברורה‪.‬‬
‫כך למשל מספר הילדים במשפחה הוא תמיד בדיד‪ ,‬אולם הממוצע שלהם הוא רציף‪.‬‬
‫פונקציית צפיפות‪ :‬מחזירה עבור כל ערך את גובה העמודה המתאימה בהיסטוגרמה‪.‬‬
‫נתבונן בפונקציית צפיפות בעלת נקודת מקסימום יחידהת שהיא שכיח הסדרה‪ .‬כלומר‬
‫קיים שכיח יחיד‪.‬‬
‫‪3‬‬
‫נניח עוד שעד לנקודה זו הפונקציה עולה וממנה היא יורדת‪.‬‬
‫ כאשר פונקציית הצפיפות סימטרית‪ :‬שכיח=חציון=ממוצע‪.‬‬‫ כאשר פונקציית הצפיפות מוטה חיובית‪ :‬שכיח≥חציון≥ממוצע‪.‬‬‫ כאשר פונקציית הצפיפות מוטה שלילית‪ :‬שכיח≤חציון≤ממוצע‪.‬‬‫החוק האמפירי‪ :‬עוסק בפונקציות צפיפות טיפוסיות שניתן מידי פעם לפגוש באוכלוסיות‪.‬‬
‫לפי החוק האמפירי בין סטיית תקן אחת למעלה וסטיית תקן אחת למטה מהממוצע‬
‫יתקבלו כ‪ 67%-‬מהתצפיות‪ ,‬בין שתי סטיות תקן סביב הממוצע יתקבלו כ‪95%-‬‬
‫מהתצפיות‪ ,‬ובין ‪ 3‬סטיות תקן סביב הממוצע יתקבלו כ‪ 98%-‬מהתצפיות‪.‬‬
‫החוק אינו נכון תמיד‪ ,‬אך בניגוד לאי־שוויון צ'בישב המחמיר הוא מהווה "כלל אצבע"‬
‫ונותן ערכים מציאותיים יותר‪.‬‬
‫‪4‬‬
‫מדדי קשר בין משתנים‬
‫לאחר שעסקנו בכל משתנה בנפרד נרצה לאפיין קשר בין משתנים שונים וכיצד הם נעים‬
‫יחד‪.‬‬
‫למשל‪ ,‬האם ניתן ללמוד משהו על ערכו של האחד אם ידוע ערכו של השני? האם ניתן לקבוע‬
‫בהכללה שכאשר ערכו של אחד גדל כך גם השני? או להיפך? ואם כן‪ ,‬באיזו מידה הכללה‬
‫זו נכונה?‬
‫מדדי הקשר שנדון בהם כעת וישר הרגרסיה שיבוא אחר כך‪ ,‬עוסקים בשאלה זו‪.‬‬
‫‪3‬פונקציות מסוג זה מכונות "יונימודליות" )‪.(unimodal‬‬
‫‪21‬‬
‫‪4.1‬‬
‫שונות משותפת )‪Covariance‬‬
‫(‬
‫הגדרה‪ :‬נניח שנתונים שני משתנים ‪ .X, Y‬השונות המשותפת להם מוגדרת להיות‪:‬‬
‫‬
‫‬
‫‬
‫‬
‫‪1‬‬
‫= ‪X1 − X Y1 − Y + ... + Xn − X Yn − Y‬‬
‫‪n‬‬
‫= ) ‪Cov (X, Y‬‬
‫‪n‬‬
‫‬
‫‬
‫‪1X‬‬
‫=‬
‫‪Xi − X Yi − Y‬‬
‫‪n i=1‬‬
‫דוגמה‪ :‬נניח כי ‪.SD (Y ) = 4 ,SD (X) = 2 ,Y = 6 ,X = 4‬‬
‫נסדר את הנתונים בטבלה‪:‬‬
‫‬
‫‬
‫‪X‬‬
‫‪Y‬‬
‫‪Xi − X Yi − Y‬‬
‫‪Xi − X Yi − Y‬‬
‫‪1‬‬
‫‪5‬‬
‫‪−3‬‬
‫‪−1‬‬
‫‪3‬‬
‫‪3‬‬
‫‪4‬‬
‫‪−1‬‬
‫‪−2‬‬
‫‪2‬‬
‫‪4‬‬
‫‪7‬‬
‫‪0‬‬
‫‪1‬‬
‫‪0‬‬
‫‪5‬‬
‫‪1‬‬
‫‪1‬‬
‫‪−5‬‬
‫‪−5‬‬
‫‪7‬‬
‫‪13‬‬
‫‪3‬‬
‫‪7‬‬
‫‪21‬‬
‫נחשב את השונות המשותפת וניווכח ש‪.Cov (X, Y ) = 4.2 > 0-‬‬
‫המשמעות של העובדה שהשונות המשותפת של ‪ X‬ו‪ Y -‬חיובית‪ ,‬היא שהמשתנים הללו‬
‫תלויים באופן חיובי‪ .‬כלומר‪ ,‬אם אחד גדל ‪ -‬האחר גדל‪.‬‬
‫נוסחה‪ :‬ניתן לראות שמתקיים‪:‬‬
‫‪n‬‬
‫‬
‫‬
‫‪1X‬‬
‫= ‪Xi − X Yi − Y‬‬
‫‪n i=1‬‬
‫‪n‬‬
‫‪n‬‬
‫= ) ‪Cov (X, Y‬‬
‫‪n‬‬
‫‪n‬‬
‫‪1X‬‬
‫‪1X‬‬
‫‪1X‬‬
‫‪1X‬‬
‫‪XYi +‬‬
‫= ‪XY‬‬
‫‪Xi Yi −‬‬
‫‪Xi Y −‬‬
‫‪n i=1‬‬
‫‪n i=1‬‬
‫‪n i=1‬‬
‫‪n i=1‬‬
‫=‬
‫‪= X · Y − 2X · Y + X · Y = X · Y − X · Y‬‬
‫ולכן קיבלנו את הנוסחה‪:‬‬
‫‪Cov (X, Y ) = X · Y − X · Y‬‬
‫תיאום בין משתנים‪ :‬נאמר שהמשתנים ‪ X, Y‬מתואמים חיובית )שלילית( אם השונות‬
‫המשותפת שלהם חיובית )שלילית(‪.‬‬
‫נאמר שהמשתנים ‪ X, Y‬בלתי־מתואמים אם השונות המשותפת שלהם היא ‪.0‬‬
‫‪22‬‬
‫תכונות השונות המשותפת‬
‫‪ .1‬הזזה באמצעות חיבור קבועים לשני המשתנים )גם אם התזוזות שונות זו מזו בערכן(‬
‫אינה משנה את השונות המשותפת‪.‬‬
‫כלומר‪ ,‬לכל ‪ a, b‬קבועים מתקיים‪:‬‬
‫) ‪Cov (X + a, Y + b) = Cov (X, Y‬‬
‫הסיבה לכך היא ששינוי כל התצפיות בקבוע מזיז את הממוצע בדיוק באותו קבוע‪,‬‬
‫ולכן ההפרשים מהממוצע לא משתנים‪.‬‬
‫‪ .2‬לכל ‪ a, b‬קבועים מתקיים‪:‬‬
‫) ‪Cov (aX, bY ) = ab · Cov (X, Y‬‬
‫משתי התכונות הללו נובע שלכל ‪ a, b, c, d‬קבועים מתקיים‪:‬‬
‫) ‪Cov (aX + b, cY + d) = ac · Cov (X, Y‬‬
‫‪.3‬‬
‫)‪Cov (X, Y ) = Cov (Y, X‬‬
‫‪.4‬‬
‫)‪Cov (X + Y, Z) = Cov (X, Z) + Cov (Y, Z‬‬
‫‪.5‬‬
‫) ‪V ar (X ± Y ) = V ar (X) + V ar (Y ) ± 2Cov (X, Y‬‬
‫הוכחה‪:‬‬
‫‬
‫‪2‬‬
‫‪(Xi ± Yi ) − X ± Y‬‬
‫=‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪1‬‬
‫‪n‬‬
‫= ) ‪V ar (X ± Y‬‬
‫‪n‬‬
‫‬
‫‪2‬‬
‫‪1 X‬‬
‫‪Xi − X ± Yi − Y‬‬
‫=‬
‫‪n i=1‬‬
‫=‬
‫‪n‬‬
‫‪2‬‬
‫‬
‫‬
‫‪i2‬‬
‫‪1 Xh‬‬
‫‪Xi − X + Yi − Y ± 2 Xi − X Yi − Y‬‬
‫=‬
‫‪n i=1‬‬
‫) ‪= V ar (X) + V ar (Y ) ± 2Cov (X, Y‬‬
‫‪23‬‬
‫=‬
‫‪4.2‬‬
‫מקדם המתאם )‪Correlation coecient‬‬
‫(‬
‫הגדרה‪ :‬מקדם המתאם בין ‪ X, Y‬מוגדר להיות‪:‬‬
‫) ‪Cov (X, Y‬‬
‫) ‪SD (X) · SD (Y‬‬
‫= ) ‪Corr (X, Y‬‬
‫הרחבה‪ :‬נוכל לפתח את הביטוי ולקבל‪:‬‬
‫) ‪Cov (X, Y‬‬
‫=‬
‫) ‪SD (X) · SD (Y‬‬
‫= ) ‪Corr (X, Y‬‬
‫‬
‫‬
‫‬
‫‬
‫‪n‬‬
‫‪Xi − X Yi − Y‬‬
‫‪Yi − Y‬‬
‫‪1 X Xi − X‬‬
‫=‬
‫·‬
‫) ‪SD (X) SD (Y‬‬
‫)‪n i=1 SD (X‬‬
‫) ‪SD (Y‬‬
‫‪Pn‬‬
‫‪i=1‬‬
‫‪1‬‬
‫‪n‬‬
‫=‬
‫נשים לב שקיבלנו שההגדרה של מקדם המתאם של ‪ X, Y‬שקולה לשונות המשותפת‬
‫של ציוני התקן של ‪ X‬ושל ‪.Y‬‬
‫תכונות מקדם המתאם‬
‫‪ .1‬מדד זה נייטרלי ביחס ליחידות המדידה‪.‬‬
‫ניתן לראות תכונה זו בכך שמדובר בשונות משותפת של ציוני תקן‪ ,‬שכפי שראינו הם‬
‫נייטרלים ליחידות המדידה‪.‬‬
‫‪.2‬‬
‫)‪Corr (X, Y ) = Corr (Y, X‬‬
‫‪ .3‬לכל ‪ a, b, c, d‬קבועים מתקיים‪:‬‬
‫(‬
‫‪Corr (X, Y ) if a · c > 0‬‬
‫) ‪acCov (X, Y‬‬
‫= )‪Corr (aX + b, cY + d‬‬
‫=‬
‫) ‪|a| SD (X) |c| SD (Y‬‬
‫‪−Corr (X, Y ) if a · c < 0‬‬
‫ובפרט מתקיים‪:‬‬
‫‬
‫) ‪= Corr (X, Y‬‬
‫‪X −X Y −Y‬‬
‫‪,‬‬
‫) ‪SD (X) SD (Y‬‬
‫‬
‫‪Corr‬‬
‫תכונה יסודית של מקדם המתאם‪:‬‬
‫‪−1 ≤ Corr (X, Y ) ≤ 1‬‬
‫)נוכיח טענה זו בהמשך(‪.‬‬
‫מתכונה זו נובע שכאשר מקדם המתאם הוא למשל ‪ 0.8‬מדובר בקשר חזק בין שני המשתנים‪.‬‬
‫‪24‬‬
‫רגרסיה לינארית )‪regression‬‬
‫‪5‬‬
‫הפחותים(‬
‫‪ .Linear‬או‪ :‬ישר הריבועים‬
‫נגדיר קו ישר מהצורה ‪ ,y = b + ax‬כך ש‪ b-‬הוא החותך ו‪ a-‬הוא השיפוע‪.‬‬
‫‪n‬‬
‫נרצה לעסוק במרחק שבין סדרה כלשהי של נקודות ‪ {(Xi , Yi )}i=1‬במישור לבין הישר ‪.y‬‬
‫נשים לב שכאשר ‪ b = Y ,a = 0‬מקבלים את הישר הקבוע ‪ ,y = Y‬ולעיל כשעסקנו בממוצע‬
‫הגדרנו ביטוי למרחק של הסדרה ממנו‪:‬‬
‫‪2‬‬
‫‪Yi − Y‬‬
‫‪n‬‬
‫‪X‬‬
‫= ‪Syy‬‬
‫‪i=1‬‬
‫‪n‬‬
‫נכליל את הביטוי הזה למרחק של סדרת נקודות ‪ {(Xi , Yi )}i=1‬מישר כללי ‪,y = b + ax‬‬
‫ונגדיר מרחק זה להיות‪:‬‬
‫‪2‬‬
‫) ‪(Yi − b − aXi‬‬
‫‪n‬‬
‫‪X‬‬
‫‪2‬‬
‫= )) ‪(Yi − (b + aXi‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪{(Xi , Yi )}i=1‬‬
‫כעת נרצה למצוא ‪ a, b‬כאלה שימזערו את המרחק של סדרת הנקודות‬
‫‪.y = b + ax‬‬
‫הישר שיתקבל לאחר הצבת הנקודות ‪ a, b‬שנבחר ייקרא ישר הרגרסיה או ישר הריבועים‬
‫הפחותים של ‪ Y‬על ‪.X‬‬
‫בישר זה נשתמש כדי לחזות את ‪ Y‬בהינתן ‪ .X‬למשל בהינתן ‪ X3‬נצפה ש‪ Y3 -‬יהיה שווה‬
‫ל‪.b + aX3 -‬‬
‫פעמים רבות תחזית זו תהיה לא נכונה לגמרי‪ ,‬וייווצר פער בין ‪ Y3‬האמתי לבין ‪ Y3‬החזוי‬
‫שמכונה שארית‪ .‬המטרה היא למזער את השארית‪.‬‬
‫מהישר‬
‫הערה‪ :‬בניגוד לשונות המשותפת ולמקדם המתאם בהם יש סימטריה ביחס שבין ‪ X‬ל‪,Y -‬‬
‫בישר הרגרסיה הדבר לא־כך‪ ,‬והישר של ‪ X‬על ‪ Y‬שונה מהישר של ‪ Y‬על ‪.X‬‬
‫‬
‫משפט‪ :‬ישר הרגרסיה של ‪ Y‬על ‪ X‬הוא הישר היחיד שעובר דרך הנקודה ‪ X, Y‬וששיפועו‬
‫) ‪SD(Y‬‬
‫)‪.a = Corr (X, Y ) · SD(X‬‬
‫הוא‬
‫או באופן שקול‪ :‬הישר היחיד שהחותך שלו הוא ‪ b = Y − aX‬וששיפועו הוא‪:‬‬
‫) ‪SD (Y‬‬
‫)‪SD (X‬‬
‫· ) ‪a = Corr (X, Y‬‬
‫נשים לב שמתקיים‪:‬‬
‫) ‪SD (Y‬‬
‫) ‪Cov (X, Y‬‬
‫) ‪SD (Y‬‬
‫) ‪Cov (X, Y‬‬
‫=‬
‫·‬
‫=‬
‫)‪SD (X‬‬
‫)‪SD (X) SD (Y ) SD (X‬‬
‫)‪V ar (X‬‬
‫· ) ‪a = Corr (X, Y‬‬
‫שבהינתן שקיים ‪ a‬קבוע כלשהו‪ ,‬הערך של ‪ b‬שממזער את הביטוי‬
‫הוכחה‪ 2:‬ראשית נשים לב ‪Pn‬‬
‫) ‪ i=1 (Yi − b − aXi‬הוא ‪.b = Y − aX‬‬
‫טענה זו נובעת מכך שהראינו ליעל שמיזעור פונקציית הפסד מסוג זה מתקבל באמצעות‬
‫‪n‬‬
‫הממוצע של הסדרה שבמקרה שלנו ‪.{Yi − aXi }i=1‬‬
‫ולכן בהינתן ‪ a‬נבחר את ‪ b‬להיות ‪.b = Y − aX = Y − aX‬‬
‫‪25‬‬
‫‬
‫נשים לב שטענה זו מספיקה כדי להראות שהנקודה ‪ X, Y‬על הישר המבוקש‪ ,‬שכן‬
‫היא מקיימת את המשוואה ‪ Y = b + aX‬עבור ‪ b‬שמצאנו‪.‬‬
‫‬
‫‪2‬‬
‫‪Pn‬‬
‫אם כן נותר למצוא ‪ a‬שימזער את הביטוי ‪. i=1 Yi − Y − aX − aXi‬‬
‫נפתח את הביטוי באופן הבא‪:‬‬
‫‪n‬‬
‫‬
‫‬
‫‪2‬‬
‫‪2 X‬‬
‫‬
‫=‬
‫= ‪Yi − Y − aX − aXi‬‬
‫‪Yi − Y − a Xi − X‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫‬
‫‪2‬‬
‫‪Xi − X + a2‬‬
‫‪Xi − X‬‬
‫‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪Yi − Y‬‬
‫‪n‬‬
‫‪X‬‬
‫‪− 2a‬‬
‫‪2‬‬
‫‪Yi − Y‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫=‬
‫‪i=1‬‬
‫כעת נשים לב שניתן להתייחס לביטוי שהתקבל כאל פרבולה צוחקת כשהמשתנה הוא‬
‫‪.a‬‬
‫‪2‬‬
‫‪, −d‬‬
‫הנוסחה‬
‫על־ידי‬
‫שמתקבל‬
‫מינימום‬
‫יש‬
‫‪cx‬‬
‫‪+‬‬
‫‪dx‬‬
‫‪+‬‬
‫‪e‬‬
‫מהצורה‬
‫צוחקת‬
‫לפרבולה‬
‫‪2c‬‬
‫ואם נציב במקרה שלנו נקבל שהמינימום מתקבל‪:‬‬
‫‬
‫‬
‫‬
‫‬
‫‪Pn‬‬
‫‪Pn‬‬
‫‪1‬‬
‫‪Xi − X‬‬
‫‪2 i=1 Yi − Y Xi − X‬‬
‫) ‪Cov (X, Y‬‬
‫‪i=1 Yi − Y‬‬
‫‪n‬‬
‫=‬
‫=‬
‫‪2‬‬
‫‪2‬‬
‫‪Pn‬‬
‫‪Pn‬‬
‫‪1‬‬
‫)‪V ar (X‬‬
‫‪Xi − X‬‬
‫‪2‬‬
‫‪Xi − X‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‬
‫הרחבה‪ :‬עבור ‪) c > 0 ,y = cx2 +dx+e‬פרבולה צוחקת( הערך המינימלי מתקבל באמצעות‬
‫‪2‬‬
‫הביטוי ‪.e − d4c‬‬
‫נציב את הערכים של הביטוי שקיבלנו‪:‬‬
‫‬
‫‬
‫‪2‬‬
‫‪Pn‬‬
‫‪n‬‬
‫‪X‬‬
‫‪2‬‬
‫‪−2 i=1 Yi − Y Xi − X‬‬
‫=‬
‫‪Yi − Y −‬‬
‫‪2‬‬
‫‪Pn‬‬
‫‪4 i=1 Xi − X‬‬
‫‪i=1‬‬
‫‬
‫‪2‬‬
‫‪Yi − Y Xi − X‬‬
‫=‬
‫‪2‬‬
‫‪Pn‬‬
‫‪i=1 Xi − X‬‬
‫‪Pn‬‬
‫‪i=1‬‬
‫‪#‬‬
‫‬
‫‪2‬‬
‫‪Yi − Y Xi − X‬‬
‫‪2‬‬
‫= ‪2‬‬
‫‪Pn‬‬
‫‪Yi − Y · n1 i=1 Xi − X‬‬
‫‪−‬‬
‫‪2‬‬
‫=‬
‫‪i=1‬‬
‫‪ 1 Pn‬‬
‫‪i=1‬‬
‫‪Yi − Y‬‬
‫‪n‬‬
‫‪X‬‬
‫‪n‬‬
‫‪Pn‬‬
‫‪1‬‬
‫‪i=1‬‬
‫‪n‬‬
‫ ‪2‬‬
‫‬
‫) ‪1 − Corr2 (X, Y‬‬
‫‪Yi − Y‬‬
‫"‬
‫‪1−‬‬
‫‪2‬‬
‫‪Yi − Y‬‬
‫‪n‬‬
‫‪X‬‬
‫=‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫=‬
‫‪i=1‬‬
‫ראשית ניכר שככל שהביטוי ) ‪ Corr2 (X, Y‬קרוב יותר ל‪ ,1-‬סכום ריבועי השאריות‬
‫מישר הרגרסיה של ‪ Y‬על ‪ X‬קטן יחסית לסכום ריבועי השאריות מ‪.Y -‬‬
‫כעת ניזכר בכך שהביטוי כולו התקבל כסכום של ריבועים ולכן הוא לא יכול להיות‬
‫שלילי‪ ,‬ומכאן בהכרח ‪ ,−1 ≤ Corr (X, Y ) ≤ 1‬כפי שטענו לעיל מבלי להוכיח‪.‬‬
‫‪n‬‬
‫מסקנה‪ :‬נשים לב שהמשמעות של מקרה בו השאריות מתאפסות‪ ,‬היא שכל הנקודות ‪{(Xi , Yi )}i=1‬‬
‫ממוקמות על ישר אחד‪.‬‬
‫‪26‬‬
‫נזכור שהביטוי שמתאר את השאריות הוא‪:‬‬
‫ ‪2‬‬
‫‬
‫‪1 − Corr2 (X, Y ) = 0‬‬
‫‪Yi − Y‬‬
‫‪n‬‬
‫‪X‬‬
‫‪2‬‬
‫= ) ‪(Yi − b − aXi‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫ומכאן שהתאפסות מתרחשת אם ורק אם ‪.Corr2 (X, Y ) = 1‬‬
‫נסיק שכל הנקודות ממוקמות על ישר אחד אם ורק אם ‪.Corr (X, Y ) = 1‬‬
‫‪2‬‬
‫סימונים‪:‬‬
‫‪2‬‬
‫‪Xi − X‬‬
‫‪n‬‬
‫‪X‬‬
‫= ‪Sxx‬‬
‫‪i=1‬‬
‫‪2‬‬
‫‪n‬‬
‫‪X‬‬
‫‪Yi − Y‬‬
‫= ‪Syy‬‬
‫‪i=1‬‬
‫‬
‫‪Yi − Y‬‬
‫‬
‫‪Xi − X‬‬
‫‪n‬‬
‫‪X‬‬
‫= ‪Sxy‬‬
‫‪i=1‬‬
‫‪Yˆi = b + aXi‬‬
‫‪yˆ = b + ax‬‬
‫‪2‬‬
‫‪Yi − Yˆi‬‬
‫ ‪n‬‬
‫‪X‬‬
‫= ‪See‬‬
‫‪i=1‬‬
‫‪2‬‬
‫‪Yˆi − Y‬‬
‫ ‪n‬‬
‫‪X‬‬
‫= ˆ‪Syˆy‬‬
‫‪i=1‬‬
‫‪S‬‬
‫‪xy‬‬
‫‪.a = Sxx‬‬
‫נשים לב שבסימונים אלה‪ ,‬שיפוע ישר הרגרסיה הוא‬
‫נסמן את מידת הקירבה של הנקודות לישר הרגרסיה בהשוואה למידת הקירבה של‬
‫הנקודות לממוצע‪:‬‬
‫‪Corr2 (X, Y ) = R2‬‬
‫וכן נשים לב שבסימונים אלה מתקיים‪:‬‬
‫‪See‬‬
‫‪Syy‬‬
‫= ‪1 − R2‬‬
‫תכונות ישר הרגרסיה‬
‫‪ .1‬הישר עובר דרך הנקודה‬
‫‬
‫‪. X, Y‬‬
‫‪n‬‬
‫‪on‬‬
‫‪. Yi − Yˆi‬‬
‫‪n‬‬
‫‪ .2‬נסמן את סדרת השאריות ‪= {ei }i=1‬‬
‫‪Pn‬‬
‫מתקיים תמיד ‪ , i=1 ei = 0‬או באופן שקול ‪.e = 0‬‬
‫‪i=1‬‬
‫‪27‬‬
:‫הוכחה‬
n
X
ei =
i=1
n X
n
n
n
n
X
X
X
X
ˆ
Yi − Yi =
(Yi − b − aXi ) =
Yi −
b−
aXi =
i=1
i=1
i=1
i=1
i=1
= nY − nb − anX = nY − n Y − aX − anX = 0
:‫ כלומר‬.‫ ממוצע הערכים החזויים שווה לממוצע של הערכים הנכונים‬.3
Yˆ = Y
:‫הוכחה‬
Yˆ = ax + b = aX + b = Y
.‫ ולא רק לישר הרגרסיה‬X, Y ‫ תקפות לכל ישר העובר בנקודה‬1−3 ‫ תכונות‬:‫הערה‬
Pn
.Xe = 0 ‫ או באופן שקול‬, i=1 Xi ei = 0 ‫ מתקיים תמיד‬.4
:‫הוכחה‬
n
X
Xi ei =
i=1
=
n
X
n
X
n
X
Xi Yi − Yˆi =
Xi (Yi − b − aXi ) =
i=1
i=1
Xi Yi − Y + aX − aXi =
i=1
=
n
X
Xi − X
n
X
Xi Yi − Y − a
i=1
i=1
|
=
i=1
n
X
i=1
{z
Xi − X
= nCov (X, Y ) −
|
i=1
i=1
{z
=0
n
X
2
Yi − Y − a
Xi − X =
i=1
Cov (X, Y )
nV ar (X) = nCov (X, Y ) − nCov (X, Y ) = 0
V ar (X)
.Yˆ e = 0 ‫ או באופן שקול‬,
n
X
i=1
}
=0
i=1
Yˆi ei =
Xi Xi − X =
n
n
n
X
X
X
Yi − Y − a
Xi − X Xi − X + aX
Xi − X =
Yi − Y + X
i=1
n
X
n
X
(b + aXi ) ei = b
n
X
ei + a
i=1
Pn
n
X
i=1
28
i=1
Yˆi ei = 0 ‫ מתקיים תמיד‬.5
:‫הוכחה‬
Xi ei = b · 0 + a · 0 = 0
}
‫‪.6‬‬
‫‪2‬‬
‫‪Yˆi − Y‬‬
‫ ‪n‬‬
‫‪X‬‬
‫‪+‬‬
‫‪2‬‬
‫‪Yi − Yˆi‬‬
‫ ‪n‬‬
‫‪X‬‬
‫‪2‬‬
‫=‬
‫‪Yi − Y‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫או ברישום מקוצר‪:‬‬
‫ˆ‪Syy = See + Syˆy‬‬
‫הוכחה‪:‬‬
‫=‬
‫‪2‬‬
‫‪Yi − Yˆi + Yˆi − Y‬‬
‫ ‪n‬‬
‫‪X‬‬
‫=‬
‫‪2‬‬
‫‪n‬‬
‫‪X‬‬
‫‪Yi − Y‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫ ‬
‫ ‪2‬‬
‫‬
‫ˆ‬
‫ˆ‬
‫=‬
‫‪Yi − Y + Yi − Y‬‬
‫‪+ 2 Yi − Yˆi‬‬
‫ ‪n‬‬
‫‪ X‬‬
‫‪2‬‬
‫‬
‫‪Yˆi − Y‬‬
‫‪Yˆi − Y +‬‬
‫=‬
‫ ‪n‬‬
‫‪X‬‬
‫‬
‫‪2‬‬
‫‪Yi − Yˆi‬‬
‫ ‪n‬‬
‫‪X‬‬
‫=‬
‫‪i=1‬‬
‫‪Yi − Yˆi‬‬
‫‪i=1‬‬
‫‪2‬‬
‫‪+2‬‬
‫‪2‬‬
‫‪Yi − Yˆi‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫‪Yˆi − Y‬‬
‫ ‪n‬‬
‫‪X‬‬
‫‪+‬‬
‫‪2‬‬
‫‪Yi − Yˆi‬‬
‫ ‪n‬‬
‫‪X‬‬
‫=‬
‫ ‪n‬‬
‫‪X‬‬
‫=‬
‫‪i=1‬‬
‫‪i=1‬‬
‫השוויון האחרון נכון מכיוון שמתקיים‪:‬‬
‫‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫‬
‫‪ X‬‬
‫‪X‬‬
‫‪X‬‬
‫= ‪Yˆi − Y‬‬
‫‪ei Yˆi −‬‬
‫‪ei Y = 0 − Y‬‬
‫‪ei = 0‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫‪Yi − Yˆi‬‬
‫‪i=1‬‬
‫ ‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪ .7‬מסקנה‪:‬‬
‫‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫‪2‬‬
‫ ‪2 1 X‬‬
‫‪2‬‬
‫‪1 X‬‬
‫‪1X‬‬
‫= ‪Yi − Y‬‬
‫‪Yˆi − Y‬‬
‫‪Yi − Yˆi +‬‬
‫‪n i=1‬‬
‫‪n i=1‬‬
‫‪n i=1‬‬
‫= ) ‪V ar (Y‬‬
‫במילים‪ :‬השונות שמוסברת על־ידי ישר ועוד השונות שאינה מוסברת על־ידי ישר‬
‫הרגרסיה‪ ,‬שוות לשונות הכללית‪.‬‬
‫כלומר‪ ,‬ישר הרגרסיה מסוגל להסביר רק חלק מהשונות הכללית‪ ,‬כי אנחנו מגבילים‬
‫את עצמינו לישר לינארי בלבד‪.‬‬
‫‪ .8‬ביטוי אלטרנטיבי לישר הרגרסיה‪:‬‬
‫‪y−Y‬‬
‫‪x−X‬‬
‫· ) ‪= Corr (X, Y‬‬
‫) ‪SD (Y‬‬
‫)‪SD (X‬‬
‫‪ .9‬ריבוע מקדם המתאם מודד עד כמה צפופות הנקודות סביב ישר הרגרסיה‪ ,‬בהשוואה‬
‫לצפיפותן סביב הישר הקבוע ‪.y = Y‬‬
‫‪29‬‬
‫‪ .10‬נניח כי שיפוע ישר הרגרסיה של ‪ Y‬על ‪ X‬חיובי‪.‬‬
‫נבצע רוטציה בזווית מסוימת של הנתונים כך שהם יעברו תנועה מעגלית עם כיוון‬
‫השעון‪ ,‬כאשר הציר בנקודה ‪ , X, Y‬ונדאג רק שהקורלציה תשאר חיובית גם לאחר‬
‫הרוטציה‪.‬‬
‫השיפוע של ישר הרגרסיה החדש יקטן בהשוואה לקודמו‪ .‬הממוצעים של ‪ X‬ושל ‪Y‬‬
‫ישתנו מעט‪.‬‬
‫)‪ SD (X‬עלה במעט אך ) ‪ SD (Y‬קטן באופן משמעותי‪.‬‬
‫‪ee‬‬
‫לבסוף‪ See ,‬ישתנה במעט‪ .‬מכאן ש‪-‬‬
‫‪ SSyy‬יגדל באופן משמעותי‪.‬‬
‫נשים לב כי למרות שצפיפות הנקודות סביב ישר הרגרסיה נותרה כמעט ללא שינוי‪,‬‬
‫מקדם המתאם ירד משמעותית‪.‬‬
‫ההסבר לכך הוא שפיזור הנקודות סביב הישר ‪ y = Y‬קטן משמעותית‪ ,‬ולכן הצפיפות‬
‫היחסית של הנקודות סביב ישר הרגרסיה בהשוואה לצפיפות סביב הישר הנ"ל ‪-‬‬
‫קטנה‪.‬‬
‫מסקנה‪ :‬ככל ש‪ Corr2 (X, Y )-‬גדול יותר כך פיזור הנקודות סביב ישר הרגרסיה‬
‫בהשוואה לפיזורן סביב ישר הממוצע ‪ -‬נמוך יותר‪) .‬פיזור במובן של סכום ריבועי‬
‫הסטיות(‪.‬‬
‫לסיכום‪ :‬ככל שהמתאם גדול יותר קו הרגרסיה של ‪ Y‬על ‪ X‬מנבא טוב יותר בהשוואה‬
‫לממוצע‪.‬‬
‫‪.11‬‬
‫ ‬
‫) ‪V ar Yˆ = Corr2 (X, Y ) V ar (Y‬‬
‫‪ .12‬הסימן של ) ‪ Corr (X, Y‬מאפיין את היחס בין המשתנה המתוקנן של ‪ Yˆi‬לבין המשתנה‬
‫המתוקנן של ‪.Xi‬‬
‫דוגמה‪ :‬נתבונן בנתונים הבאים‪:‬‬
‫‪X‬‬
‫‪1.61‬‬
‫‪1.48‬‬
‫‪−1.25‬‬
‫‪−0.38‬‬
‫‪0.18‬‬
‫‪0.99‬‬
‫‪−1.00‬‬
‫‪−0.88‬‬
‫‪0.36‬‬
‫‪0.49‬‬
‫‪−0.32‬‬
‫‪−0.19‬‬
‫‪0.24‬‬
‫‪0.80‬‬
‫‪−2.12‬‬
‫‪Y‬‬
‫‪0.34‬‬
‫‪2.22‬‬
‫‪−2.00‬‬
‫‪−0.12‬‬
‫‪1.09‬‬
‫‪−0.12‬‬
‫‪−0.59‬‬
‫‪−0.50‬‬
‫‪−0.12‬‬
‫‪0.81‬‬
‫‪−0.03‬‬
‫‪−0.59‬‬
‫‪0.34‬‬
‫‪0.81‬‬
‫‪−1.53‬‬
‫√‬
‫‪p‬‬
‫נחשב ונקבל ‪ ,X = Y ' 0‬וכן ‪. R2 = Corr2 (X, Y ) = 0.635‬‬
‫דיאגרמת הפיזור של הנתונים במערכת צירים היא‪:‬‬
‫‪30‬‬
‫נתאים ישר רגרסיה בהתאם לנוסחה שהוכחנו‪ ,‬ונקבל את הישר הבא‪:‬‬
‫לנתונים‪ ,‬ומביאים להטיה בזווית כלשהי את הישר עם‬
‫כעת ננתח שינוי שבו מבצעים רוטציה‬
‫‬
‫כיוון השעון‪ ,‬סביב ראשית הצירים )‪. X, Y = (0, 0‬‬
‫נגדיר כעת סדרה של תצפיות חדשות ) ∗ ‪ ,(X ∗ , Y‬ונניח לדוגמה שכל אחת מהתצפיות‬
‫מתקבלת מהסדרה המקורית באמצעות הביטוי‪:‬‬
‫‪x∗ = 1.63x − 0.07y‬‬
‫‪y ∗ = −0.07x + 0.37y‬‬
‫נקבל במקרה זה את סדרת התצפיות‪:‬‬
‫∗‪X‬‬
‫‪2.60‬‬
‫‪2.26‬‬
‫‪−1.90‬‬
‫‪−0.61‬‬
‫‪0.21‬‬
‫‪1.62‬‬
‫‪−1.59‬‬
‫‪−1.40‬‬
‫‪0.60‬‬
‫‪0.74‬‬
‫‪−0.52‬‬
‫‪−0.28‬‬
‫‪0.37‬‬
‫‪1.25‬‬
‫‪−3.35‬‬
‫∗‪Y‬‬
‫‪0.01‬‬
‫‪0.72‬‬
‫‪−0.65‬‬
‫‪−0.02‬‬
‫‪0.39‬‬
‫‪−0.12‬‬
‫‪−0.15‬‬
‫‪−0.12‬‬
‫‪−0.07‬‬
‫‪0.27‬‬
‫‪0.01‬‬
‫‪−0.21‬‬
‫‪0.11‬‬
‫‪0.24‬‬
‫‪−0.42‬‬
‫√‬
‫‪p‬‬
‫נחשב ונקבל ‪ ,X = Y ' 0‬וכן ‪. R2 = Corr2 (X, Y ) = 0.48‬‬
‫דיאגרמת הפיזור של הנתונים החדשים בתוספת ישר הרגרסיה החדש‪ ,‬היא‪:‬‬
‫‪31‬‬
‫‬
‫נשים לב שישר הרגרסיה החדש עדיין עובר ב‪ , X, Y = (0, 0)-‬אבל הוא קרוב יותר לישר‬
‫הקבוע ‪ ,y = Y = 0‬כי שיפועו קטן )אך עם זאת נשאר בעל אותו סימן(‪.‬‬
‫כמו־כן נשים לב שגם מקדם המתאם ירד באופן משמעותי‪ ,‬מ‪ 0.8-‬ל‪ 4 .0.7-‬כלומר‪ ,‬לאחר‬
‫ביצוע הרוטציה ירד טיב הניבוי של ישר הרגרסיה‪.‬‬
‫‪5.1‬‬
‫נסיגה לממוצע )‪Regression to the mean‬‬
‫(‬
‫ראינו שישר הרגרסיה מתקבל מהמשוואה‪:‬‬
‫‪x−X‬‬
‫‪y−Y‬‬
‫) ‪= Corr (X, Y‬‬
‫) ‪SD (Y‬‬
‫)‪SD (X‬‬
‫נניח שאחד הנתונים ‪ Xi‬נמצא ‪ k‬סטיות תקן מעל )מתחת( לממוצע ‪ ,X‬אז ציון התקן‬
‫‪Xi −X‬‬
‫)‪ Zi = SD(X‬שווה ‪.(−k) k‬‬
‫לפי הניבוי של ישר הרגרסיה‪ ,‬הנתון ‪ Yˆi‬יהיה במרחק של ) ‪ k · Corr (X, Y‬סטיות תקן מעל‬
‫)מתחת( לממוצע ‪.Y‬‬
‫‬
‫‬
‫נשים לב שהניבוי ) ‪ k·Corr (X, Y‬יתקבל תמיד בטווח ) ‪. Y − k · SD (Y ) , Y + k · SD (Y‬‬
‫הנסיגה לממוצע קובעת שבמונחי ציון תקן‪ ,‬המרחק של ˆ‪) Y‬הערך החזוי( מהממוצע ‪ Y‬קטן‬
‫מהמרחק של ‪ X‬מהממוצע ‪.X‬‬
‫עובדה זו נובעת מכך שהקורלציה ) ‪ Corr (X, Y‬תמיד קטנה בערכה המוחלט מ‪.1-‬‬
‫ישר סטיות התקן‪ :‬נגדיר את ישר סטיות התקן להיות‬
‫או באופן שקול לאחר העברת אגפים‪:‬‬
‫‪x−X‬‬
‫)‪SD(X‬‬
‫‪y−Y‬‬
‫‪. SD(Y‬‬
‫= )‬
‫‬
‫) ‪SD (Y‬‬
‫) ‪SD (Y‬‬
‫) ‪SD (Y‬‬
‫= ‪x−X +Y‬‬
‫‪x−‬‬
‫‪X +Y‬‬
‫)‪SD (X‬‬
‫)‪SD (X‬‬
‫)‪SD (X‬‬
‫=‪y‬‬
‫ישר סטיות התקן אינו מאופיין בנסיגה אל הממוצע והוא מגדיר מתאם מלא‪.‬‬
‫כלומר‪ ,‬בתחזית הנקבעת לפי ישר סטיות התקן‪ ,‬אם ‪ Xi‬נמצא ‪ k‬סטיות תקן מעל‬
‫)מתחת( ‪ ,X‬אז גם ˆ‪ Y‬נמצא ‪ k‬סטיות תקן מעל )מתחת( ‪ .Y‬נשים לב שישר הרגרסיה‬
‫הוא הישר שממזער את השאריות כך שישר סטיות התקן בהכרח פחות טוב ממנו‪.‬‬
‫√‬
‫√‬
‫‪4‬קיבלנו את המספרים האלה מכך ש‪. 0.635 ' 0.8 , 0.48 ' 0.7 :‬‬
‫‪32‬‬
‫הערה חשובה‪ :‬קורלציה אינה זהה לסיבתיות )‪!(causality‬‬
‫כלומר‪ ,‬העובדה שקיים מתאם בין שני משתנים אינה אומרת ששינוי באחד יוביל לשינוי‬
‫באחר‪.‬‬
‫כך למשל קיימת קורלציה חזקה בין משקל לבין גובה‪ ,‬ועם זאת השמנה אינה גוררת עלייה‬
‫בגובה‪.‬‬
‫ישר הרגרסיה של ‪ X‬על ‪Y‬‬
‫‪ .1‬ישר הרגרסיה של ‪ X‬על ‪ Y‬שונה מישר הרגרסיה של ‪ Y‬על ‪.X‬‬
‫‪ .2‬נזכור שישר הרגרסיה של ‪ Y‬על ‪ X‬הוא‪:‬‬
‫‬
‫‪x−X‬‬
‫‪y−Y‬‬
‫) ‪= Corr (X, Y‬‬
‫) ‪SD (Y‬‬
‫)‪SD (X‬‬
‫ולכן אם נחליף תפקידים נקבל את ישר הרגרסיה של ‪ X‬על ‪:Y‬‬
‫‬
‫‪y−Y‬‬
‫‪x−X‬‬
‫) ‪= Corr (X, Y‬‬
‫)‪SD (X‬‬
‫) ‪SD (Y‬‬
‫ולכן הישר ייראה מהצורה‪:‬‬
‫‬
‫‪x−X‬‬
‫) ‪SD (Y‬‬
‫) ‪SD (X) Corr (X, Y‬‬
‫= ‪y−Y‬‬
‫‬
‫‪ .3‬באותה מערכת צירים‪ ,‬שני ישרי הרגרסיה הללו נחתכים בנקודה ‪ , X, Y‬וכן שיפועו‬
‫) ‪SD(Y‬‬
‫‪1‬‬
‫)‪ ( SD(X‬חד משיפוע ישר הרגרסיה של ‪Y‬‬
‫של ישר הרגרסיה של ‪ X‬על ‪Corr(X,Y ) ) Y‬‬
‫) ‪SD(Y‬‬
‫)‪.(Corr (X, Y ) SD(X‬‬
‫על ‪) X‬‬
‫‪ .4‬השיפוע של ישר סטיות התקן הוא ערך ביניים כלשהו בין השיפועים הללו‪.‬‬
‫לא נוכיח‪ ,‬אולם ) ‪ SD (X) = SD (Y‬אם ורק אם ישר סטיות התקן הוא חוצה הזווית‬
‫שבין ישרי הרגרסיה הנ"ל‪.‬‬
‫‪ .5‬ישר סטיות התקן של ‪ X‬על ‪ Y‬מתלכד עם ישר סטיות התקן של ‪ Y‬על ‪.X‬‬
‫‪ .6‬הראינו לעיל עבור ישר הרגרסיה של ‪ Y‬על ‪ X‬שמתקיים‪:‬‬
‫‪See‬‬
‫) ‪= 1 − Corr2 (X, Y‬‬
‫‪Syy‬‬
‫‪2‬‬
‫‬
‫ ‪Pn‬‬
‫) ‪SD(Y‬‬
‫)‪.Yˆi = Corr (X, Y ) SD(X‬‬
‫כאשר ‪ See = i=1 Yi − Yˆi‬וכן ‪Xi − X + Y‬‬
‫באותו אופן עבור ישר הרגרסיה של ‪ X‬על ‪ Y‬מתקיים‪:‬‬
‫∗‬
‫‪See‬‬
‫) ‪= 1 − Corr2 (X, Y‬‬
‫‪Sxx‬‬
‫‪33‬‬
‫‬
‫‬
‫ ‪Pn‬‬
‫∗‬
‫ˆ‬
‫)‪.Xˆi = Corr (X, Y ) SD(X‬‬
‫כאשר ‪i=1 Xi − Xi‬‬
‫= ‪ See‬וכן ‪SD(Y ) Yi − Y + X‬‬
‫נסיק מכך‪:‬‬
‫∗‬
‫‪See‬‬
‫‪Sxx‬‬
‫)‪V ar (X‬‬
‫=‬
‫=‬
‫‪See‬‬
‫‪Syy‬‬
‫) ‪V ar (Y‬‬
‫כלומר‪ ,‬שני ישרי הרגרסיה משמרים את יחס סכום ריבועי הסטיות ששווה ליחס‬
‫השונויות‪.‬‬
‫כמו־כן‪ ,‬מכיוון ש‪ ,Corr (X, Y ) = Corr (Y, X)-‬שיעור השונות המוסברת שווה בשני‬
‫ישרי הרגרסיה‪ .‬כלומר‪ ,‬יכולת הניבוי של שני ישרי הרגרסיה שווה בעוצמתה‪.‬‬
‫‪ .7‬ראינו לעיל את הנוסחה‪:‬‬
‫) ‪V ar (X + Y ) = V ar (X) + V ar (Y ) + 2Cov (X, Y‬‬
‫נניח כי ‪ X, Y‬בעלי אותה התפלגות‪ ,‬ונתבונן בביטוי ) ‪.V ar (X + Y‬‬
‫קל לראות שהמינימום מתקבל כאשר ‪ Y = −X‬ואז ‪ ,V ar (X + Y ) = 0‬והמקסימום‬
‫מתקבל כאשר ‪ Y = X‬ואז )‪.V ar (X + Y ) = 4V ar (X‬‬
‫כאשר ‪ X, Y‬מתואמים באופן שלילי ונניח ש‪ X-‬גדל‪ ,‬אז ‪ Y‬קטן ומתקיים‪:‬‬
‫) ‪V ar (X + Y ) < V ar (X) + V ar (Y‬‬
‫כי השונות המשותפת שלילית‪ .‬כלומר ‪ Y‬מאזן בחזרה את ‪ X + Y‬לכיוון התוחלת‬
‫המקורית שלו‪.‬‬
‫כאשר ‪ X, Y‬מתואמים באופן חיובי ונניח ש‪ X-‬גדל‪ ,‬אז ‪ Y‬גדל ומתקיים‪:‬‬
‫) ‪V ar (X + Y ) > V ar (X) + V ar (Y‬‬
‫כי השונות המשותפת חיובית‪ .‬כלומר במונחי שונות אנחנו לא מרוויחים מכך ש‪Y -‬‬
‫הוא משתנה חדש )מה שיעלה את השונות מ‪ V ar (X)-‬ל‪ ,(V ar (X)+V ar (Y )-‬אלא‬
‫אותו ערך של ‪ X‬נדגם בשנית‪.‬‬
‫‪34‬‬
‫הקדמה‪ :‬הסטטיסטיקה התאורית שבה עסקנו עד עתה קובעת כלים יעילים לניתוח מאפיינים‬
‫של קבוצות נתונים‪ .‬למשל ראינו שהממוצע החשבוני של סדרת נתונים מביא למינימום‬
‫את פונקציית המרחק של סכום ריבועי הסטיות‪ .‬זו עובדה מתמטית טהורה שאינה‬
‫קשורה בהכרח לטבע העולם ולכן כשלעצמה היא לא עוזרת לנו להסיק כל מסקנה‪.‬‬
‫כדי להסיק מסקנות נצטרך להשתמש במודל‪ .‬נעסוק במודל הנפוץ של תורת ההסתברות‪.‬‬
‫לשם כך נציג תחילה מבוא שיכיל מושגים כלליים ויסודיים מתורת הקבוצות )נציג‬
‫את המונחים בהקשר ובשפה של סטטיסטיקה‪ ,‬אולם למעשה מה שנראה בפרק ‪ 2‬אלה‬
‫מושגים כלליים בתורת הקבוצות(‪ ,‬ולאחר מכן נציג את המודל של תורת ההסתברות‪.‬‬
‫חלק ‪II‬‬
‫מבוא לתורת הקבוצות‬
‫‪5.2‬‬
‫מונחים יסודיים‬
‫‪ .1‬מבצעים ניסוי כלשהו‪] .‬למשל הטלת קוביה‪[.‬‬
‫‪ .2‬כל אחת מהתוצאות האפשריות נקראת "מאורע פשוט" ומסומנת ב‪.ωi -‬‬
‫]תוצאה אפשרית בדוגמה שלנו היא ‪ 2‬או ‪[.4‬‬
‫‪ .3‬אוסף כל התוצאות האפשריות נקרא "מרחב המדגם" ומסומן ‪) Ω‬אומגה(‪.‬‬
‫]בדוגמה זו מרחב המדגם הוא }‪[.{1, 2, 3, 4, 5, 6‬‬
‫כלומר‪ ,‬אם יש ‪ n‬אפשרויות אז } ‪] .Ω = {ω1 , ω2 , ..., ωn‬בדוגמה זו יש ‪ 6‬אפשרויות‪[.‬‬
‫‪ .4‬אוסף כלשהו של תוצאות אפשריות נקרא "מאורע"‪.‬‬
‫]למשל }‪ {1, 3‬ו‪ {2, 3, 4, 5}-‬הם מאורעות‪[.‬‬
‫נשים לב ש‪ Ω-‬כולה היא סוג של מאורע‪ ,‬כי היא אוסף כלשהו של תוצאות אפשריות‪.‬‬
‫‪ .5‬נסמן את הקבוצה הריקה של המאורעות ‪/‬‬
‫ב‪ .O-‬קבוצה זו היא ה"אפס" של המאורעות‪.‬‬
‫שייכות‪ :‬נשתמש בסימן "∈" כדי לקבוע שמאורע פשוט שייך למאורע‪.‬‬
‫כך למשל המאורע הפשוט "‪ "3‬שייך למאורע }‪ ,{1, 3‬ולכן נסמן }‪.3 ∈ {1, 3‬‬
‫∈ ‪.7‬‬
‫לעומת זאת המאורע הפשוט "‪ "7‬אינו שייך למאורע }‪ {1, 3‬ולכן נסמן }‪/ {1, 3‬‬
‫הכלה‪ :‬נאמר שמאורע ‪ A‬מוכל במאורע ‪ ,B‬אם לכל ‪ a ∈ A‬מתקיים גם ‪.a ∈ B‬‬
‫כדי לציין שמאורע ‪ A‬מוכל במאורע ‪ B‬נסמן ‪.A ⊆ B‬‬
‫נשים לב שהמאורע ‪/‬‬
‫‪ O‬מוכל בכל מאורע‪ ,‬וכן שכל מאורע מוכל במאורע ‪.Ω‬‬
‫שוויון‪ :‬נאמר שמאורעות ‪ A, B‬שווים אם מתקיים ‪ A ⊆ B‬וגם ‪.B ⊆ A‬‬
‫מאורע משלים‪ :‬נאמר שמאורע ‪ B‬הוא המשלים של מאורע ‪ ,A‬אם הוא מכיל את כל‬
‫האיברים שמוכלים ב‪ Ω-‬ולא ב‪.A-‬‬
‫כך למשל בניסוי של הטלת קוביה‪ ,‬המאורע }‪ B = {1, 2, 6‬הוא המשלים של המאורע‬
‫}‪.A = {3, 4, 5‬‬
‫נסמן ב‪ A-‬את המאורע המשלים של ‪ .A‬בהתאם להגדרה מתקיים ‪.A = Ω − A‬‬
‫נשים לב שמתקיים‪:‬‬
‫‪35‬‬
‫‪/ ,Ω = O‬‬
‫‪/ .1‬‬
‫‪ Ω = O‬לכל מרחב מדגם‪.‬‬
‫‪ A = A .2‬לכל מאורע‪.‬‬
‫הערה‪ :‬משמעותו של שוויון זה היא שמתקיימת סימטריה‪ .‬כלומר‪ ,‬אם ‪ B‬הוא‬
‫מאורע משלים של ‪ ,A‬אז ‪ A‬הוא מאורע משלים של ‪.B‬‬
‫איחוד מאורעות‪ :‬איחוד המאורעות ‪ A, B‬הוא מאורע שמכיל את כל המאורעות הפשוטים‬
‫ששייכים ל‪ A-‬או ששייכים ל‪") .B-‬או" במשמעותו המתמטית‪ .‬כלומר‪ ,‬כולל המאורעות‬
‫הפשוטים ששייכים לשניהם(‪.‬‬
‫נסמן את איחוד המאורעות ‪ A, B‬ב‪ .A ∪ B-‬למשל }‪.{1, 2} ∪ {2, 4, 5} = {1, 2, 4, 5‬‬
‫נשים לב שמתקיים‪:‬‬
‫‪ A ∪ A = Ω .1‬לכל מאורע ‪.A‬‬
‫‪/ = A .2‬‬
‫‪ A ∪ O‬לכל מאורע ‪.A‬‬
‫חיתוך מאורעות‪ :‬חיתוך המאורעות ‪ A, B‬הוא מאורע שמכיל את המאורעות הפשוטים‬
‫ששייכים ל‪ A-‬וגם ל‪.B-‬‬
‫באופן פורמלי‪ x ∈ A ∩ B ,‬אם ‪ x ∈ A‬וגם ‪.x ∈ B‬‬
‫נסמן את חיתוך המאורעות ‪ A, B‬ב‪ .A ∩ B-‬למשל }‪.{1, 2} ∩ {2, 4, 5} = {2‬‬
‫נשים לב שמתקיים‪:‬‬
‫‪/ .1‬‬
‫‪ A ∩ A = O‬לכל מאורע ‪.A‬‬
‫‪/ =O‬‬
‫‪/ .2‬‬
‫‪ A ∩ O‬לכל מאורע ‪.A‬‬
‫מאורעות זרים‪ :‬המאורעות ‪ A, B‬נקראים זרים אם ‪/‬‬
‫‪.A ∩ B = O‬‬
‫דיאגרמת־ון‪ :‬דיאגרמות מסוג זה שנתאר מיד‪ ,‬הן כלי שימושי אך לא־פורמלי להבנת היחסים‬
‫של שייכות‪ ,‬הכלה‪ ,‬איחוד‪ ,‬חיתוך והשלמה שבין מאורעות שונים‪.‬‬
‫דיאגרמת־ון כללית של מאורעות המסומנים ‪ A, B‬נראית כך‪:‬‬
‫כאשר המלבן כולו מייצג את מרחב המדגם ‪ ,Ω‬ושני העיגולים מייצגים שני מאורעות ‪.A, B‬‬
‫השטח החופף לשני העיגולים מייצג את החיתוך ‪.A ∩ B‬‬
‫השטח של שני העיגולים‪ ,‬כאשר את השטח החופף מחשבים פעם אחת‪ ,‬מייצג את האיחוד‬
‫‪.A ∪ B‬‬
‫השטח הכולל של המלבן פחות השטח של שני העיגולים‪ ,‬מייצג את המשלים ‪.A ∪ B‬‬
‫וכן באופן דומה ניתן לסמן מאורעות נוספים בדיאגרמה וליצור יחסים אחרים‪.‬‬
‫‪36‬‬
‫דוגמה‪ :‬נתייחס בדוגמה זו לדיאגרמה שהוצגה לעיל‪.‬‬
‫נגדיר את מרחב המדגם ‪ Ω‬להיות כל הסטודנטים והסטודנטיות משנה א'‪.‬‬
‫נגדיר את המאורע ‪ A‬להיות הבנים‪ ,‬כך שהמאורע ‪ A‬הוא הבנות‪.‬‬
‫נגדיר את המאורע ‪ B‬להיות הסטודנטים והסטודנטיות בעלי העיניים הכחולות‪,‬‬
‫והמאורע ‪ B‬להיות כל השאר‪.‬‬
‫לפי הגדרות אלה המאורע ‪ A ∩ B‬הוא כל הבנים בעלי העיניים הכחולות‪.‬‬
‫כמו־כן המאורע ‪ A ∪ B‬הוא כל הבנים‪ ,‬בתוספת הבנות בעלות העיניים הכחולות‪.‬‬
‫או באופן שקול‪ :‬קבוצות הסטודנטים והסטודנטיות בעלי העיניים הכחולות‪ ,‬בתוספת‬
‫הבנים בעלי עיניים שאינן כחולות‪.‬‬
‫נשים לב שמתקיים ‪.girls with non-blue eyes = A ∪ B = A ∩ B‬‬
‫‪5.3‬‬
‫כללי דה־מורגן‬
‫טענה ‪ :1‬לכל שתי קבוצות ‪ A, B‬מתקיים‪:‬‬
‫‪A∪B =A∩B‬‬
‫הוכחה‪ :‬נוכיח את השוויון באמצעות הכלה דו־כיוונית‪.‬‬
‫• כיוון ראשון‪ :‬יהי ‪ w‬מאורע פשוט כלשהו המקיים ‪ .w ∈ A ∪ B‬נסיק‪:‬‬
‫‪w ∈A∪B‬‬
‫⇓‬
‫∈‪w‬‬
‫‪/ A∪B‬‬
‫⇓‬
‫∈‪w‬‬
‫∈ ‪/ A and w‬‬
‫‪/B‬‬
‫⇓‬
‫‪w ∈ A and w ∈ B‬‬
‫⇓‬
‫‪w ∈A∩B‬‬
‫ולכן ‪.A ∪ B ⊆ A ∩ B‬‬
‫• כיוון שני‪ :‬יהי ‪ w‬מאורע פשוט כלשהו המקיים ‪ .w ∈ A ∩ B‬נסיק‪:‬‬
‫‪w ∈A∩B‬‬
‫⇓‬
‫‪w ∈ A and w ∈ B‬‬
‫⇓‬
‫∈‪w‬‬
‫∈ ‪/ A and w‬‬
‫‪/B‬‬
‫⇓‬
‫∈‪w‬‬
‫‪/ A∪B‬‬
‫⇓‬
‫‪w ∈A∪B‬‬
‫ולכן ‪.A ∩ B ⊆ A ∪ B‬‬
‫‪37‬‬
‫• נסיק משני הכיוונים שלפי הגדרת השוויון מתקיים ‪ .A ∩ B = A ∪ B‬‬
‫הערה‪ :‬נשים לב שבשני הכיוונים ביצענו את אותם היסקים‪ ,‬רק בכיוונים לוגיים הפוך‪.‬‬
‫כלומר כל צעד בהוכחה מהווה שקילות ולא רק גרירה בכיוון אחד‪ ,‬כך שיכולנו לרשום‬
‫בקיצור פעם אחת את אותם שלבים לוגיים עם הסימון ⇔‪.‬‬
‫טענה ‪ :2‬לכל שתי קבוצות ‪ A, B‬מתקיים‪:‬‬
‫‪A∪B =A∩B‬‬
‫הוכחה‪ :‬נשתמש בתוצאה שהראינו בטענה הקודמת‪ ,‬ונסיק‪:‬‬
‫‪A∪B =A∩B‬‬
‫⇓‬
‫‪A∪B =A∩B‬‬
‫⇓‬
‫‪A∪B =A∩B‬‬
‫⇓‬
‫‪A∪B =A∩B =A∩B‬‬
‫‬
‫הגרירה האחרונה נובעת מכך שהטענה נכונה לכל שתי קבוצות ‪ ,A, B‬ובפרט גם עבור‬
‫הקבוצות ‪ .A, B‬כלומר ביצענו הצבה של ‪ A, B‬בשוויון שקיבלנו על ‪.A, B‬‬
‫‪5.4‬‬
‫שכיחות יחסית‬
‫נניח כי נתון מרחב המדגם של הטלת קוביה‪.Ω = {1, 2, 3, 4, 5, 6} :‬‬
‫ביצענו את הניסוי ‪ 100‬פעמים והתקבלו התוצאות הבאות‪:‬‬
‫‪6‬‬
‫‪15‬‬
‫‪0.15‬‬
‫‪5‬‬
‫‪10‬‬
‫‪0.1‬‬
‫‪4‬‬
‫‪15‬‬
‫‪0.15‬‬
‫‪3‬‬
‫‪25‬‬
‫‪0.25‬‬
‫‪2‬‬
‫‪20‬‬
‫‪0.2‬‬
‫‪1‬‬
‫‪15‬‬
‫‪0.15‬‬
‫‪results‬‬
‫‪frequency‬‬
‫‪relative frequency‬‬
‫נגדיר את ‪ f‬להיות פונקציה שמחזירה את השכיחות היחסית‪.‬‬
‫כלומר )‪ f (A‬היא השכיחות היחסית של מאורע ‪ A‬כלשהו‪.‬‬
‫ראשית נשים לב שמתקיים‪:‬‬
‫‬
‫‪/ =0‬‬
‫‪f O‬‬
‫‪f (Ω) = 1‬‬
‫נבחן למשל את המאורעות הבאים‪:‬‬
‫‪f (A) = 0.6‬‬
‫}‪A = {1, 2, 3‬‬
‫‪f (B) = 0.5‬‬
‫}‪B = {2, 4, 6‬‬
‫‪f (A ∪ B) = 0.9‬‬
‫}‪A ∪ B = {1, 2, 3, 4, 6‬‬
‫‪38‬‬
‫חשוב לשים לב כי )‪.f (A ∪ B) 6= f (A) + f (B‬‬
‫הסיבה לכך היא שמאורע פשוט ששייך גם ל‪ A-‬וגם ל‪ B-‬נספר פעם אחת בלבד כאשר‬
‫מחשבים את השכיחות היחסית של ‪.A ∪ B‬‬
‫מנימוק זה נסיק שמתקיימת הנוסחה‪:‬‬
‫)‪f (A ∪ B) = f (A) + f (B) − f (A ∩ B‬‬
‫• במקרה שבו המאורעות ‪ A, B‬זרים‪ ,‬מתקיים השוויון הפשוט‪:‬‬
‫)‪f (A ∪ B) = f (A) + f (B‬‬
‫‬
‫כי ‪/ = 0‬‬
‫‪.f (A ∩ B) = f O‬‬
‫• מכאן נוכל להסיק שמתקיים‪:‬‬
‫‬
‫)‪f A = 1 − f (A‬‬
‫כי ‪ A, A‬הם מאורעות זרים‪ ,‬ולכן‪:‬‬
‫‬
‫‬
‫‪f (A) + f A = f A ∪ A = f (Ω) = 1‬‬
‫• עבור שלושה מאורעות מתקיים‪:‬‬
‫)‪f (A ∪ B ∪ C) = f (A)+f (B)+f (C)−f (A ∩ B)−f (A ∩ C)−f (B ∩ C)+f (A ∩ B ∩ C‬‬
‫•‬
‫‬
‫‪f (A) = f (A ∩ B) + f A ∩ B‬‬
‫הסיבה לכך היא שמתקיים השוויון‪:‬‬
‫‬
‫‪A = (A ∩ B) ∪ A ∩ B‬‬
‫‬
‫‪/‬‬
‫‪(A ∩ B) ∩ A ∩ B = O‬‬
‫• נשים לב שהמאורע ‪ A ∩ B‬הוא "‪ A‬פחות ‪ ."B‬כלומר מכיל את המאורעות הפשוטים‬
‫של ‪ ,A‬למעט אלו ששייכים גם ל‪ ,B-‬ולכן‪:‬‬
‫‬
‫)‪f A ∩ B = f (A) − f (A ∩ B‬‬
‫‪39‬‬
‫‪5.5‬‬
‫חלוקה‬
‫הגדרה‪ :‬נניח שנתון מרחב מדגם ‪ Ω‬כלשהו‪.‬‬
‫‪n‬‬
‫נאמר שקבוצה של מאורעות ‪ {Bk }k=1‬היא חלוקה של ‪ ,Ω‬אם מתקיימים שני תנאים‪:‬‬
‫‪n‬‬
‫‪ .1‬המאורעות ‪ {Bk }k=1‬זרים בזוגות‪.‬‬
‫כלומר‪ ,‬לכל ‪ i 6= j‬עבור ‪ i, j = 1, ..., n‬מתקיים ‪/‬‬
‫‪.Bi ∩ Bj = O‬‬
‫‪5‬‬
‫‪n‬‬
‫‪ .2‬המאורעות ‪ {Bk }k=1‬מכסים את ‪.Ω‬‬
‫כלומר‪ ,‬מתקיים כי ‪Bi = B1 ∪ B2 ∪ ... ∪ Bn = Ω‬‬
‫‪n‬‬
‫[‬
‫‪.‬‬
‫‪i=1‬‬
‫נשים לב שלכל מאורע ‪ A‬מתקיים כי הזוג ‪ A, A‬הוא חלוקה‪.‬‬
‫‬
‫• נכליל את השוויון ‪ f (A) = f (A ∩ B)+f A ∩ B‬שראינו לעיל‪ ,‬לחלוקה‬
‫) ‪f (A ∩ Bi‬‬
‫‪n‬‬
‫‪X‬‬
‫‪n‬‬
‫‪:ַ{Bk }k=1‬‬
‫= ) ‪f (A) = f (A ∩ B1 ) + f (A ∩ B2 ) + ... + f (A ∩ Bn‬‬
‫‪i=1‬‬
‫‪5‬נשים לב כי אם המאורעות זרים בזוגות אז הם זרים‪ .‬כלומר מתקיים גם = ‪ .B1 ∩ B2 ∩ ... ∩ Bn‬ההיפך‬
‫לא נכון‪.‬‬
‫‪40‬‬
‫חלק ‪III‬‬
‫תורת ההסתברות‬
‫נבנה מודל שמעניק משמעות פורמלית למידת הוודאות להתרחשות של מאורעות‪.‬‬
‫לשם כך נגדיר כי המאורע ‪ Ω‬הוא ודאי ומקבל את הערך המקסימלי ‪ ,1‬והמאורע ‪/‬‬
‫‪ O‬יקבל‬
‫את הערך המינימלי ‪ .0‬כל שאר המאורעות יקבלו ערכי ביניים‪.‬‬
‫נגדיר את הפונקציה ‪ (probability) P‬שתחזיר את ערך הוודאות של כל מאורע ‪ .A‬כלומר‪:‬‬
‫‪P (Ω) = 1‬‬
‫‬
‫‪/ =0‬‬
‫‪P O‬‬
‫‪0 ≤ P (A) ≤ 1‬‬
‫דוגמה‪ :‬נדון בהטלת קוביה‪ .‬מניחים שסדר התוצאות אינו משנה וכן תוצאה שחוזרת על‬
‫עצמה היא אותה תוצאה‪.‬‬
‫נבדוק מהו מספר המאורעות האפשריים‪:‬‬
‫אם }‪ Ω = {1‬יש שני מאורעות אפשריים‪/ Ω :‬‬
‫‪.O,‬‬
‫אם }‪ Ω = {1, 2‬יש ארבעה מאורעות אפשריים‪/ {1} , {2} , Ω :‬‬
‫‪.O,‬‬
‫אם }‪ Ω = {1, 2, 3‬יש שמונה מאורעות אפשריים‪/ {1} , {2} , {3} , {1, 2} , {1, 3} , {2, 3} , Ω :‬‬
‫‪.O,‬‬
‫וכן הלאה‪...‬‬
‫טענה‪ :‬במרחב מדגם בעל ‪ n‬מאורעות פשוטים‪ ,‬מספר המאורעות האפשריים הוא ‪.2n‬‬
‫הדבר נובע מכך שעבור כל מאורע פשוט קיימות שתי אפשרויות‪ :‬שייך למאורע או לא‬
‫שייך לו‪.‬‬
‫אם־כך במקרה של הטלת קוביה פעמיים יש לנו מרחב מדגם בן עד ‪ 62 = 36‬מאורעות‪,‬‬
‫הוודאות שמאורע זה יתרחש‪.‬‬
‫ונרצה להעניק לכל מאורע מספר שיעניק ביטוי פורמלי למידת ‬
‫כפי שהגדרנו כבר לעיל‪ ,‬לא ייתכן שלא יקרה כלום ולכן ‪/ = 0‬‬
‫‪ .P O‬כמו־כן בוודאות‬
‫מאורע כלשהו מתוך מרחב המדגם יקרה ולכן ‪ .P (Ω) = 1‬כל שאר המאורעות הם במידה‬
‫של ודאות שנמצאת בין ‪ 0‬ל‪.1-‬‬
‫נדרוש שהערכים שניתן למאורעות יהיו הגיוניים‪ ,‬במובן זה שאם למשל ‪ A ⊆ B‬אז ≤ )‪P (A‬‬
‫)‪.P (B‬‬
‫פונקציית הסתברות‬
‫נאמר שפונקציה ‪ P‬כלשהי נקראת "פונקציית הסתברות" אם היא מקיימת את התנאים‬
‫הבאים‪:‬‬
‫‪P (Ω) = 1 .1‬‬
‫)א( לכל ‪ A ⊆ Ω‬מתקיים )‪.0 ≤ P (A‬‬
‫טענה‪ :‬שני התנאים מספיקים לקבוע שלכל ‪ A ⊆ Ω‬מתקיים ‪.P (A) ≤ 1‬‬
‫הוכחה‪:‬‬
‫‬
‫)‪1 = P (Ω) = P (A) + P A ≥ P (A‬‬
‫‪41‬‬
‫]השוויון הראשון נובע מתנאי ‪.a1‬‬
‫השוויון השני נובע מהעובדה ש‪ A-‬ו‪ A-‬מאורעות זרים ומתכונות פונקציית‬
‫השכיחות היחסית שהגדרנו לעיל‪.‬‬
‫השוויון שבסוף נובע מתנאי ‪ 2‬שקובע שכל הסתברות היא אי־שלילית‪ ,‬ובפרט‬
‫אי ‬
‫גם ‪[.P A‬‬
‫)ב( אם ‪ A, B‬מאורעות זרים‪ ,‬אז‪:‬‬
‫)‪P (A ∪ B) = P (A) + P (B‬‬
‫שלושת התנאים האלה נקראים "אקסיומות פונקציית ההסתברות"‪.‬‬
‫האקסיומות הללו בלתי תלויות‪ .‬כלומר‪ ,‬כל שתיים מהן לא גוררות את השלישית‪ .‬או באופן‬
‫שקול‪ :‬עבור כל שתי אקסיומות‪ ,‬קיימת פונקציה אחרת שאינה פונקציית הסתברות‪ ,‬המקיימת‬
‫את השתיים הללו ולא מקיימת כלל את השלישית‪.‬‬
‫בינתיים אנו לא יודעים האם קיימת פונקציה שאכן מקיימת את שלושת התנאים הללו‪ .‬מיד‬
‫נראה קיום של פונקציה כזאת באמצעות דוגמה‪.‬‬
‫עוצמה של מאורע‪ :‬נגדיר עוצמה של מאורע ‪ A‬להיות מספר המאורעות הפשוטים השייכים‬
‫ל‪ ,A-‬ונסמן אותה ב‪.|A|-‬‬
‫לדוגמה‪ ,‬אם }‪ A = {1, 2‬אז ‪ ,|A| = 2‬ואם }‪ Ω = {1, 2, ..., 6‬אז ‪.|Ω| = 6‬‬
‫הפונקציה‬
‫|‪|A‬‬
‫|‪|Ω‬‬
‫= )‪P (A‬‬
‫נבחן כעת את הפונקציה‬
‫|‪|A‬‬
‫|‪|Ω‬‬
‫= )‪ P (A‬ונראה שהיא פונקציית הסתברות‪:‬‬
‫‪= 1 .1‬‬
‫|‪|Ω‬‬
‫|‪|Ω‬‬
‫= )‪P (Ω‬‬
‫‪≤ 1 .2‬‬
‫|‪|A‬‬
‫|‪|Ω‬‬
‫≤ ‪ 0‬כי ‪ ,|A| , |Ω| > 0‬וכן תמיד |‪.|A| ≤ |Ω‬‬
‫‪ .3‬נניח כי ‪ A, B‬מאורעות זרים‪ ,‬אז אכן מתקיים‪:‬‬
‫|‪|A ∪ B‬‬
‫|‪|A| + |B‬‬
‫|‪|A| |B‬‬
‫=‬
‫=‬
‫‪+‬‬
‫)‪= P (A) + P (B‬‬
‫|‪|Ω‬‬
‫|‪|Ω‬‬
‫|‪|Ω‬‬
‫|‪|Ω‬‬
‫= )‪P (A ∪ B‬‬
‫הערה‪ :‬פונקציה זו אינה הפונקציה היחידה שמקיימת את אקסיומות פונקציית ההסתברות‪.‬‬
‫נגדיר את מרחב המדגם } ‪ Ω = {ω1 , ω2 , ..., ωn‬ונתבונן בפונקציה החלופית הבאה‪:‬‬
‫(‬
‫‪1 ω1 ∈ A‬‬
‫= )‪P (A‬‬
‫∈ ‪0 ω1‬‬
‫‪/A‬‬
‫נראה שמתקיימים שלושת אקסיומות פונקציית ההסתברות‪:‬‬
‫‪ ω1 ∈ Ω .1‬ולכן ‪.P (Ω) = 1‬‬
‫‪ .2‬כל ערכי הפונקציה האפשריים הם ‪ 0, 1‬ולכן ודאי )‪.0 ≤ P (A‬‬
‫‪42‬‬
‫‪ .3‬נניח כי ‪ A, B‬מאורעות זרים‪ .‬נבדוק שלוש אפשרויות‪:‬‬
‫∈ ‪) ω1‬לא שייך ל‪ A-‬ולא ל‪ (B-‬אז ההסתברויות כולן מקיימות‪:‬‬
‫)א( אם ‪/ A ∪ B‬‬
‫‪P (A) = P (B) = P (A ∪ B) = 0‬‬
‫ולכן מתקיימת האקסיומה‪.‬‬
‫)ב( אם ‪) ω2 ∈ A ∩ B‬שייך ל‪ A-‬ולא ל‪ (B-‬אז ‪,P (B) = 0 ,P (A) = 1‬‬
‫‪ P (A ∪ B) = 1‬ולכן מתקיימת האקסיומה‪.‬‬
‫)ג( אם ‪) ω1 ∈ A ∩ B‬שייך ל‪ B-‬ולא ל‪ (A-‬מדובר במקרה סימטרי למקרה‬
‫)‪.(b‬‬
‫מדוגמה זו נוכל להסיק שגם לאחר ניסוח אקסיומות פונקציית ההסתברות‪ ,‬נותר שיקול דעת‬
‫בידי מתכנן המודל‪.‬‬
‫תכונות פונקציית ההסתברות‬
‫‬
‫‪/ = 0 .1‬‬
‫‪.P O‬‬
‫הוכחה‪ :‬נשים לב שמתקיים לכל ‪ A‬כי ‪/‬‬
‫‪ ,A = A ∪ O‬ולכן‪:‬‬
‫‬
‫‬
‫‪/ = P (A) + P O‬‬
‫‪/‬‬
‫‪P (A) = P A ∪ O‬‬
‫⇓‬
‫‪/ =0‬‬
‫‪P O‬‬
‫‪ .2‬אם ‪ A, B, C‬מאורעות זרים בזוגות‪ ,‬אז‪:‬‬
‫)‪P (A ∪ B ∪ C) = P (A) + P (B) + P (C‬‬
‫הוכחה‪:‬‬
‫= )‪P (A ∪ B ∪ C) = P ((A ∪ B) ∪ C‬‬
‫)‪= P (A ∪ B) + P (C) = P (A) + P (B) + P (C‬‬
‫‪ .3‬לכל זוג מאורעות ‪ A, B‬מתקיים‪:‬‬
‫‬
‫‪P (A ∩ B) = P (A) − P A ∩ B‬‬
‫‬
‫הוכחה‪ :‬נשים לב שמתקיים ‪ A = (A ∩ B) ∪ A ∩ B‬וזה איחוד זר‪ .‬מכאן‪:‬‬
‫‬
‫‬
‫‪P (A) = P (A ∩ B) ∪ A ∩ B = P (A ∩ B) + P A ∩ B‬‬
‫‪m‬‬
‫‪ .4‬אם ‪ {Bk }k=1‬היא חלוקה של ‪ ,Ω‬אז‪:‬‬
‫) ‪P (A ∩ Bi‬‬
‫‪m‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪43‬‬
‫= )‪P (A‬‬
‫הוכחה‪ :‬כפי שראינו לעיל לכל ‪ A‬מתקיים‪:‬‬
‫) ‪A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ ... ∪ (A ∩ Bm‬‬
‫כאשר זה איחוד זר בזוגות‪ .‬ולכן‪:‬‬
‫= )) ‪P (A) = P ((A ∩ B1 ) ∪ (A ∩ B2 ) ∪ ... ∪ (A ∩ Bm‬‬
‫) ‪P (A ∩ Bi‬‬
‫‪m‬‬
‫‪X‬‬
‫= ) ‪= P (A ∩ B1 ) + P (A ∩ B2 ) + ... + P (A ∩ Bm‬‬
‫‪i=1‬‬
‫‪ .5‬לכל ‪ A, B‬מתקיים‪:‬‬
‫)‪P (A ∪ B) = P (A) + P (B) − P (A ∩ B‬‬
‫הוכחה‪ :‬נשים לב שמתקיים‪:‬‬
‫‬
‫‬
‫)‪A ∪ B = A ∩ B ∪ A ∩ B ∪ (A ∩ B‬‬
‫וזה איחוד זר בזוגות‪ .‬ולכן‪:‬‬
‫‬
‫‬
‫‬
‫= )‪A ∩ B ∪ A ∩ B ∪ (A ∩ B‬‬
‫‪P (A ∪ B) = P‬‬
‫‬
‫‬
‫= )‪= P A ∩ B + P A ∩ B + P (A ∩ B‬‬
‫= )‪= P (A) − P (A ∩ B) + P (B) − P (A ∩ B) + P (A ∩ B‬‬
‫)‪= P (A) + P (B) − P (A ∩ B‬‬
‫]נשים לב שהשוויון השלישי נובע מתכונה ‪[.3‬‬
‫פונקציית הסתברות כללית‪ :‬כדי לבנות פונקציה כלשהי שמקיימת את אקסיומות פונקציית‬
‫ההסתברות על התחום שנסמן } ‪ ,Ω = {ω1 , ω2 , ..., ωn‬מספיק לבנות אותה כך‬
‫שתקיים את שני התנאים הבאים‪:‬‬
‫‪0 ≤ P (ωi ) 1 ≤ i ≤ n‬‬
‫‪P (ωi ) = 1‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫לא נוכיח כאן‪ ,‬אולם שני תנאים אלה מספיקים בכדי להפוך בהכרח את הפונקציה‬
‫לפונקציית הסתברות‪ ,‬המקיימת עבור מאורע כלשהו ‪ A‬שההסתברות היא‪:‬‬
‫‪X‬‬
‫= )‪P (A‬‬
‫) ‪P (ωi‬‬
‫‪ωi ∈A‬‬
‫‪44‬‬
‫מרחב הסתברות אחיד‪ :‬נאמר שמרחב מדגם ‪ Ω‬הוא מרחב הסתברות אחיד‪ ,‬אם לכל אחד‬
‫מהמאורעות הפשוטים שבו יש הסתברות שווה‪.‬‬
‫הדוגמאות הקלסיות והנפוצות ביותר למרחב מדגם מסוג כזה הן הטלת קוביה והטלת‬
‫מטבע‪.‬‬
‫• הטלת קוביה‪ :‬מרחב המדגם הוא }‪ Ω = {1, 2, 3, 4, 5, 6‬וההסתברויות הן‪:‬‬
‫‪1‬‬
‫‪6‬‬
‫= )‪P (1) = P (2) = P (3) = P (4) = P (5) = P (6‬‬
‫נבחר למשל את המאורע }‪ .A = {2, 1, 4‬ההסתברות היא ‪ 21‬כי מאורע זה כולל‬
‫חצי מהאפשרויות במרחב הסתברות אחיד‪ .‬ניתן לחשב גם לפי תכונות פונקציית‬
‫ההסתברות‪:‬‬
‫‪1 1 1‬‬
‫‪1‬‬
‫= ‪+ +‬‬
‫‪6 6 6‬‬
‫‪2‬‬
‫= )‪P (A‬‬
‫• הטלת מטבע‪ :‬מרחב המדגם הוא } ‪ Ω = {H, T‬וההסתברויות הן = ) ‪P (H) = P (T‬‬
‫‪. 21‬‬
‫נדון למשל במקרה בו שני שחקנים מחליטים לזרוק את המטבע פעמיים‪ ,‬ולהגדיר‪:‬‬
‫ אם יש אפס פעמים ‪ H‬אז שחקן א' מנצח‪.‬‬‫ אם יש פעם אחת ‪ H‬שחקן ב' מנצח‪.‬‬‫ אם יש פעמיים ‪ H‬תיקו‪.‬‬‫}‪{T, T } {T, H} (H, T ) {H, H‬‬
‫נשים לב לתוצאות האפשריות והסתברותן‪:‬‬
‫‪0.25‬‬
‫‪0.25‬‬
‫‪0.25‬‬
‫‪0.25‬‬
‫מכאן שהאפשרות של תיקו מתקבלת בשני אירועים‪ ,‬ולכן ההסתברות לתיקו היא ‪,0.5‬‬
‫כפול מההסתברויות ששחקן א' ינצח וששחקן ב' ינצח‪.‬‬
‫נשים לב כי במודל שהגדרנו מרחב המדגם }”‪Ω = {”player A wins”, ”player b wins”, ”tie‬‬
‫הוא לא מרחב הסתברות אחיד‪.‬‬
‫‪45‬‬
‫חלק ‪IV‬‬
‫קומבינטוריקה‬
‫לניסוי פשוט יש ‪ n‬תוצאות אפשריות‪] .‬למשל בהטלת קוביה יש ‪ 6‬תוצאות אפשריות‪[.‬‬
‫נניח שחוזרים על הניסוי הפשוט ‪ r‬פעמים‪] .‬למשל מטילים קוביה פעמיים‪[.‬‬
‫השאלה המרכזית שנרצה לברר במסגרת זו היא כמה תוצאות קיימות לניסוי המורכב? כלומר‪,‬‬
‫מהי עוצמתו של מרחב המדגם?‬
‫ראשית‪ ,‬בכל פעם שמבצעים ניסוי חשוב להבחין בשני מאפיינים‪:‬‬
‫• האם יש או אין חשיבות לסדר?‬
‫• האם הניסוי מתבצע עם או בלי החזרה?‬
‫למשל בהטלת קוביה פעמיים ניתן לקבל תוצאה של )‪ (1, 2‬או תוצאה של )‪ .(2, 1‬עלינו‬
‫להחליט לפי המקרה האם מדובר בשתי תוצאות שונות או בתוצאה אחת‪ .‬כלומר‪ ,‬האם יש‬
‫חשיבות לסדר או לא‪.‬‬
‫למשל בשליפת פתק מתוך כובע פעמיים יש חשיבות לשאלה האם לפני השליפה השנייה אנו‬
‫מחזירים את הפתק שיצא בשליפה הראשונה או לא‪ .‬כלומר‪ ,‬האם מדובר במדגם עם החזרה‬
‫או בלי החזרה‪.‬‬
‫להלן נדון בכל האפשרויות‪ :‬מדגם סדור‪/‬לא סדור עם החזרה‪/‬בלי החזרה‪.‬‬
‫‪5.6‬‬
‫מדגם סדור עם החזרה‬
‫במדגם סדור עם החזרה מספר האפשרויות הוא ‪.|Ω| = nr‬‬
‫למשל בהטלת קוביה פעמיים‪ ,‬מספר האפשרויות הוא ‪:62 = 36‬‬
‫‪‬‬
‫)‪(1, 2) (1, 3) (1, 4) (1, 5) (1, 6‬‬
‫‪(2, 2) (2, 3) (2, 4) (2, 5) (2, 6)‬‬
‫‪‬‬
‫‪(3, 2) (3, 3) (3, 4) (3, 5) (3, 6)‬‬
‫‪ ⇒ |Ω| = 62 = 36‬‬
‫‪(4, 2) (4, 3) (4, 4) (4, 5) (4, 6)‬‬
‫‪‬‬
‫‪(5, 2) (5, 3) (5, 4) (5, 5) (5, 6)‬‬
‫)‪(6, 2) (6, 3) (6, 4) (6, 5) (6, 6‬‬
‫‪‬‬
‫)‪(1, 1‬‬
‫)‪(2, 1‬‬
‫‪‬‬
‫)‪(3, 1‬‬
‫‪Ω=‬‬
‫)‪(4, 1‬‬
‫‪‬‬
‫)‪(5, 1‬‬
‫)‪(6, 1‬‬
‫נשים לב שמכיוון שיש חשיבות לסדר‪ ,‬מנינו גם את האפשרות )‪ (1, 3‬ו‪ (3, 1)-‬כשתי אפשרויות‬
‫שונות‪.‬‬
‫‪5.7‬‬
‫מדגם סדור ללא החזרה‬
‫הגדרה‪" :‬עצרת" של מספר טבעי ‪ k‬מוגדרת ומסומנת כך‪:‬‬
‫‪k! = 1 · 2 · 3 · ... · k‬‬
‫‪46‬‬
‫!‪n‬‬
‫במדגם סדור ללא החזרה מספר האפשרויות הוא‬
‫!)‪(n − r‬‬
‫= |‪0 ≤ r ≤ n ,|Ω‬‬
‫בדוגמה של הטלת הקוביה‪ ,‬העובדה שלא מאפשרים חזרה מסירה את כל האפשרויות‬
‫מהאלכסון בו מוצגות התוצאות בהן שתי התוצאות זהות‪ .‬לכן נישאר עם האפשרויות‬
‫הבאות‪:‬‬
‫‪‬‬
‫‪‬‬
‫)‪(1, 2) (1, 3) (1, 4) (1, 5) (1, 6‬‬
‫)‪(2, 1‬‬
‫‪(2, 3) (2, 4) (2, 5) (2, 6)‬‬
‫‪‬‬
‫‪‬‬
‫)‪(3, 1) (3, 2‬‬
‫!‪6‬‬
‫‪(3, 4) (3, 5) (3, 6)‬‬
‫= |‪ ⇒ |Ω‬‬
‫‪Ω=‬‬
‫‪= 6·5 = 30‬‬
‫)‪(4, 1) (4, 2) (4, 3‬‬
‫‪‬‬
‫‪(4,‬‬
‫)‪5‬‬
‫‪(4,‬‬
‫)‪6‬‬
‫‪(6‬‬
‫‪−‬‬
‫!)‪2‬‬
‫‪‬‬
‫‪‬‬
‫)‪(5, 1) (5, 2) (5, 3) (5, 4‬‬
‫‪(5, 6)‬‬
‫)‪(6, 1) (6, 2) (6, 3) (6, 4) (6, 5‬‬
‫נסביר כיצד הגענו לנוסחה‪ :‬בניסוי הפשוט הראשון קיימות ‪ n‬תוצאות אפשריות‪ .‬בניסוי‬
‫הפשוט השני ירדה אפשרות אחת )כי אין החזרה( ולכן נשארנו עם ‪ n − 1‬תוצאות אפשריות‪,‬‬
‫וכן הלאה‪ .‬בניסוי הפשוט ה‪ r-‬נישאר עם ‪ n − r + 1‬תוצאות אפשריות‪.‬‬
‫מכאן שסך האפשרויות הוא‪:‬‬
‫= )‪n · (n − 1) · ... · (n − r + 1‬‬
‫!‪n‬‬
‫‪n · (n − 1) · ... · (n − r + 1) · (n − r) · ... · 2 · 1‬‬
‫=‬
‫‪(n − r) · ... · 2 · 1‬‬
‫!)‪(n − r‬‬
‫לצורך שלמות ההגדרה‪ ,‬נאמר כי ‪ .0! = 1‬נראה בהמשך שהגדרה זו שימושית במקרי־קיצון‪.‬‬
‫כך למשל לפי הגדרה זו מספר התוצאות האפשריות של סידור ללא החזרה של ‪ n‬איברים‬
‫!‪n‬‬
‫!)‪. (n−n‬‬
‫הוא !‪= n‬‬
‫‪5.8‬‬
‫מדגם לא סדור ללא החזרה‬
‫בהשוואה למדגם סדור עם החזרה‪ ,‬מספר האפשרויות מצטמצם‪ ,‬כי מאורעות בעלי אותם‬
‫איברים בסדר שונה מתלכדים למאורע אחד‪.‬‬
‫במדגם לא סדור ללא החזרה מספר האפשרויות הוא‬
‫!‪n‬‬
‫!)‪r!(n−r‬‬
‫‬
‫=‬
‫‪n‬‬
‫‪r‬‬
‫‬
‫= |‪,|Ω‬‬
‫‪0≤r≤n‬‬
‫מספר זה נותן למעשה את מספר הצירופים האפשריים של ‪ r‬איברים מתוך ‪ n‬איברים‪.‬‬
‫!‪n‬‬
‫!)‪ (n−r‬אפשרויות בהנחה שהסדר משנה‪.‬‬
‫נסביר כיצד הגענו לנוסחה‪ :‬ראשית נתונות לנו‬
‫כעת נרצה להסיר האפשרויות שמופיעות יותר מפעם אחת ולמנות אותן רק פעם אחת‪.‬‬
‫נשים לב כי ראינו שעבור כל ‪ r‬איברים נתונים קיימים !‪ r‬סידורים שונים אפשריים‪ ,‬כי במקום‬
‫הראשון יש ‪ r‬אפשרויות‪ ,‬במקום השני ‪ r − 1‬אפשרויות וכן הלאה‪ .‬לכן נחלק ב‪ r!-‬ונקבל‬
‫את הנוסחה שקבענו‪.‬‬
‫‬
‫‬
‫‬
‫‬
‫‪n‬‬
‫‪n‬‬
‫)נזכור שהגדרנו‬
‫=‬
‫נשים לב שבמקרים ‪ r = n ,r = 0‬נקבל‪= 1 :‬‬
‫‪0‬‬
‫‪n‬‬
‫)‪ .(0! = 1‬ההיגיון בתוצאה זו הוא שמתוך ‪ n‬איברים יש רק דרך אחת לבחור ‪ 0‬איברים או‬
‫‪ n‬איברים ללא חשיבות לסדר‪.‬‬
‫‪47‬‬
‫טענה‪:‬‬
‫‬
‫‪n‬‬
‫‪n−r‬‬
‫‬
‫‬
‫=‬
‫‪n‬‬
‫‪r‬‬
‫‬
‫הוכחה‪:‬‬
‫!‪n‬‬
‫!‪n‬‬
‫!‪n‬‬
‫=‬
‫=‬
‫!))‪(n − r)! (n − (n − r‬‬
‫!‪(n − r)!r‬‬
‫!)‪r! (n − r‬‬
‫‬
‫ההסבר לשוויון זה הוא שמדובר באירועים משלימים אחד לשני‪.‬‬
‫למשל קל לראות שבחירת ‪ 3‬תלמידים מכיתה של ‪ 10‬לחברות בוועד‪ ,‬זֹו פעולה שקולה‬
‫לבחירת ‪ 7‬תלמידים מכיתה של ‪ 10‬שלא יהיו חברים בוועד‪.‬‬
‫טענה‪:‬‬
‫‬
‫‪n−1‬‬
‫‪r‬‬
‫‬
‫‬
‫‪+‬‬
‫‪n−1‬‬
‫‪r−1‬‬
‫‬
‫‬
‫‪n‬‬
‫‪r‬‬
‫‬
‫‪n−1‬‬
‫‪r‬‬
‫=‬
‫‬
‫הוכחה‪:‬‬
‫!)‪(n − 1‬‬
‫!)‪(n − 1‬‬
‫‪+‬‬
‫=‬
‫!)‪(r − 1)! ((n − 1) − (r − 1))! r! (n − r − 1‬‬
‫=‬
‫‬
‫‬
‫‪+‬‬
‫‪n−1‬‬
‫‪r−1‬‬
‫!)‪(n − 1‬‬
‫!)‪(n − 1‬‬
‫!)‪r (n − 1‬‬
‫!)‪(n − r) (n − 1‬‬
‫‪+‬‬
‫=‬
‫‪+‬‬
‫=‬
‫!)‪(r − 1)! (n − r)! r! (n − r − 1)! r! (n − r‬‬
‫!)‪r! (n − r‬‬
‫!)‪r (n − 1)! + (n − r) (n − 1‬‬
‫!)‪(r + n − r) (n − 1‬‬
‫=‬
‫=‬
‫!)‪r! (n − r‬‬
‫!)‪r! (n − r‬‬
‫‬
‫‬
‫!‪n‬‬
‫!)‪n (n − 1‬‬
‫‪n‬‬
‫=‬
‫=‬
‫=‬
‫‪r‬‬
‫!)‪r! (n − r‬‬
‫!)‪r! (n − r‬‬
‫‬
‫=‬
‫=‬
‫‬
‫נסביר את השוויון שקיבלנו‪ .‬נניח שבוחרים ‪ r‬איברים מתוך ‪ ,n‬ונניח ש‪ x-‬הוא‬
‫איבר כלשהו מתוך ה‪ .n-‬ברור שיש שתי אפשרויות זרות‪ :‬או ש‪ x-‬כלול ב‪ r-‬האיברים‬
‫הנבחרים או שלא‪ .‬אין אפשרות נוספת‪ .‬מכיוון שהאפשרויות הללו זרות‪ ,‬אם נחשב את‬
‫מספר התוצאות האפשריות בכל אחת מהאפשרויות ונסכום‪ ,‬נקבל את כל התוצאות‬
‫האפשריות‪.‬‬
‫עצמים מתוך ‪ n − 1‬העצמים‬
‫במקרה ש‪ x-‬כלול ב‪ r-‬שבחרנו‪ ,‬נשאר לבחור ‪r −1‬‬
‫‬
‫‪n−1‬‬
‫הנותרים‪ ,‬ולכן מספר התוצאות האפשריות הוא‬
‫‪.‬‬
‫‪r−1‬‬
‫במקרה ש‪ x-‬לא כלול ב‪ r-‬שבחרנו‪ ,‬עלינו לבחור ‪ r‬איברים מתוך ‪ n − 1‬האיברים‬
‫)את הראשון אי־אפשר לבחור(‪ ,‬ולכן מספר התוצאות האפשריות הוא‬
‫הנותרים ‬
‫‬
‫‪n−1‬‬
‫‪.‬‬
‫‪r‬‬
‫‪48‬‬
‫‬
‫באמצעות הטענה האחרונה ניתן להציג את ערכו של‬
‫‪n‬‬
‫‪r‬‬
‫‬
‫באמצעות מה שמכונה "משולש‬
‫פסקל"‪:‬‬
‫שני הערכים שמעליו‪ .‬זו בדיוק הטענה שהוכחנו‬
‫כסכום ‬
‫המשולש נבנה כך שכל ערך מתקבל ‬
‫‪n‬‬
‫‪.‬‬
‫כעת ולכן הערך ה‪ r-‬בשורה ב‪ n-‬הוא‬
‫‪r‬‬
‫‪5.8.1‬‬
‫הבינום של ניוטון‬
‫‬
‫ ‪n‬‬
‫‪X‬‬
‫‪n‬‬
‫‪ar bn−r‬‬
‫‪r‬‬
‫‪n‬‬
‫= )‪(a + b‬‬
‫‪r=0‬‬
‫ראשית ברור שכאשר ‪ a‬נכפל ‪ r‬פעמים‪ ,‬נשאר ל‪ b-‬להיות נכפל ‪ n − r‬פעמים‪.‬‬
‫כדי לבדוק את כל הקומבינציות האפשריות שמתקבלות‪ ,‬משתמשים במה שהוכחנו לעיל‬
‫אודות בחירת ‪ r‬איברים מתוך ‪ ,n‬כאשר הסדר לא משנה וללא החזרה‪.‬‬
‫כך זה נראה במקרה של ‪:n = 4‬‬
‫‬
‫ ‪4‬‬
‫‪X‬‬
‫‪4‬‬
‫= )‪(a + b‬‬
‫= ‪ar b4−r‬‬
‫‪r‬‬
‫‪4‬‬
‫‪r=0‬‬
‫= ‪a4‬‬
‫‬
‫‪4‬‬
‫‪0‬‬
‫‬
‫‪a3 b +‬‬
‫‬
‫‪4‬‬
‫‪1‬‬
‫‬
‫‪a2 b2 +‬‬
‫‬
‫‪4‬‬
‫‪2‬‬
‫‬
‫‪ab3 +‬‬
‫‬
‫‪4‬‬
‫‪3‬‬
‫‪= b4 + 4ab3 + 6a2 b2 + 4a3 b + a4‬‬
‫‪49‬‬
‫‬
‫‪b4 +‬‬
‫‬
‫‪4‬‬
‫‪4‬‬
‫‬
‫=‬
‫הרחבה‪ :‬אם ‪ a = b = 1‬מתקיים‪:‬‬
‫‬
‫ ‬
‫ ‬
‫‬
‫‬
‫‬
‫ ‪n‬‬
‫ ‪n‬‬
‫‪X‬‬
‫‪X‬‬
‫‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫‪r n−r‬‬
‫= )‪2 = (1 + 1‬‬
‫‪1 1‬‬
‫=‬
‫=‬
‫‪+‬‬
‫‪+...+‬‬
‫‪r‬‬
‫‪r‬‬
‫‪0‬‬
‫‪1‬‬
‫‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫‪r=0‬‬
‫‪r=0‬‬
‫כלומר ‪ 2n‬זה מספר סך‬
‫איברים‪.‬‬
‫המאורעות שניתן ליצור במרחב מדגם המכיל ‪ n‬‬
‫‬
‫‪n‬‬
‫‪n‬‬
‫מאורעות‬
‫מאורעות בעלי ‪ 0‬מאורעות פשוטים‪,‬‬
‫הסיבה לכך היא שניתן ליצור‬
‫‪1‬‬
‫‪0‬‬
‫בעלי ‪ 1‬מאורעות פשוטים‪ ,‬וכן הלאה‪.‬‬
‫‪5.9‬‬
‫מדגם לא סדור עם החזרה‬
‫האפשרויות הוא‬
‫החזרה מספר ‬
‫במדגם לא סדור עם ‬
‫!)‪(n + r − 1‬‬
‫‪n+r−1‬‬
‫= |‪.|Ω‬‬
‫=‬
‫‪r‬‬
‫!)‪r! (n − 1‬‬
‫לא נוכיח תוצאה זו אולם נדגים אותה‪.‬‬
‫במשחק שש־בש זורקים שתי קוביות בבת־אחת‪ .‬לצורך מהלך המשחק אין הבדל למשל בין‬
‫)‪ (2, 3‬לבין )‪ (3, 2‬ולכן הסדר לא משנה‪.‬‬
‫התוצאות האפשריות הן‪:‬‬
‫‪‬‬
‫‪‬‬
‫)‪(1, 1‬‬
‫‪‬‬
‫)‪(2, 1) (2, 2‬‬
‫‪‬‬
‫‪‬‬
‫)‪(3, 1) (3, 2) (3, 3‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪Ω=‬‬
‫‪‬‬
‫‪(4,‬‬
‫)‪1‬‬
‫‪(4,‬‬
‫)‪2‬‬
‫‪(4,‬‬
‫)‪3‬‬
‫‪(4,‬‬
‫)‪4‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫)‪(5, 1) (5, 2) (5, 3) (5, 4) (5, 5‬‬
‫)‪(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6‬‬
‫‬
‫‬
‫‪7‬‬
‫= |‪.|Ω‬‬
‫כלומר ‪ ,r = 2 ,n = 6‬ולכן ‪= 21‬‬
‫‪2‬‬
‫הערה‪ :‬במקרה זה אין מקום להניח הסתברויות אחידות מעל ‪ 21‬האפשרויות‪ ,‬כי מכיוון‬
‫שהסדר לא משנה‪ ,‬ספרנו למשל את )‪ (1, 2‬פעם אחת‪ ,‬בעוד התוצאה הזו מתקבלת‬
‫גם על־ידי )‪ (2, 1‬ולכן סביר לתת לה הסתברות כפולה‪.‬‬
‫‪5.10‬‬
‫דוגמאות‬
‫‪5.10.1‬‬
‫זריקת קוביות‬
‫‪‬‬
‫)‪(1, 6‬‬
‫‪(2, 6)‬‬
‫‪‬‬
‫‪(3, 6)‬‬
‫‪‬‬
‫‪(4, 6)‬‬
‫‪‬‬
‫‪(5, 6)‬‬
‫)‪(6, 6‬‬
‫)‪(1, 5‬‬
‫)‪(2, 5‬‬
‫)‪(3, 5‬‬
‫)‪(4, 5‬‬
‫)‪(5, 5‬‬
‫)‪(6, 5‬‬
‫)‪(1, 4‬‬
‫)‪(2, 4‬‬
‫)‪(3, 4‬‬
‫)‪(4, 4‬‬
‫)‪(5, 4‬‬
‫)‪(6, 4‬‬
‫)‪(1, 3‬‬
‫)‪(2, 3‬‬
‫)‪(3, 3‬‬
‫)‪(4, 3‬‬
‫)‪(5, 3‬‬
‫)‪(6, 3‬‬
‫)‪(1, 2‬‬
‫)‪(2, 2‬‬
‫)‪(3, 2‬‬
‫)‪(4, 2‬‬
‫)‪(5, 2‬‬
‫)‪(6, 2‬‬
‫‪‬‬
‫)‪(1, 1‬‬
‫)‪(2, 1‬‬
‫‪‬‬
‫)‪(3, 1‬‬
‫‪Ω=‬‬
‫)‪(4, 1‬‬
‫‪‬‬
‫)‪(5, 1‬‬
‫)‪(6, 1‬‬
‫‪1‬‬
‫‪. 36‬‬
‫‪ .|Ω| = nr = 62 = 36‬מדובר במרחב הסתברות אחיד‪ ,‬ולכן לכל תוצאה הסתברות‬
‫‪50‬‬
‫• ההסתברות לאירוע "‪ 3‬בקוביה הראשונה"= ‪:A‬‬
‫‪6‬‬
‫‪1‬‬
‫=‬
‫‪36‬‬
‫‪6‬‬
‫= )‪P (A‬‬
‫• ההסתברות לאירוע "‪ 3‬בזריקה השנייה"= ‪:B‬‬
‫‪6‬‬
‫‪1‬‬
‫=‬
‫‪36‬‬
‫‪6‬‬
‫= )‪P (A‬‬
‫• ההסתברות לאירוע "לפחות פעם אחת ‪ 3‬בשתי הזריקות"= ‪:A ∪ B‬‬
‫‪6+5‬‬
‫‪11‬‬
‫=‬
‫‪36‬‬
‫‪36‬‬
‫= )‪P (A ∪ B‬‬
‫נשים לב שהחיתוך ‪ A ∩ B‬מכיל את )‪ (3, 3‬ולכן‬
‫אותה התוצאה באופן הבא‪:‬‬
‫‪6‬‬
‫‪6‬‬
‫‪1‬‬
‫‪11‬‬
‫‪+‬‬
‫‪−‬‬
‫=‬
‫‪36 36 36‬‬
‫‪36‬‬
‫‪1‬‬
‫‪36‬‬
‫= )‪ ,P (A ∩ B‬ומכאן נקבל את‬
‫= )‪P (A ∪ B) = P (A) + P (B) − P (A ∩ B‬‬
‫• ההסתברות לאירוע "לא לקבל ‪ 3‬בכלל"= ‪:A ∪ B‬‬
‫‬
‫‪11‬‬
‫‪25‬‬
‫‪P A ∪ B = 1 − P (A ∪ B) = 1 −‬‬
‫=‬
‫‪36‬‬
‫‪36‬‬
‫‪5.10.2‬‬
‫ימי־הולדת‬
‫נבדוק את ההסתברות שבכיתה בת ‪ 35‬סטודנטים‪ ,‬כולם חוגגים יום־הולדת בימים שונים‬
‫במהלך השנה‪ ,‬תחת ההנחה שכל הימים שווי־הסתברות‪.‬‬
‫‪ r = 35 ,n = 365‬ולכן ‪.|Ω| = 36535‬‬
‫לצורך עמידה בתנאים‪ ,‬לסטודנט הראשון ‪ 365‬אפשרויות‪ ,‬לשני ‪ ,364‬לשלישי ‪ ,363‬וכן הלאה‪,‬‬
‫עד שלסטודנט ה‪ 35-‬נותרו ‪.365 − 35 + 1 = 331‬‬
‫נשים לב שזהו מדגם סדור וללא החזרה‪ ,‬ולכן מספר האפשרויות לקומבינציה של ‪ 35‬ימי‬
‫!‪n‬‬
‫!)‪. (n−r‬‬
‫!‪= 365‬‬
‫הולדת בימים שונים‪ ,‬הוא !‪330‬‬
‫‪35‬‬
‫סך כל האפשרויות לימי־הולדת הוא ‪ ,365‬ולכן ההסתברות לאירוע המבוקש היא‪:‬‬
‫‪= 0.17‬‬
‫!‪365‬‬
‫!‪330‬‬
‫‪36535‬‬
‫נשים לב שההסתברות לכל אחד מהגורמים דיי גבוהה וקרובה ל‪ ,1-‬כי ההסתברות שיום־‬
‫הולדת ייפול על יום־הולדת קודם דיי נמוכה‪ ,‬אולם עדיין המכפלה של כולם יחד נותנת‬
‫תוצאה נמוכה יחסית‪.‬‬
‫נזכיר בהקשר זה את "חוק ליטלווד" )שאינו חוק מתמטי רציני( שקובע שסביר שכל אחד‬
‫יחווה נס לפחות פעם אחת בחודש‪ .‬כי ההסתברות לנס בכל שנייה היא נמוכה מאוד‪ ,‬אבל‬
‫יש הרבה מאוד שניות בחודש‪.‬‬
‫‪51‬‬
‫‪5.10.3‬‬
‫זריקת כדורים לתאים‬
‫נניח שזורקים שלושה כדורים לשלושה תאים‪ ,‬כאשר כל תא יכול להכיל את כל שלושת‬
‫הכדורים‪.‬‬
‫מספר האפשרויות לסידור הכדורים בתאים הוא ‪.|Ω| = 33 = 27‬‬
‫• ההסתברות שכל התאים יהיו מלאים היא‪:‬‬
‫!‪3‬‬
‫‪6‬‬
‫‪2‬‬
‫=‬
‫=‬
‫‪3‬‬
‫‪3‬‬
‫‪27‬‬
‫‪9‬‬
‫כי מספר הדרכים לסדר שלושה כדורים בשלושה תאים שונים הוא !‪.3‬‬
‫• ההסתברות שכל הכדורים יהיו באותו התא היא‪:‬‬
‫‪1‬‬
‫‪3‬‬
‫=‬
‫‪3‬‬
‫‪3‬‬
‫‪9‬‬
‫כי מספר הדרכים לסדר את כל שלושת הכדורים באותו כד‪ ,‬הוא ‪.3‬‬
‫• ההסתברות שתא אחד בדיוק יישאר ריק היא ההסתברות המשלימה של המקרה בו‬
‫יש שני תאים ריקים ושל המקרה בו כל התאים מלאים‪.‬‬
‫לעיל מצאנו שההסתברויות הללו הן ‪ 29‬ו‪ , 19 -‬ולכן ההסתברות המבוקשת היא‪:‬‬
‫‪1 2‬‬
‫‪6‬‬
‫‪2‬‬
‫= = ‪−‬‬
‫‪9 9‬‬
‫‪9‬‬
‫‪3‬‬
‫‪1−‬‬
‫דרך נוספת היא לחשב זאת באופן ישיר‪.‬‬
‫ראשית נקבע תא ריק )יש ‪ 3‬אפשרויות לכך(‪.‬‬
‫את שלושת הכדורים ניתן לפזר ב‪ 23 = 8-‬דרכים שונות בין שני התאים האחרים‪.‬‬
‫נסיר שתי אפשרויות שבהן יש תא ריק נוסף )אם כל הכדורים בתא אחד(‪ ,‬ונישאר עם‬
‫‪ 6‬אפשרויות‪.‬‬
‫לכן יש לנו ‪ 3 · 6 = 18‬אפשרויות‪ ,‬וההסתברות המבוקשת היא‪:‬‬
‫‪18‬‬
‫‪2‬‬
‫=‬
‫‪27‬‬
‫‪3‬‬
‫‪5.10.4‬‬
‫קלפי ברידג'‬
‫שחקן ברידג‪ ,‬מקבל ‪ 13‬קלפים מתוך חפיסה של ‪.52‬‬
‫• השחקן מעוניין לדעת מהי ההסתברות שמתוך ‪ 13‬הקלפים יהיו לו ‪ 5‬הקלפים הבאים‪:‬‬
‫אס‪ ,‬מלך‪ ,‬מלכה‪ ,‬נסיך ו‪10-‬־עלה‪.‬‬
‫‬
‫‬
‫‪52‬‬
‫‪.‬‬
‫ראשית מספר כל האפשרויות לקבל ‪ 13‬מתוך ‪ 52‬הוא‬
‫‪13‬‬
‫השחקן מעוניין ב‪ 5-‬קלפים מסוימים‪ ,‬ולא משנה לו מה יהיו שאר ‪ 8‬הקלפים‪.‬‬
‫המטרהשלנו הוא לבחור את ‪ 5‬הקלפים המבוקשים‪ ,‬ובהינתן שבחרנו אותם‬
‫אירוע ‬
‫‪47‬‬
‫אפשרויות לבחור את שאר הקלפים‪.‬‬
‫נותרו‬
‫‪8‬‬
‫‪52‬‬
‫מכאן שההסתברות למאורע המבוקש היא‪:‬‬
‫‬
‫‪47‬‬
‫‪8‬‬
‫‬
‫‬
‫‪52‬‬
‫‪13‬‬
‫‬
‫נשים לב שגם לו היינו בוחרים ‪ 5‬קלפים מסוימים אחרים ההסתברות לא הייתה‬
‫משתנה‪.‬‬
‫• כעת נניח שהשחקן מעוניין לקבל ‪ 5‬קלפים מסוימים‪ ,‬כולם בצורת לב או ‪ 5‬קלפים‬
‫מסוימים כולם בצורת עלה‪.‬‬
‫נזכור את הנוסחה‪.P (A ∪ B) = P (A) + P (B) − P (A ∩ B) :‬‬
‫מכאן שההסתברות למאורע המבוקש‪ ,‬שהוא איחוד של מאורעות‪ ,‬היא‪:‬‬
‫‬
‫ ‬
‫‬
‫‪47‬‬
‫‪47‬‬
‫·‪2‬‬
‫‪−‬‬
‫‪8‬‬
‫‪3‬‬
‫‬
‫‬
‫‪52‬‬
‫‪13‬‬
‫‬
‫‬
‫‪47‬‬
‫זה מספר האפשרויות לבחור את ‪ 3‬הקלפים שנותרו בהינתן ‪ 10‬המבוקשים‪.‬‬
‫כי‬
‫‪3‬‬
‫‪5.10.5‬‬
‫חברי־כנסת‬
‫נניח שבכנסת ‪ 20‬חברים ממפלגה א' ו‪ 30-‬חברים ממפלגה ב'‪.‬‬
‫בוחרים באקראי ‪ 2‬חברי־כנסת‪.‬‬
‫• ההסתברות ששניהם ממפלגה א' היא‪:‬‬
‫‬
‫‬
‫‬
‫‬
‫‪20‬‬
‫‪2‬‬
‫‬
‫‬
‫‪50‬‬
‫‪2‬‬
‫• ההסתברות ששניהם ממפלגה ב' היא‪:‬‬
‫‪30‬‬
‫‪2‬‬
‫‬
‫‬
‫‪50‬‬
‫‪2‬‬
‫• ההסתברות שאחד ממפלגה א' והאחר ממפלגה ב' היא‪:‬‬
‫‬
‫ ‬
‫‬
‫‪20‬‬
‫‪30‬‬
‫·‬
‫‪1‬‬
‫‪1‬‬
‫‬
‫‬
‫‪50‬‬
‫‪2‬‬
‫‪53‬‬
‫‪5.11‬‬
‫הסתברויות היפר־גאומטריות‬
‫נניח שנתונה אוכלוסייה בגודל ‪ ,N‬כאשר ‪ k‬מתוכם שייכים לסוג א' והשאר )‪ (N − k‬שייכים‬
‫לסוג ב'‪.‬‬
‫בוחרים מתוך האוכלוסייה מדגם בגודל ‪ ,r‬כאשר }‪.max {0, r + k − N } ≤ x ≤ min {k, r‬‬
‫ההסתברות ש‪ x-‬מתוך המדגם הם מסוג א' היא‪:‬‬
‫‬
‫ ‬
‫‬
‫‪k‬‬
‫‪N −k‬‬
‫·‬
‫‪x‬‬
‫‪r−x‬‬
‫‬
‫‬
‫‪N‬‬
‫‪r‬‬
‫כלומר אנו מעוניינים ש‪ x-‬איברים מהאוכלוסייה יהיו שייכים גם לסוג א' וגם למדגם ‪ .r‬לכן‬
‫בוחרים ‪ x‬מתוך ‪ k‬וגם בוחרים ‪ r − x‬מתוך ‪ ,N − k‬מתוך סך כל האפשרויות לבחור ‪ r‬מתוך‬
‫‪.N‬‬
‫כאשר ‪ x‬חורג מתחום ההגדרה‪ ,‬הביטוי אינו מוגדר וההסתברות היא ‪.0‬‬
‫הערה‪ :‬כאשר }‪ r > min {k, N − k‬ייתכן ש‪ x > k-‬או ש‪ ,r − x > N − k-‬ואז צריך‬
‫לקרוא את המונה כ‪ ,0-‬כי אכן זו אפשרות שהסתברותה ‪.0‬‬
‫‪6‬‬
‫הסתברות מותנה )‪probability‬‬
‫‪(Conditional‬‬
‫הסתברות מותנה היא מידת הוודאות למאורע‪ ,‬בהינתן שקרתה עובדה כלשהי שרלוונטית‬
‫למאורע‪.‬‬
‫למשל‪ ,‬ההסתברות שברק אובמה נבחר לנשיאות ארצות הברית תלויה בשאלה מי זכה‬
‫בבחירות המקדימות במפלגה הדמוקרטית‪ .‬אם היינו יודעים שהילרי קלינטון זכתה ההסתברות‬
‫היא ‪ ,0‬ואם היינו יודעים שאובמה זכה קיימת הסתברות חיובית‪.‬‬
‫הגדרה‪ :‬נניח כי ‪ A, B‬מאורעות במרחב מדגם |‪ ,|Ω‬ונניח ‪.P (B) > 0‬‬
‫ההסתברות של ‪ A‬בהינתן ‪ B‬שנסמן )‪ P (A|B‬מוגדרת‪:‬‬
‫)‪P (A ∩ B‬‬
‫)‪P (B‬‬
‫=‬
‫|‪|A∩B‬‬
‫|‪|Ω‬‬
‫|‪|B‬‬
‫|‪|Ω‬‬
‫|‪|A ∩ B‬‬
‫=‬
‫= )‪P (A|B‬‬
‫|‪|B‬‬
‫נשים לב שבהעברת אגפים פשוטה מקבלים את השוויון‪:‬‬
‫)‪P (A ∩ B) = P (A|B) P (B‬‬
‫דוגמה ‪ :1‬מטילים זוג קוביות הוגנות‪ .‬נגדיר את המאורעות הבאים‪:‬‬
‫‪4‬‬
‫‪.P (A) = 36‬‬
‫"סכום הקוביות הוא ‪ .A= "9‬מתקיים כי ‪= 19‬‬
‫‪1‬‬
‫"בקוביה השנייה מתקבל ‪ .B = "5‬מתקיים כי ‪.P (B) = 6‬‬
‫‪1‬‬
‫‪.P (A ∩ B) = 36‬‬
‫כמו־כן מתקיים‬
‫‪54‬‬
‫כעת נניח שקיבלנו מידע שבקוביה השנייה התקבל ‪ .5‬מהי ההסתברות כעת שסכום‬
‫הקוביות הוא ‪ ?9‬נשתמש בהגדרה של הסתברות מותנה‪:‬‬
‫‪6‬‬
‫‪1‬‬
‫=‬
‫‪36‬‬
‫‪6‬‬
‫=‬
‫‪1‬‬
‫‪36‬‬
‫‪1‬‬
‫‪6‬‬
‫)‪P (A ∩ B‬‬
‫=‬
‫)‪P (B‬‬
‫= )‪P (A|B‬‬
‫מכאן שתוספת המידע אודות התוצאה של הקוביה השנייה הגדילה את ההסתברות‬
‫למאורע שהגדרנו‪.‬‬
‫ניתן גם לבדוק את ההפך‪ :‬מהי ההסתברות שבקוביה השנייה קיבלנו ‪ ,5‬אם נתון‬
‫שסכום הקוביות הוא ‪:9‬‬
‫‪1‬‬
‫‪9‬‬
‫=‬
‫‪36‬‬
‫‪4‬‬
‫=‬
‫‪1‬‬
‫‪36‬‬
‫‪1‬‬
‫‪9‬‬
‫)‪P (A ∩ B‬‬
‫=‬
‫)‪P (A‬‬
‫= )‪P (B|A‬‬
‫וגם כאן הסתברותו של המאורע עלתה בעקבות המידע החדש‪.‬‬
‫תכונות ההסתברות המותנה‪ :‬כל התכונות של הסתברות נשמרות גם להסתברות מותנה‪.‬‬
‫כך למשל‪:‬‬
‫‬
‫‪/‬‬
‫‪P O|B‬‬
‫‪=0‬‬
‫‪P (Ω|B) = 1‬‬
‫‪0 ≤ P (A|B) ≤ 1‬‬
‫)‪P (A ∪ C|B) = P (A|B) + P (C|B) − P (A ∩ C|B‬‬
‫כמו כן נניח שנתון } ‪ Ω = {ω1 , ω2 , ..., ωn‬ומוגדר המאורע } ‪.A = {ω1 , ω2‬‬
‫יחס ההסתברויות בין המאורעות הפשוטים ‪ ω1 , ω2‬נשמר גם בהינתן ש‪ A-‬התרחש‪:‬‬
‫) ‪P (ω1‬‬
‫) ‪P (ω2‬‬
‫=‬
‫) ‪P (ω1‬‬
‫)‪P (A‬‬
‫) ‪P (ω2‬‬
‫)‪P (A‬‬
‫=‬
‫)‪P (ω1 |A‬‬
‫)‪P (A‬‬
‫)‪P (ω2 |A‬‬
‫)‪P (A‬‬
‫)‪P (ω1 |A‬‬
‫=‬
‫)‪P (ω2 |A‬‬
‫כלומר‪ ,‬פונקציית ההסתברות המותנה משמרת את היחסים הפנימיים‪.‬‬
‫‬
‫הרחבה‪ :‬נזכור את הנוסחה ‪.P (A) = P (A ∪ B) + P A ∪ B‬‬
‫ומהגדרת הסתברות מותנה נובע כי‪:‬‬
‫‬
‫‬
‫‪P (A) = P (B) · P (A|B) + P B · P A|B‬‬
‫שקלול בין )‪ P (A|B‬לבין‬
‫המשמעות של שוויון זה היא שההסתברות )‪ P (A‬היא ‬
‫‪ ,P A|B‬כאשר המשקל של כל אחד מהם הוא )‪ P (B‬ו‪ P B -‬בהתאמה‪ .‬לכן אם‬
‫)‪) P (A|B) > P (A‬כלומר התרחשות המאורע ‪ B‬הגדילה את ההסתברות ל‪ (A-‬אז‬
‫בהכרח )‪.P A|B < P (A‬‬
‫‪55‬‬
‫דוגמה‪ :‬נתבונן בהסתברויות הבאות של המאורעות ‪:A1 , A2‬‬
‫‬
‫‪P (A2 ) = 0.5 P (A2 |A1 ) = 0.7 P A2 |A1 = 0.6‬‬
‫זו סיטואציה שלא יכולה להתרחש‪ ,‬כי לפי השוויון שהראינו צריך להתקיים‪:‬‬
‫‬
‫‪P (A2 ) = P (A1 ) · 0.7 + P A2 · 0.6‬‬
‫‬
‫ומכיוון ש‪ 0 ≤ P (B) , P B ≤ 1-‬בהכרח נקבל מספר בין ‪ 0.6‬ל‪.0.7-‬‬
‫‪6.1‬‬
‫נוסחת ההסתברות השלמה‬
‫‪n‬‬
‫נניח ש‪ {Bi }i=1 -‬היא חלוקה של מרחב המדגם‪.‬‬
‫כלומר לכל ‪ i 6= j‬מתקיים ‪/‬‬
‫‪ ,Bi ∩ Bj = O‬וכן ‪Bi = Ω‬‬
‫‪n‬‬
‫[‬
‫‪.‬‬
‫‪i=1‬‬
‫אז מתקיים‪:‬‬
‫) ‪P (Bi ) P (A|Bi‬‬
‫‪n‬‬
‫‪X‬‬
‫= ) ‪P (A ∩ Bi‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪P (A‬‬
‫‪i=1‬‬
‫נוסחה זו שימושית כאשר נתונות הסתברויות של מאורע המותנית במאורעות אחרים‪ ,‬כאשר‬
‫המאורעות האחרים יוצרים חלוקה‪.‬‬
‫דוגמה‪ :‬נתונים ‪ 3‬כדים המכילים כדורים‪.‬‬
‫ בכד ‪ a‬כדור לבן וכדור אדום‬‫ בכד ‪ b‬כדור לבן ושני כדורים אדומים‬‫ בכד ‪ c‬כדור לבן ושלושה כדורים אדומים‬‫נבחר כד באופן מקרי )כך שההסתברות לכל כד היא‬
‫מקרי‪.‬‬
‫‪ ( 31‬ונבחר ממנו כדור באופן‬
‫• מה ההסתברות לכדור לבן?‬
‫‪1‬‬
‫‪2‬‬
‫= )‪P (white|a‬‬
‫‪1‬‬
‫‪3‬‬
‫= )‪P (white|b‬‬
‫‪1‬‬
‫‪4‬‬
‫= )‪P (white|c‬‬
‫נסכום את ההסתברויות באופן משוקלל‪:‬‬
‫= )‪· P (white|c‬‬
‫‪1‬‬
‫‪3‬‬
‫‪· P (white|b) +‬‬
‫‪1‬‬
‫‪3‬‬
‫‪1‬‬
‫‪3‬‬
‫·‬
‫‪13‬‬
‫‪36‬‬
‫=‬
‫‪1‬‬
‫‪4‬‬
‫·‬
‫‪1‬‬
‫‪3‬‬
‫‪+‬‬
‫‪· P (white|a) +‬‬
‫‪1‬‬
‫‪3‬‬
‫‪+‬‬
‫‪1‬‬
‫‪2‬‬
‫·‬
‫‪1‬‬
‫‪3‬‬
‫=‬
‫ההסתברות לכדור שחור היא כמובן ההסתברות המשלימה‪:‬‬
‫‪13‬‬
‫‪23‬‬
‫=‬
‫‪36‬‬
‫‪36‬‬
‫‪P (black) = 1 −‬‬
‫‪56‬‬
‫‪1‬‬
‫‪3‬‬
‫= )‪P (white‬‬
‫שאלות מסוג זה ניתנות להצגה באמצעות "עץ"‪.‬‬
‫כך למשל הדוגמה האחרונה מוצגת באמצעות העץ הבא‪:‬‬
‫ההסתברות שמופיעה לכל אירוע בכל קצה של העץ‪ ,‬היא מכפלת ההסתברויות לאורך הענפים‬
‫המובילים אליו‪.‬‬
‫דרך נוספת להציג את הדוגמה שהזכרנו‪:‬‬
‫צבע‪/‬‬
‫כד ‪a‬‬
‫כד ‪b‬‬
‫כד ‪c‬‬
‫סכום‬
‫‪6.2‬‬
‫שחור‬
‫‪1‬‬
‫‪6‬‬
‫‪2‬‬
‫‪9‬‬
‫‪1‬‬
‫‪4‬‬
‫‪23‬‬
‫‪36‬‬
‫נוסחת ביאס )‪Bayes' theorem‬‬
‫בהינתן חלוקה‬
‫‪n‬‬
‫‪{Bi }i=1‬‬
‫לבן‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪9‬‬
‫‪1‬‬
‫‪12‬‬
‫‪13‬‬
‫‪36‬‬
‫סכום‬
‫‪1‬‬
‫‪3‬‬
‫‪1‬‬
‫‪3‬‬
‫‪1‬‬
‫‪3‬‬
‫‪1‬‬
‫(‬
‫של מרחב מדגם ‪ Ω‬ומאורע כלשהו ‪ ,A‬לכל ‪ 1 ≤ i ≤ n‬מתקיים‪:‬‬
‫) ‪P (A ∩ Bi‬‬
‫) ‪P (Bi ) P (A|Bi‬‬
‫) ‪P (Bi ) P (A|Bi‬‬
‫‪= Pn‬‬
‫‪= Pn‬‬
‫)‪P (A‬‬
‫) ‪j=1 P (A ∩ Bj‬‬
‫) ‪j=1 P (Bj ) P (A|Bj‬‬
‫= )‪P (Bi |A‬‬
‫נוסחה זו נובעת מהגדרת הסתברות מותנית ומנוסחת ההסתברות השלמה‪.‬‬
‫נשים לב שביצענו היפוך של התנאי‪ .‬במקום לדון בהסתברות של מאורע המטרה ‪ A‬בהינתן‬
‫‪ ,Bi‬אנו מחשבים את הסתברות ‪ Bi‬בהינתן ‪.A‬‬
‫כמובן ניתן לחשב הסתברות זו רק בהינתן ההסתברויות ) ‪.1 ≤ j ≤ n ,P (Bj‬‬
‫המשך הדיון בדוגמה‬
‫נרצה להפוך את הדיון‪ .‬כלומר נניח שידוע שיצא כדור לבן‪ ,‬ונשאל מה ההסתברות שהכדור‬
‫הגיע מכל אחד מהכדים?‬
‫‪57‬‬
‫נחשב‪:‬‬
‫‪1‬‬
‫‪6‬‬
‫‪13‬‬
‫‪36‬‬
‫)‪P (a ∩ white‬‬
‫)‪P (a) P (white|a‬‬
‫=‬
‫=‬
‫)‪P (white‬‬
‫)‪P (white‬‬
‫= )‪P (a|white‬‬
‫‪1‬‬
‫‪4‬‬
‫)‪< = P (b‬‬
‫‪13‬‬
‫‪3‬‬
‫=‬
‫‪1‬‬
‫‪9‬‬
‫‪13‬‬
‫‪36‬‬
‫)‪P (b ∩ white‬‬
‫)‪P (b) P (white|b‬‬
‫=‬
‫=‬
‫)‪P (white‬‬
‫)‪P (white‬‬
‫= )‪P (b|white‬‬
‫‪3‬‬
‫‪1‬‬
‫)‪< = P (c‬‬
‫‪13‬‬
‫‪3‬‬
‫=‬
‫‪1‬‬
‫‪12‬‬
‫‪13‬‬
‫‪36‬‬
‫)‪P (c ∩ white‬‬
‫)‪P (c) P (white|c‬‬
‫=‬
‫=‬
‫)‪P (white‬‬
‫)‪P (white‬‬
‫= )‪P (c|white‬‬
‫‪6‬‬
‫‪1‬‬
‫)‪> = P (a‬‬
‫‪13‬‬
‫‪3‬‬
‫=‬
‫דרך נוספת לחשב את )‪ P (c|white‬לאחר שידועות שתי ההסתברויות האחרות‪ ,‬היא‪:‬‬
‫‪4‬‬
‫‪3‬‬
‫‪6‬‬
‫‪−‬‬
‫=‬
‫‪13 13‬‬
‫‪13‬‬
‫‪P (c|white) = 1 − P (a|white) − P (b|white) = 1 −‬‬
‫באופן אינטואיטיבי‪ ,‬קל היה לנחש ש‪ P (a|white) > 13 -‬וכן ‪ ,P (c|white) < 13‬שכן כל‬
‫אחד מהם הוא מקרה קצה של מספר לבנים‪ ,‬אבל המקרה )‪ P (b|white‬קשה יותר לניחוש‪.‬‬
‫ניתן לבנות עץ אפשרויות גם להיפוך‪ ,‬על־אף שזה נראה מלאכותי‪:‬‬
‫דוגמה‪ :‬נניח שבכד ‪ 220‬כדורים‪ ,‬מתוכם ‪ 20‬אדומים ו‪ 200-‬לבנים‪ .‬מוציאים כדור באופן‬
‫אקראי‪.‬‬
‫אם הכדור שהוצא אדום‪ ,‬הוא מוחזר לכד ומוסיפים לכד ‪ 5‬כדורים אדומים‪.‬‬
‫אם הכדור שהוצא לבן‪ ,‬הוא מוחזר לכד ומוסיפים לכד ‪ 2‬כדורים לבנים‪.‬‬
‫נסמן ב‪ Ai -‬את המאורע של הוצאת כדור אדום בפעם ה‪ ,i-‬כאשר ‪.1 ≤ i ≤ 2‬‬
‫נסו להעריך מראש מי גדול ממי ‪ P (A1 ) -‬או ) ‪.P (A2‬‬
‫נחשב באופן מדויק‪:‬‬
‫‪1‬‬
‫‪11‬‬
‫=‬
‫‪20‬‬
‫‪220‬‬
‫= ) ‪P (A1‬‬
‫‬
‫= ‪P (A2 ) = P (A2 ∩ A1 ) + P A2 ∩ A1‬‬
‫‬
‫‬
‫= ‪= P (A1 ) P (A2 |A1 ) + P A1 P A2 |A1‬‬
‫) ‪= P (A1‬‬
‫‪1‬‬
‫‪11‬‬
‫>‬
‫‪337‬‬
‫‪3663‬‬
‫‪58‬‬
‫=‬
‫‪20‬‬
‫‪222‬‬
‫·‬
‫‪10‬‬
‫‪11‬‬
‫‪+‬‬
‫‪25‬‬
‫‪225‬‬
‫·‬
‫‪1‬‬
‫‪11‬‬
‫=‬
‫דוגמה‪ :‬בכד ‪20‬כדורים לבנים ו‪ 30-‬שחורים‪ .‬מוציאים שני כדורים בזה אחר זה וללא החזרה‪.‬‬
‫מהי ההסתברות למאורע שהראשון לבן והשני שחור?‬
‫נסמן ב‪ A-‬את המאורע שהראשון לבן וב‪ B-‬את המאורע שהשני שחור‪.‬‬
‫בהתאם לסימון זה‪ ,‬אנו מחפשים את ההסתברות )‪.P (A ∩ B‬‬
‫לפי השיטה הקומבינטורית נקבל‪:‬‬
‫‪20 · 30‬‬
‫‪50 · 49‬‬
‫= )‪P (A ∩ B‬‬
‫לפי הגישה של הסתברות מותנה נקבל‪:‬‬
‫‪30‬‬
‫‪49‬‬
‫‪20‬‬
‫‪50‬‬
‫= )‪P (A‬‬
‫= )‪P (B|A‬‬
‫⇓‬
‫‪20 30‬‬
‫‪· 49‬‬
‫‪P (A ∩ B) = 50‬‬
‫טענה‪:‬‬
‫)‪P (A ∩ B ∩ C) = P (A) P (B|A) P (C|A ∩ B‬‬
‫הוכחה‪:‬‬
‫)‪P (A ∩ B ∩ C) = P (C|A ∩ B) P (A ∩ B) = P (C|A ∩ B) P (A) P (B|A‬‬
‫‬
‫נמשיך את הדיון בדוגמה האחרונה‪ ,‬ונניח שמוציאים ‪ 4‬כדורים בזה אחר זה ללא החזרה‪.‬‬
‫נחשב את ההסתברות למאורע שהראשון והשלישי לבנים‪ ,‬והשני והרביעי שחורים‪.‬‬
‫בדרך הקומבינטורית נקבל‪:‬‬
‫!‪20! 30‬‬
‫!‪18! · 28‬‬
‫!‪50‬‬
‫!‪46‬‬
‫באמצעות נוסחת ההסתברות נקבל‪:‬‬
‫‪20 30 19 29‬‬
‫· · ·‬
‫‪50 49 48 47‬‬
‫= )‪P (A ∩ B ∩ C ∩ D) = P (A) P (B|A) P (C|A ∩ B) P (D|A ∩ B ∩ C‬‬
‫דוגמה‪ :‬נתונות שלוש מגירות‪.‬‬
‫במגירה ‪ a‬שני כדורי זהב‪ ,‬במגירה ‪ b‬כדור זהב וכדור כסף‪ ,‬ובמגירה ‪ c‬שני כדורי כסף‪.‬‬
‫בחרנו מגירה באופן מקרי‪ ,‬ואז בחרנו כדור מקרי מאותה מגירה‪ ,‬ונניח שהוצאנו כדור‬
‫כסף‪.‬‬
‫נבדוק את ההסתברות לכך שהכדור השני במגירה הוא כדור זהב‪ .‬כלומר את‬
‫ההסתברות לכך שהמגירה שנבחרה היא מגירה ‪.b‬‬
‫‪59‬‬
‫יתכן ובמחשבה ראשונה תעלה האפשרויות כי בהסתברות‬
‫בנוסחת ההסתברות השלמה‪:‬‬
‫)‪P (b ∩ silver‬‬
‫= )‪P (b|silver‬‬
‫=‬
‫)‪P (silver‬‬
‫‪1‬‬
‫‪3‬‬
‫=‬
‫‪1 1‬‬
‫‪2·3‬‬
‫‪1 1‬‬
‫‪2 1‬‬
‫‪0 1‬‬
‫·‬
‫‪+‬‬
‫‪2 3‬‬
‫‪2·3+2·3‬‬
‫=‬
‫)‪P (silver|b)P (b‬‬
‫‪1‬‬
‫‪2‬‬
‫אין זה כך‪ .‬נשתמש‬
‫)‪P (silver|a)P (a)+P (silver|b)P (b)+P (silver|c)P (c‬‬
‫=‬
‫ניתן לפתור שאלה זו גם באמצעות עץ‪.‬‬
‫דוגמה‪ :‬נתונה אוכלוסייה בה ‪ 5%‬מהפרטים נשאים של נגיף‪ .‬זהו האפריור‪.‬‬
‫בהינתן פרט נשא‪ ,‬בדיקת מעבדה קובעת שהוא אכן נשא בהסתברות של ‪ ,0.9‬וקובעת‬
‫בטעות שהוא לא נשא בהסתברות המשלימה ‪.0.1‬‬
‫בהינתן פרט שאינו נשא‪ ,‬בדיקת המעבדה קובעת שהוא לא נשא בהסתברות של ‪,0.9‬‬
‫וקובעת בטעות שהוא נשא בהסתברות המשלימה ‪.0.1‬‬
‫בהינתן שבדיקת המעבדה קבעה שפרט כלשהו הוא נשא‪ ,‬מהי ההסתברות שהוא‬
‫אכן נשא?‬
‫ייתכן ותשובה פזיזה הייתה קובעת כי ההסתברות היא ‪ ,0.9‬אך אין זה כך‪.‬‬
‫נראה זאת באמצעות עץ‪:‬‬
‫מכאן שההסתברות למאורע שפרט הוא נשא בהינתן שבדיקת המעבדה קבעה שהוא נשא‪,‬‬
‫היא‪:‬‬
‫‪0.045‬‬
‫‪0.05 · 0.9‬‬
‫=‬
‫‪= 0.321‬‬
‫‪0.05 · 0.9 + 0.95 · 0.1‬‬
‫‪0.045 + 0.095‬‬
‫הסבר‪ :‬לפני בדיקת המעבדה )אפריורית( חשבנו שהפרט שנדגם באופן מקרי הוא נשא‬
‫בהסתברות של ‪.0.05‬‬
‫לאחר קבלת התשובה שהוא נשא‪ ,‬עדכנו את ההסתברות )אפוסטריורית( להיות ‪.0.321‬‬
‫נשים לב שההסתברות האפוסטריורית היא פונקציה לא רק של הבדיקה אלא גם של‬
‫ההסתברות האפריורית‪ ,‬ולכן התשובה הפזיזה שגויה‪.‬‬
‫קיבלנו שההסתברות להיות נשא לאור תשובה של בדיקת המעבדה היא רק ‪ .0.321‬זו‬
‫הסתברות נמוכה שלא מצדיקה התחלה של טיפול‪ ,‬ולכן ניתן לזמן את החשודים לבדיקה‬
‫נוספת‪.‬‬
‫נשים לב שנדגם מקרי מתוך הקבוצה שזומנה שוב הוא בעל הסתברות של ‪ 0.321‬להיות נשא‪,‬‬
‫ולכן העץ ייראה כך‪:‬‬
‫‪60‬‬
‫ולכן ההסתברות שפרט הוא נשא לאחר שנבדק פעמיים ובשתי הפעמים קיבלת תשובה חיובית‬
‫היא‪:‬‬
‫‪0.321 · 0.9‬‬
‫‪= 0.81‬‬
‫‪0.321 · 0.9 + 0.679 · 0.1‬‬
‫באופן כללי‪ ,‬ההסתברות שפרט כלשהו הוא נשא‪ ,‬היא‪:‬‬
‫‪p · 0.9‬‬
‫‪p · 0.9 + (1 − p) · 0.1‬‬
‫כאשר ‪ p‬מסמן את ההסתברות שלו להיות נשא טרם ביצוע הבדיקה הנוכחית‪.‬‬
‫בהתאם לזאת נוכל לסמן את ההסתברות שפרט כלשהו הוא נשא לאחר ‪ n‬בדיקות ב‪,pn -‬‬
‫ואז‪:‬‬
‫‪pn · 0.9‬‬
‫= ‪pn+1‬‬
‫‪pn · 0.9 + (1 − pn ) · 0.1‬‬
‫כאשר ‪.p0 = 0.5‬‬
‫ניתן לראות שמדובר בסדרה מונוטונית עולה ב‪ ,n-‬המתכנסת ל‪) 1-‬ולא למשל ל‪,(0.9-‬‬
‫באמצעות העובדה ש‪ 1-‬הוא פתרון המשוואה‪:‬‬
‫‪x · 0.9‬‬
‫‪x · 0.9 + (1 − x) · 0.1‬‬
‫=‪x‬‬
‫כלומר לכל הסתברות ‪ p < 1‬שנבחר קיים ‪ n‬מספיק גדול )דהיינו מספר בדיקות מספיק‬
‫גדול( כך שאם נבדק נמצא ‪ n‬פעמים רצופות נשא‪ ,‬אז ההסתברות שהוא אכן נשא היא‬
‫לפחות ‪.p‬‬
‫דוגמה‪ :‬נתונות שלוש כוסות‪ ,‬ובאחת מהן מניחים מטבע‪.‬‬
‫מהמר מנחש באיזו כוס המטבע נמצא‪ ,‬ולפני שמספרים לו על תוצאות הניחוש שלו‪,‬‬
‫חושפים בפניו כוס ריקה אחת מבין השתיים הנותרות‪.‬‬
‫כעת המהמר יודע שהמטבע נמצא באחת משתי כוסות ‪ -‬זו שבחר מלכתחילה או זו‬
‫שלא נחשפה בפניו‪ ,‬והוא מקבל אפשרות להמר מחדש על אחת משתי הכוסות הללו‪.‬‬
‫האם כדאי למהמר לשנות את ההימור?‬
‫נשים לב שמי שלא משנה את הימורו זוכה במטבע בהסתברות שליש‪ ,‬כי הוא זוכה‬
‫אך ורק אם בחר מלכתחילה את הכוס הנכונה‪ ,‬וההסתברות לכך היא ‪ . 13‬לעומת זאת‬
‫מי שמשנה את הימורו זוכה בהסתברות שני שליש‪ ,‬כי הוא זוכה אך ורק אם בחר‬
‫מלכתחילה את הכוס הלא־נכונה‪ ,‬וההסתברות לכך היא ‪. 23‬‬
‫‪61‬‬
‫‪6.3‬‬
‫שכיחות יחסית מותנה‬
‫שכיחות יחסית יכולה להשתנות כאשר נתון שהתרחש מאורע כלשהו‪.‬‬
‫למשל‪ ,‬נניח שכך מתפלגות יחידות הלימוד במתמטיקה‪ ,‬בבית־ספר של ‪ 60‬בנים ו‪ 40-‬בנות‪:‬‬
‫בנים‬
‫בנות‬
‫‪ׁ 4‬יחידות‬
‫‪30‬‬
‫‪20‬‬
‫‪ 3‬יחידות‬
‫‪10‬‬
‫‪10‬‬
‫‪ 5‬יחידות‬
‫‪20‬‬
‫‪10‬‬
‫נשים לב שהשכיחות היחסית של הבנים משתנה‪ ,‬אם למשל נתון שהפרט נלקח מקבוצה‬
‫מסוימת‪:‬‬
‫‪60‬‬
‫‪100‬‬
‫‪= 0.6‬‬
‫‪= 0.5‬‬
‫‪7‬‬
‫‪10‬‬
‫‪20‬‬
‫= )‪f (boy‬‬
‫= )‪f (boy|3 units‬‬
‫אי־תלות )‪(Independence‬‬
‫הגדרה‪ :‬המאורע ‪ A‬נקרא בלתי־תלוי במאורע ‪ B‬אם מתקיים‪:‬‬
‫)‪P (A|B) = P (A‬‬
‫טענה‪ :‬אם ‪ A‬בלתי־תלוי ב‪ B-‬אז גם ‪ B‬בלתי־תלוי ב‪.A-‬‬
‫הוכחה‪ :‬נתון ש‪ A-‬בלתי־תלוי ב‪ ,B-‬ולכן‪:‬‬
‫)‪P (A∩B‬‬
‫)‪P (B‬‬
‫= )‪P (A) = P (A|B‬‬
‫‪m‬‬
‫)‪P (A) · P (B) = P (A ∩ B‬‬
‫נשים לב שפעולת כפל חילופית‪ ,‬וכן חיתוך מקיים ‪ ,A ∩ B = B ∩ A‬ולכן ניתן להסיק‬
‫שגם ‪ B‬בלתי־תלוי ב‪ .A-‬‬
‫הגדרה כללית‪ :‬נגדיר באופן כללי שהמאורעות ‪ A, B‬בלתי־תלויים אם מתקיים‪:‬‬
‫)‪P (A) · P (B) = P (A ∩ B‬‬
‫הגדרה שקולה‪ :‬נשים לב שההגדרה לאי־תלות שקולה להגדרה הבאה‪:‬‬
‫‬
‫‪P (A|B) = P A|B‬‬
‫‪62‬‬
‫הוכחה‪ :‬לפי נוסחת ההסתברות השלמה מתקיים‪:‬‬
‫‬
‫‬
‫‪P (A) = P (B) P (A|B) + P B P A|B‬‬
‫ולכן אם מתקיים השוויון הנ"ל נוכל להסיק שהוא שקול להגדרה של אי־תלות‪:‬‬
‫‬
‫‬
‫)‪P (A) = P (A|B) P (B) + P B = P (A|B‬‬
‫‬
‫הערה‪ :‬ניתן לראות שכאשר ‪ A, B‬בלתי־תלויים אז גם המשלימים ‪ A, B‬בלתי־תלויים‪:‬‬
‫)‪P (A ∩ B) = P (A) P (B‬‬
‫⇓‬
‫‬
‫‬
‫‬
‫‪1−P A∩B = 1−P A‬‬
‫‪1−P B‬‬
‫‬
‫⇓ ‬
‫‬
‫‬
‫‬
‫‪P A∩B =P A +P B −P A P B‬‬
‫⇓‬
‫‬
‫‬
‫‬
‫‬
‫‬
‫‪P A +P B −P A∩B =P A P B‬‬
‫⇓‬
‫‬
‫‬
‫‬
‫‬
‫‬
‫‪P A +P B −P A∪B =P A P B‬‬
‫⇓ ‬
‫‬
‫‬
‫‪P A∩B =P A P B‬‬
‫המעבר הרביעי נובע מכללי דה־מורגן‪ ,‬והמעבר החמישי נובע מהנוסחה‪:‬‬
‫)‪P (A ∪ B) = P (A) + P (B) − P (A ∩ B‬‬
‫סיכום‪ :‬התנאים הבאים שקולים וכולם מגדירים אי־תלות בין שני מאורעות ‪:A, B‬‬
‫‪P (A|B) = P (A) .1‬‬
‫‪P (B|A) = P (B) .2‬‬
‫‪P (A ∩ B) = P (A) P (B) .3‬‬
‫‬
‫‪P (A|B) = P A|B .4‬‬
‫‪ A, B .5‬בלתי־תלויים‬
‫דוגמה‪ :‬זורקים שתי קוביות הוגנות‪ .‬נגדיר את המאורעות‪:‬‬
‫”‪A = ”even number on the rst‬‬
‫”‪B = ”even number on the second‬‬
‫נשים לב שמתקיים‪:‬‬
‫‪P (A) = P (B) = 0.5‬‬
‫‪1‬‬
‫‪4‬‬
‫= )‪P (A ∩ B‬‬
‫‪63‬‬
‫ולכן נסיק‪:‬‬
‫‪1‬‬
‫)‪= P (A‬‬
‫‪2‬‬
‫=‬
‫‪1‬‬
‫‪4‬‬
‫‪1‬‬
‫‪2‬‬
‫)‪P (A ∩ B‬‬
‫=‬
‫)‪P (B‬‬
‫= )‪P (A|B‬‬
‫מכאן שהמאורעות ‪ A, B‬בלתי־תלויים‪.‬‬
‫נגדיר מאורעות נוספים‪:‬‬
‫”‪C = ”3 on the rst‬‬
‫”‪D = ”the sum is 7‬‬
‫נשים לב שמתקיים‪:‬‬
‫‪1‬‬
‫‪6‬‬
‫= )‪P (C) = P (D‬‬
‫‪1‬‬
‫‪36‬‬
‫= )‪P (C ∩ D‬‬
‫ולכן נסיק‪:‬‬
‫‪1‬‬
‫)‪= P (C‬‬
‫‪6‬‬
‫=‬
‫‪1‬‬
‫‪36‬‬
‫‪1‬‬
‫‪6‬‬
‫)‪P (C ∩ D‬‬
‫=‬
‫)‪P (D‬‬
‫= )‪P (C|D‬‬
‫מכאן שהמאורעות ‪ C, D‬בלתי־תלויים‪.‬‬
‫נגדיר מאורע נוסף‪:‬‬
‫”‪E = ”the sum is 9‬‬
‫נשים לב שמתקיים‪:‬‬
‫‪1‬‬
‫‪9‬‬
‫= )‪P (E‬‬
‫‪1‬‬
‫‪6‬‬
‫>‬
‫‪1‬‬
‫‪4‬‬
‫= )‪P (C|E‬‬
‫‪1‬‬
‫‪9‬‬
‫>‬
‫‪1‬‬
‫‪6‬‬
‫= )‪P (E|C‬‬
‫נשים לב שיש כאן טענה כללית‪ :‬אם )‪ ,P (A|B) > P (A‬אז )‪.P (B|A) > P (B‬‬
‫במילים‪ :‬אם ‪ B‬מגדיל את ההסתברות של ‪ ,A‬אז גם ‪ A‬מגדיל את ההסתברות של ‪.B‬‬
‫הוכחה‪:‬‬
‫)‪P (A)P (B|A‬‬
‫)‪P (B‬‬
‫=‬
‫)‪P (A∩B‬‬
‫)‪P (B‬‬
‫= )‪P (A) < P (A|B‬‬
‫‪m‬‬
‫)‪P (B|A‬‬
‫)‪P (B‬‬
‫<‪1‬‬
‫‪m‬‬
‫)‪P (B) < P (B|A‬‬
‫‪64‬‬
‫הערה‪ :‬נזכור שלפי נוסחת ההסתברות השלמה מתקיים‪:‬‬
‫‬
‫‬
‫‪P (A) = P (B) P (A|B) + P B P A|B‬‬
‫כלומר מבצעים מיצוע משוקלל של ההסתברויות המותנות‪ ,‬לפי החלוקה של מרחב‬
‫ל‪ B-‬ו‪ .B-‬במקרה שבו ‪ A, B‬בלתי־תלויים המשקוללים שווים‪ ,‬כי = )‪P (A|B‬‬
‫המדגם ‬
‫)‪.P A|B = P (A‬‬
‫דוגמה‪ :‬זורקים שתי קוביות הוגנות‪ .‬נגדיר את המאורעות‪:‬‬
‫”‪A = ”even number on the rst‬‬
‫”‪B = ”even number on the second‬‬
‫”‪C = ”the sum is even‬‬
‫נשים לב שמתקיים‪:‬‬
‫‪1‬‬
‫‪2‬‬
‫= )‪P (A) = P (B) = P (C‬‬
‫‪1‬‬
‫‪4‬‬
‫= )‪P (A ∩ B‬‬
‫כמו־כן הראינו לעיל ש‪ A, B-‬בלתי־תלויים‪ ,‬וכן גם ‪ A, C‬בלתי־תלויים וגם ‪.B, C‬‬
‫לעומת זאת מתקיים‪:‬‬
‫‪1‬‬
‫‪1‬‬
‫= )‪= P (A ∩ B ∩ C) = P (A ∩ B) 6= P (A) P (B) P (C‬‬
‫‪4‬‬
‫‪8‬‬
‫כלומר ‪ A, B, C‬בלתי־תלויים בזוגות‪ ,‬אך לא בלתי־תלויים בשלשות‪.‬‬
‫‪m‬‬
‫הגדרה‪ :‬המאורעות ‪ {Ai }i=1‬הם בלתי־תלויים‪ ,‬אם לכל קבוצה חלקית מגודל ‪,1 ≤ k ≤ n ,k‬‬
‫מהצורה ‪ ,Ai1 , Ai2 , ..., Aik‬מתקיים‪:‬‬
‫) ‪P (Ai1 ∩ Ai2 ∩ ... ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · ... · P (Aik‬‬
‫כך למשל שלושת המאורעות ‪ A, B, C‬בלתי־תלויים אם מתקיימים כל התנאים הבאים‪:‬‬
‫‪.1‬‬
‫)‪P (A ∩ B ∩ C) = P (A) P (B) P (C‬‬
‫‪.2‬‬
‫)‪P (A ∩ B) = P (A) P (B‬‬
‫‪65‬‬
‫‪.3‬‬
‫)‪P (A ∩ C) = P (A) P (C‬‬
‫‪.4‬‬
‫)‪P (B ∩ C) = P (B) P (C‬‬
‫דוגמה‪ :‬נניח שכך מתפלגות יחידות הלימוד במתמטיקה‪ ,‬בבית־ספר של ‪ 60‬בנים ו‪ 40-‬בנות‪:‬‬
‫‪ 3‬יחידות‬
‫‪10‬‬
‫‪15‬‬
‫בנים‬
‫בנות‬
‫‪ׁ 4‬יחידות‬
‫‪20‬‬
‫‪30‬‬
‫‪ 5‬יחידות‬
‫‪10‬‬
‫‪15‬‬
‫נשים לב שבדוגמה זו מתקיים‪:‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫=‬
‫=‬
‫‪20‬‬
‫‪40‬‬
‫‪50‬‬
‫‪100‬‬
‫= )‪f (4 units‬‬
‫= )‪f (4 units|boys‬‬
‫ולכן המאורעות "‪ 4‬יחידות" ו"בנים" הם בלתי־תלויים‪.‬‬
‫לכאורה דוגמה זו תומכת בהצעה להגדיר אי־תלות בין מאורעות בהקשר של שכיחות יחסית‬
‫באופן דומה להגדרתה בהקשר של הסתברות‪ .‬אך זה לא כך‪.‬‬
‫נתבונן בהגדרה זו ביחס לשכיחות מותנה‪:‬‬
‫?‬
‫)‪f (A ∩ B‬‬
‫)‪T f (A‬‬
‫)‪f (B‬‬
‫= )‪f (A|B‬‬
‫כדי לקבל שוויון צריכות לקרות התרחשויות נדירות‪.‬‬
‫למשל‪ ,‬נניח שנדגמו ‪ 101‬ילדים‪ ,‬ונרשמו המין והאם הם אוהבים לשתות שוקו‪.‬‬
‫התוצאות שהתקבלו הן‪:‬‬
‫‪61‬‬
‫‪40‬‬
‫‪101‬‬
‫‪not drink cacao‬‬
‫‪drink cacao‬‬
‫‪61 − x‬‬
‫‪x − 11‬‬
‫‪50‬‬
‫‪x‬‬
‫‪51 − x‬‬
‫‪51‬‬
‫‪boys‬‬
‫‪girls‬‬
‫כדי לקבל מצב של אי־תלות בין שתיית שוקו למין בהתאם להגדרה בהקשר של הסתברות‪,‬‬
‫נצטרך שהשכיחות היחסית של שותי השוקו בקרב הבנים תהיה שווה לשכיחות היחסית של‬
‫שותות השוקו בקרב הבנות‪ ,‬ולכן בעצם שווה לשכיחות היחסית של שותי השוקו באוכלוסייה‬
‫הכללית‪.‬‬
‫נבדוק איזה ‪ x‬מקיים את הדרישה‪ ,‬בהתאם לסימון של ‪ x‬כמספר שותי השוקו בקרב הבנים‪:‬‬
‫‪51‬‬
‫‪= 100‬‬
‫⇓‬
‫‪· 61 = 31.11‬‬
‫‪x‬‬
‫‪61‬‬
‫‪51‬‬
‫‪100‬‬
‫=‪x‬‬
‫כמובן לא ייתכן מצב שבו ‪ 31.11‬בנים שותים שוקו‪ ,‬ולכן אין מצב שבו המאורעות הללו‬
‫בלתי־תלויים‪.‬‬
‫‪66‬‬
‫‪7.0.1‬‬
‫דוגמה‪ :‬אוניברסיטת ברקלי‬
‫נתונים לגבי מגישי מועמדות ללימודים וקבלה לפי מין‪ ,‬בשנת ‪:1973‬‬
‫‪1755‬‬
‫‪2771‬‬
‫‪4526‬‬
‫‪woman‬‬
‫‪men‬‬
‫‪557‬‬
‫‪1278‬‬
‫‪1835‬‬
‫‪1198‬‬
‫‪1493‬‬
‫‪2691‬‬
‫‪received‬‬
‫‪not received‬‬
‫מהנתונים הללו נובע ש‪ 44%-‬מהגברים התקבלו בעוד שרק ‪ 30%‬מהנשים התקבלו‪.‬‬
‫נתונים אלה עוררו טענה שקיימת אפליה כנגד נשים באוניברסיטת ברקלי‪.‬‬
‫באופן מפתיע‪ ,‬כאשר בוצע פילוח נוסף של הנתונים לפי חוגי לימוד‪ ,‬התקבלו התוצאות‬
‫הבאות‪:‬‬
‫‪received - women‬‬
‫‪candidates - women‬‬
‫‪received - men‬‬
‫‪candidates - men‬‬
‫‪82‬‬
‫‪68‬‬
‫‪34‬‬
‫‪35‬‬
‫‪24‬‬
‫‪7‬‬
‫‪108‬‬
‫‪25‬‬
‫‪593‬‬
‫‪375‬‬
‫‪393‬‬
‫‪341‬‬
‫‪62‬‬
‫‪63‬‬
‫‪37‬‬
‫‪33‬‬
‫‪28‬‬
‫‪6‬‬
‫‪825‬‬
‫‪560‬‬
‫‪325‬‬
‫‪417‬‬
‫‪191‬‬
‫‪373‬‬
‫‪department‬‬
‫‪A‬‬
‫‪B‬‬
‫‪C‬‬
‫‪D‬‬
‫‪E‬‬
‫‪F‬‬
‫מתגלה שנשים הגישו יותר מועמדויות לחוגים שבהם אחוזי הקבלה נמוכים‪ ,‬ביחס לגברים‬
‫שהגישו יותר מועמדויות לחוגים שבהם אחוזי הקבלה גבוהים‪.‬‬
‫כלומר‪ ,‬הסיבה לפער בין אחוזי הקבלה של נשים וגברים אינו נובע מאפליה על רקע מגדרי‪,‬‬
‫אלא מאופי החוג שאליו הגישו מועמדות הנשים והגברים‪.‬‬
‫נציין רק שתהליך הקבלה הוא לכל מחלקה בנפרד ואין‪ ,‬למשל‪ ,‬צורך להתקבל ראשית‬
‫לאוניברסיטה‪.‬‬
‫‪7.0.2‬‬
‫דוגמה‪ :‬גנטיקה‬
‫נניח שהגן ‪ a‬הוא גן קטלני‪.‬‬
‫באוכלוסייה מסוימת כל פרט מאופיין באמצעות אחד מהמצבים הבאים ‪) AA‬נקי(‪Aa ,‬‬
‫)נשא(‪ ,‬או ‪) aa‬מת ממחלה(‪.‬‬
‫פרופורציית הנשאים ‪ Aa‬מבין הפרטים החיים היא ‪ ,λ‬כך שפרופורציית הנקיים ‪ AA‬היא‬
‫‪.1 − λ‬‬
‫‪2‬‬
‫בהסתברות )‪ (1 − λ‬נקבל שני הורים ‪ ,AA‬כך שגם הצאצא יהיה ‪) AA‬בהסתברות ‪.(1‬‬
‫בהסתברות ‪ λ2‬נקבל שני הורים ‪ ,Aa‬כך שהצאצא יהיה ‪ Aa‬בהסתברות ‪ 0.5‬או ‪AA‬‬
‫בהסתברות ‪ 0.25‬או ‪ aa‬בהסתברות ‪ .0.25‬כלומר ההסתברות שתינוק אקראי יהיה חולה‬
‫וימות )‪ (aa‬היא ‪. 41 λ2‬‬
‫בהסתברות )‪) 2λ (1 − λ‬הכפלנו ב‪ 2-‬כי הסדר משנה( נקבל הורה אחד ‪ AA‬והורה אחד‬
‫‪ ,Aa‬כך שהצאצא יהיה ‪ AA‬בהסתברות ‪ 0.5‬או ‪ Aa‬בהסתברות ‪.0.5‬‬
‫‪67‬‬
‫נבדוק מהי ההסתברות לנשאות כאשר מכליאים בין קרובי־משפחה‪ .‬למשל אח ואחות‪.‬‬
‫נניח שהורי שני בני הזוג הם מקרים‪.‬‬
‫נציג את ההסתברויות באמצעות עץ‪:‬‬
‫החלק העליון של העץ מייצג את ההסתברויות בקרב ההורים של בני הזוג‪ ,‬כפי שחישבנו‬
‫לעיל‪.‬‬
‫ההסתעפויות בהמשך מייצגות את האח והאחות‪.‬‬
‫נגדיר את המאורעות הבאים עבור האח והאחות‪:‬‬
‫”‪A = ”both carriers‬‬
‫”‪B = ”at least one of them died‬‬
‫נחשב את המאורע ששניהם נשאים‪ ,‬בהינתן ששניהם לא מתו‪:‬‬
‫)‪P (A ∩ B‬‬
‫=‬
‫)‪P (B‬‬
‫=‬
‫= )‪P (A|B‬‬
‫‪1‬‬
‫‪1 2‬‬
‫)‪4 λ + 4 ·2λ(1−λ‬‬
‫‪1 2‬‬
‫‪1‬‬
‫‪1‬‬
‫) ‪2 + 1 λ2 + 1 λ(1−λ)+λ(1−λ)+(1−λ2‬‬
‫‪λ‬‬
‫‪+‬‬
‫‪·2λ(1−λ)+‬‬
‫‪λ‬‬
‫‪4‬‬
‫‪4‬‬
‫‪16‬‬
‫‪4‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2λ‬‬
‫‪7‬‬
‫‪λ‬‬
‫‪− 16‬‬
‫‪1‬‬
‫=‬
‫∼ )‪.P (A|B‬‬
‫עבור ‪ λ‬קטן )שזה המקרה הטיפוסי( מתקיים הקירוב ‪= 12 λ‬‬
‫כלומר‪ ,‬ההסתברות לזוג נשאים עולה מ‪ λ2 -‬ל‪ λ2 -‬בקירוב‪.‬‬
‫‪68‬‬
‫=‬
‫חלק ‪V‬‬
‫משתנים מקריים‬
‫הגדרה‪ :‬נתון מרחב מדגם כלשהו ‪.Ω‬‬
‫נאמר ש‪ X-‬הוא משתנה מקרי )מ"מ( אם לכל מאורע פשוט ‪ ω ∈ Ω‬הוא מתאים מספר‬
‫ממשי‪.‬‬
‫הגדרה‪ :‬פונקציית ההתפלגות )או ההסתברות( של משתנה מקרי ‪ ,X‬מגדירה לכל ‪ x‬מספר‬
‫ממשי אחר שמסומן )‪ .P (X = x‬כלומר‪ ,‬זו ההסתברות שהמשתנה המקרי ‪ X‬שווה‬
‫ל‪ x-‬מסוים‪.‬‬
‫נשים לב שהתפלגות של משתנה מקרי מגדירה חלוקה של מרחב המדגם‪ .‬כלומר כל‬
‫הערכים האפשריים השונים של משתנה מקרי מכסים את מרחב המדגם וזרים בזוגות‪.‬‬
‫דוגמה‪ :‬הטלת מטבע פעמיים‪ .‬נסמן‪:‬‬
‫} ‪Ω = {HH, HT, T H, T T‬‬
‫‪X (HH) = 2‬‬
‫‪X (T H) = 1‬‬
‫‪X (HT ) = 1‬‬
‫‪X (T T ) = 0‬‬
‫כלומר‪ ,‬המשתנה המקרי ‪ X‬בדוגמה זו סופר את מספר המופעים של "ראש" בהטלת‬
‫מטבע פעמיים‪.‬‬
‫המשתנה המקרי ‪ X‬מגדיר מאורעות‪ .‬כך למשל ‪ X = 0‬מגדיר את המאורע } ‪,{T T‬‬
‫‪ X = 1‬מגדיר את המאורע } ‪ {T H, HT‬ו‪ X = 0-‬מגדיר את המאורע } ‪.{T T‬‬
‫נשים לב שניתן גם להגדיר } ‪.{X < 2} = {HT, T H, T T‬‬
‫בדוגמה זו נקבל את ההסתברויות של המאורעות הבאים‪:‬‬
‫‪P (X = 2) = 0.25‬‬
‫‪P (X = 1) = 0.5‬‬
‫‪P (X = 0) = 0.25‬‬
‫סכום ההסתברויות הוא בהכרח ‪.1‬‬
‫דוגמה‪ :‬במועצה מקומית ‪ 5‬נציגים‪ .‬ראובן ושמעון ‪ -‬מהליכוד; לוי‪ ,‬יהודה ויששכר ‪ -‬מהעבודה‪.‬‬
‫יש להרכיב ועדה בת שני חברים‪ ,‬וכל שילוב של שניים מהחמישה הוא מאורע אפשרי‬
‫במרחב המדגם‪.‬‬
‫‪69‬‬
‫נגדיר ‪ ,X = number of Likud members in the committee‬ובהתאם להגדרה זו‪:‬‬
‫‪X (Reuven and Shimon) = 2‬‬
‫‪X (Reuven and Levi) = 1‬‬
‫•‬
‫•‬
‫•‬
‫נקבל את ההסתברויות הבאות‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪3‬‬
‫‪10‬‬
‫=‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪1‬‬
‫‪‬‬
‫‪6‬‬
‫‪10‬‬
‫=‬
‫‪‬‬
‫‪2‬‬
‫‪2‬‬
‫‪5‬‬
‫‪2‬‬
‫‪1‬‬
‫‪10‬‬
‫‪‬‬
‫‪‬‬
‫‪7.1‬‬
‫‪‬‬
‫= )‪P (X = 0‬‬
‫‪‬‬
‫‪3‬‬
‫‪1‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪5‬‬
‫‪2‬‬
‫‪‬‬
‫=‬
‫‪3‬‬
‫‪2‬‬
‫‪5‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫= )‪P (X = 1‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫= )‪P (X = 2‬‬
‫‪‬‬
‫פונקציית התפלגות מצטברת‬
‫הגדרה‪ :‬נאמר ש‪ FX (x)-‬היא פונקציית התפלגות מצטברת של המשתנה המקרי ‪ ,X‬אם היא‬
‫מחזירה את ההסתברות ש‪ X-‬קטן או שווה לערך ‪ .x‬כלומר‪:‬‬
‫)‪FX (x) = P (X ≤ x‬‬
‫פונקציה זו היא מונוטונית לא־יורדת כתלות ב‪ ,x-‬כי ערכי הסתברות הם תמיד אי־‬
‫שליליים‪.‬‬
‫תכונות‪:‬‬
‫‪ .1‬מונוטונית לא־יורדת ב‪x-‬‬
‫‪ .2‬רציפה מימין‬
‫‪.3‬‬
‫‪lim FX (x) = 1‬‬
‫∞→‪x‬‬
‫‪lim FX (x) = 0‬‬
‫∞‪x→−‬‬
‫‪70‬‬
‫דוגמה‪ :‬נתבונן בדוגמה שהזכרנו על הטלת מטבע פעמיים‪.‬‬
‫נשרטט את גרף פונקציית ההתפלגות המצטברת של המשתנה המקרי ‪ X‬שמוגדר‬
‫כמספר הפעמים שמתקבל "ראש"‪ .‬מתקיים‪:‬‬
‫‪P (X ≤ 0) = 0.5‬‬
‫‪P (X ≤ 1) = 0.25 + 0.5 = 0.75‬‬
‫‪P (X ≤ 2) = 1‬‬
‫ולכן גרף הפונקציה הוא‪:‬‬
‫‪8‬‬
‫‪8.1‬‬
‫התפלגויות מיוחדות‬
‫התפלגות ברנולי‬
‫)משפחה חד־פרמטרית של התפלגויות(‬
‫מ"מ ‪ X‬ייקרא מפולג ברנולי אם הוא מהצורה ‪ X = 0‬או ‪ ,X = 1‬כאשר ‪P (X = 0) = p‬‬
‫ו‪.P (X = 1) = 1 − p-‬‬
‫מסמנים משתנה מקרי ברנולי )‪.X ∼ B (p‬‬
‫מקרה פרטי של התפלגות זו הוא "אינדיקטור" )או "מציין"( של מאורע כלשהו ‪:A‬‬
‫(‬
‫‪1 ω∈A‬‬
‫= )‪X (ω‬‬
‫‪0 ω∈A‬‬
‫ומכאן )‪.p = P (X = 1) = P (A‬‬
‫‪8.2‬‬
‫התפלגות אחידה‬
‫)משפחה דו־פרמטרית של התפלגויות(‬
‫מ"מ ‪ X‬ייקרא מפולג אחיד על קטע ]‪) [a, b‬עבור ‪ ,(a ≤ b‬כאשר ‪ a, b‬מספרים שלמים כלשהם‬
‫)ייתכן גם שליליים(‪ ,‬אם פונקציית ההסתברות שלו היא‪:‬‬
‫(‬
‫‪1‬‬
‫]‪k ∈ [a, b‬‬
‫‪b−a+1‬‬
‫= )‪P (X = k‬‬
‫‪0‬‬
‫‪otherwise‬‬
‫‪71‬‬
‫)עבור ‪ k‬שלם(‬
‫מסמנים משתנה מקרי אחיד ]‪.X ∼ U [a, b‬‬
‫‪8.3‬‬
‫התפלגות בינומית‬
‫)משפחה דו־פרמטרית של התפלגויות(‬
‫נניח כי ‪ n‬מספר טבעי וכי ‪ p‬שבר כלשהי בקטע ]‪.[0, 1‬‬
‫מ"מ ‪ X‬ייקרא מפולג בינומית עם פרמטרים ‪ ,n, p‬אם עבור כל ‪ k‬שלם‪ ,0 ≤ k ≤ n ,‬פונקציית‬
‫ההסתברות שלו היא‪:‬‬
‫‬
‫‬
‫‪n‬‬
‫‪n−k‬‬
‫= )‪P (X = k‬‬
‫)‪pk (1 − p‬‬
‫‪k‬‬
‫מסמנים משתנה מקרי בינומי )‪.X ∼ Bin (n, p‬‬
‫נוכיח שפונקציה זו אכן מגדירה התפלגות‪:‬‬
‫ראשית ניכר שטווח ערכי הפונקציה הוא מספרים אי־שליליים‪.‬‬
‫שנית‪ ,‬לפי הבינום של ניוטון מתקיים‪:‬‬
‫‬
‫ ‪n‬‬
‫‪X‬‬
‫‪n‬‬
‫‪n−k‬‬
‫‪n‬‬
‫= )‪P (X = k‬‬
‫)‪pk (1 − p‬‬
‫‪= (p + (1 − p)) = 1‬‬
‫‪k‬‬
‫‪k=0‬‬
‫‪n‬‬
‫‪X‬‬
‫‪k=1‬‬
‫הסבר להתפלגות הבינומית‪:‬‬
‫נניח שמנקודת מבטו של מי שבוחן ניסוי מסוים יש שתי תוצאות אפשריות‪ .‬נקרא לתוצאה‬
‫אפשרית אחת "הצלחה" ולאחרת "כישלון"‪.‬‬
‫נניח כי ההסתברות ל"הצלחה" היא ‪ ,p‬ומכאן שההסתברות המשלימה לכישלון היא ‪.1 − p‬‬
‫חוזרים על הניסוי ‪ n‬פעמים באופן בלתי־תלוי‪.‬‬
‫נשים לב שלמשל עבור ‪ n = 3‬נקבל את ההסתברויות‪:‬‬
‫)‪P (failure,success,success) = p2 (1 − p‬‬
‫)‪P (success,success,failure) = p2 (1 − p‬‬
‫במאורעות אלו יש שתי הצלחות וכישלון אחד‪ .‬כך גם בכל המקרים בהם נבחן את ההסתברות‬
‫למאורע הכולל שתי הצלחות בדיוק )ולכן כישלון אחד בדיוק( נקבל את ההסתברות )‪,p2 (1 − p‬‬
‫ללא תלות בסדר‪.‬‬
‫ההסתברות במספר המאורעות האפשריים‪ ,‬שבמקרה‬
‫את‬
‫נכפיל‬
‫משנה‪,‬‬
‫לא‬
‫שהסדר‬
‫אם נחליט‬
‫‬
‫‬
‫‪3‬‬
‫‪ ,‬ולכן ההסתברות לשתי הצלחות בדיוק היא‬
‫של ‪ k = 2 ,n = 3‬הוא ‪= 3‬‬
‫‪2‬‬
‫)‪.3p2 (1 − p‬‬
‫נניח כי ‪ X‬הוא משתנה מקרי שסופר את מספר ההצלחות‪.‬‬
‫הערכים האפשריים של ‪ X‬הם כל השלמים בין ‪ 0‬ל‪.n-‬‬
‫‪72‬‬
‫נניח כי ‪ ,n = 5‬אז נקבל למשל את ההסתברות‪:‬‬
‫‬
‫‬
‫‪5‬‬
‫‪3‬‬
‫= )‪P (X = 2‬‬
‫)‪p2 (1 − p‬‬
‫‪2‬‬
‫‬
‫‬
‫‪5‬‬
‫הוא מספר האפשרויות לסידור של ‪ 2‬הצלחות ב‪ 5-‬ניסויים‪.‬‬
‫כי‬
‫‪2‬‬
‫‪ p2‬היא ההסתברות ל‪ 2-‬הצלחות‪.‬‬
‫‪3‬‬
‫)‪ (1 − p‬היא ההסתברות ל‪ 3-‬כשלונות‪.‬‬
‫וכך נקבל את שאר ההסתברויות לשאר המקרים‪:‬‬
‫‬
‫‬
‫‪5‬‬
‫‪5‬‬
‫‪5‬‬
‫= )‪P (X = 0‬‬
‫)‪p0 (1 − p) = (1 − p‬‬
‫‪0‬‬
‫‪4‬‬
‫‪4‬‬
‫)‪p1 (1 − p) = 5p (1 − p‬‬
‫‪3‬‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‬
‫)‪p2 (1 − p) = 10p2 (1 − p‬‬
‫)‪p3 (1 − p) = 10p3 (1 − p‬‬
‫‪1‬‬
‫)‪p4 (1 − p) = 5p4 (1 − p‬‬
‫‪0‬‬
‫‪p5 (1 − p) = p5‬‬
‫‪8.4‬‬
‫‬
‫‪5‬‬
‫‪5‬‬
‫‪5‬‬
‫‪1‬‬
‫‬
‫= )‪P (X = 1‬‬
‫‬
‫‪5‬‬
‫‪2‬‬
‫‬
‫‬
‫‪5‬‬
‫‪3‬‬
‫‬
‫‬
‫‪5‬‬
‫‪4‬‬
‫= )‪P (X = 2‬‬
‫= )‪P (X = 3‬‬
‫‬
‫= )‪P (X = 4‬‬
‫‬
‫= )‪P (X = 5‬‬
‫התפלגות גאומטרית‬
‫)משפחה חד־פרמטרית של התפלגויות(‬
‫מ"מ ‪ X‬ייקרא מפולג גאומטרית עם פרמטר ‪ p‬אם לכל ‪ k ≥ 1‬שלם פונקציית ההסתברות‬
‫שלו היא‪:‬‬
‫‪k−1‬‬
‫)‪P (X = k) = p (1 − p‬‬
‫מסמנים משתנה מקרי גאומטרי )‪.X ∼ Geo (p‬‬
‫נוכיח שזו פונקציית התפלגות‪.‬‬
‫ברור שהערכים המתקבלים הם חיוביים ממש‪.‬‬
‫נוסחת הסכום של טור הנדסי אינסופי שאיברה הכללי הוא‬
‫‪a‬‬
‫‪1−q‬‬
‫= ‪an‬‬
‫∞‬
‫‪X‬‬
‫‪n=1‬‬
‫‪73‬‬
‫‪ an = aq n−1‬היא‪:‬‬
‫לכן במקרה הנוכחי מתקיים‪:‬‬
‫‪p‬‬
‫‪=1‬‬
‫)‪1 − (1 − p‬‬
‫‪k−1‬‬
‫)‪p (1 − p‬‬
‫=‬
‫∞‬
‫‪X‬‬
‫= )‪P (X = k‬‬
‫∞‬
‫‪X‬‬
‫‪k=1‬‬
‫‪k=1‬‬
‫הסבר להתפלגות הגאומטרית‪:‬‬
‫חוזרים באופן בלתי־תלוי על ניסוי בעל שתי תוצאות אפשריות‪" ,‬הצלחה" ו"כישלון"‪.‬‬
‫ההסתברות להצלחה בכל ניסוי בודד היא ‪ ,p‬כך שההסתברות המשלימה לכישלון היא ‪.1 − p‬‬
‫המ"מ ‪ X‬מוגדר לספור את הניסויים עד וכולל ההצלחה הראשונה‪.‬‬
‫נבדוק מהי ההסתברות שחזרנו על הניסוי ‪ k‬פעמים‪.‬‬
‫מאורע זה משמעותי היא שנכשלנו ‪ k − 1‬פעמים ובפעם האחרונה הצלחנו‪ ,‬ולכן ההסתברות‬
‫היא‬
‫‪p‬‬
‫טענה‪:‬‬
‫‪k−1‬‬
‫)‪P (X = k) = (1 − p‬‬
‫‪k−1‬‬
‫)‪P (X ≥ k) = (1 − p‬‬
‫טענה‪P (X = ∞) = 0 :‬‬
‫נימוק‪:‬‬
‫‪k−1‬‬
‫)‪p (1 − p‬‬
‫∞→‪k−1 k‬‬
‫)‪= (1 − p‬‬
‫‪−→ 0‬‬
‫)‪1 − (1 − p‬‬
‫=‬
‫‪i−1‬‬
‫)‪p (1 − p‬‬
‫∞‬
‫‪X‬‬
‫= )‪P (X ≥ k‬‬
‫‪i=k‬‬
‫המסקנה מכך היא שבהסתברות ‪ ,1‬במוקדם או במאוחר‪ ,‬תופיע הצלחה‪.‬‬
‫‪8.5‬‬
‫התפלגות פואסון‬
‫)משפחה חד־פרמטרית של התפלגויות(‬
‫∼ ‪ e‬וכן‪:‬‬
‫נזכיר‪= 2.718... :‬‬
‫‪= ea‬‬
‫‪+ ... = ex‬‬
‫‪xn‬‬
‫!‪n‬‬
‫‬
‫‪a n‬‬
‫‪n‬‬
‫‪+ ... +‬‬
‫‪x3‬‬
‫‪6‬‬
‫‪lim 1 +‬‬
‫∞→‪n‬‬
‫‪+‬‬
‫‪x2‬‬
‫‪2‬‬
‫‪=1+x+‬‬
‫‪xn‬‬
‫!‪n‬‬
‫∞‬
‫‪X‬‬
‫‪n=0‬‬
‫מ"מ ‪ X‬ייקרא מפולג פואסון עם פרמטר ‪ λ > 0‬אם לכל ‪ k ≥ 0‬שלם פונקציית ההסתברות‬
‫שלו היא‪:‬‬
‫‪λk‬‬
‫!‪k‬‬
‫‪P (X = k) = e−λ‬‬
‫‪74‬‬
‫מסמנים משתנה מקרי פואסוני )‪.X ∼ P ois (λ‬‬
‫נוכיח שזו פונקציית התפלגות‪.‬‬
‫ברור שהערכים המתקבלים הם חיוביים ממש‪.‬‬
‫נחשב את הסכום‪:‬‬
‫∞‬
‫‪X λk‬‬
‫‪λk‬‬
‫‪= e−λ‬‬
‫‪= e−λ eλ = 1‬‬
‫!‪k‬‬
‫!‪k‬‬
‫‪k=0‬‬
‫‪e−λ‬‬
‫∞‬
‫‪X‬‬
‫= )‪P (X = k‬‬
‫∞‬
‫‪X‬‬
‫‪k=0‬‬
‫‪k=0‬‬
‫הסבר להתפלגות פואסון‪:‬‬
‫נראה שהתפלגות פואסון היא קירוב להתפלגות הבינומית‪.‬‬
‫נניח שנתון מ"מ )‪ .X ∼ Bin (n, p‬ניתן לראות שמתקיים‪:‬‬
‫‬
‫‬
‫‪n‬‬
‫‪n−k−1‬‬
‫‪k+1‬‬
‫)‪pk+1 (1 − p‬‬
‫‪n−k‬‬
‫‪p‬‬
‫)‪P (X = k + 1‬‬
‫· ‬
‫=‬
‫ =‬
‫·‬
‫‪n−k‬‬
‫)‪P (X = k‬‬
‫‪k+1 1−p‬‬
‫‪n‬‬
‫)‪pk (1 − p‬‬
‫‪k‬‬
‫נסמן ‪ ,λ = np‬ונשים לב שמתקיים‪:‬‬
‫‪n−k‬‬
‫‪p‬‬
‫‪np − kp‬‬
‫‪λ‬‬
‫)‪P (X = k + 1‬‬
‫=‬
‫·‬
‫=‬
‫→‪−‬‬
‫)‪P (X = k‬‬
‫‪k+1 1−p‬‬
‫‪(k + 1) (1 − p) n→∞ k + 1‬‬
‫‪p→0‬‬
‫)‪· P (X = k‬‬
‫‪λ‬‬
‫‪k+1‬‬
‫⇓‬
‫→‪P (X = k + 1) −‬‬
‫∞→‪n‬‬
‫‪p→0‬‬
‫בעזרת תוצאה זו ניתן להסיק כי‬
‫‪λ‬‬
‫‪λ3 −λ‬‬
‫∼ )‪P (X = 3‬‬
‫‪·e‬‬
‫= )‪= · P (Y = 2‬‬
‫‪3‬‬
‫!‪3‬‬
‫וכן הלאה‪ ,‬כך שבאינדוקציה נסיק כי מתקיים‪:‬‬
‫‪λk −λ‬‬
‫‪e‬‬
‫!‪k‬‬
‫= )‪P (X = k‬‬
‫נשים לב עוד שמתקיים עבור ההתפלגות הבינומית‪:‬‬
‫‬
‫‪n‬‬
‫‪λ‬‬
‫‪n−0‬‬
‫‪n‬‬
‫‪0‬‬
‫)‪p (1 − p‬‬
‫‪= (1 − p) = 1 −‬‬
‫‪−→ e−λ‬‬
‫∞→‪n‬‬
‫‪n‬‬
‫‪75‬‬
‫‬
‫‪n‬‬
‫‪0‬‬
‫‬
‫= )‪P (X = 0‬‬
‫נסמן )‪ ,Y ∼ P oi (λ) = P ois (np‬ונסיק באינדוקציה שמתקיים עבור )‪:X ∼ Bin (n, p‬‬
‫∼‬
‫)‪= λe−λ = P (Y = 1‬‬
‫)‪· e−λ = P (Y = 2‬‬
‫‪λ2‬‬
‫‪2‬‬
‫∼‬
‫=‬
‫‬
‫‪λ n−2‬‬
‫‪n‬‬
‫‬
‫‪λ n−1‬‬
‫‪n‬‬
‫‪1−‬‬
‫‪=λ 1−‬‬
‫‬
‫‪λ 2‬‬
‫‪n‬‬
‫·‬
‫‪n−1‬‬
‫)‪n(n−1‬‬
‫‪2‬‬
‫)‪P (X = 1) = np (1 − p‬‬
‫=‬
‫‪n−2‬‬
‫)‪p2 (1 − p‬‬
‫‬
‫‪n‬‬
‫‪2‬‬
‫‬
‫= )‪P (X = 2‬‬
‫•‬
‫•‬
‫•‬
‫כלומר‪ ,‬עבור ‪ n‬מספיק גדול‪ ,‬ניתן לקרב באמצעות התפלגות פואסון את ההתפלגות הבינומית‪.‬‬
‫דוגמה‪ :‬נניח כי )‪ .X ∼ Bin (1000, 0.002‬נרצה לבדוק מהו ערכו של )‪.P (X = 3‬‬
‫הערך המדויק בהתאם להגדרת ההתפלגות הבינומית הוא‪:‬‬
‫‬
‫‬
‫‪1000‬‬
‫‪997‬‬
‫= )‪P (X = 3‬‬
‫)‪0.0023 · (1 − 0.002‬‬
‫‪= 0.18062...‬‬
‫‪3‬‬
‫נשים לב שבמקרה זה ‪ ,np = 1000 · 0.002 = 2‬ולכן לפי הקירוב הפואסוני נקבל‪:‬‬
‫‪23‬‬
‫‪= 0.18044...‬‬
‫∼ )‪P (X = 3‬‬
‫· ‪= e−2‬‬
‫!‪3‬‬
‫קיבלנו קירוב מדויק עד שלוש ספרות לאחר הנקודה‪.‬‬
‫כלומר‪ ,‬ככל ש‪ n-‬גדול ו‪ p-‬קטן‪ ,‬אין חשיבות לערכם המדויק של ‪ n, p‬ומספיק לדעת את‬
‫מכפלתם כדי לקבל ערך מקורב‪.‬‬
‫‪8.6‬‬
‫התפלגות בינומית שלילית‬
‫)משפחה דו־פרמטרית של התפלגויות(‬
‫מ"מ ‪ X‬ייקרא בעלת התפלגות בינומית שלילית עם הפרמטרים ‪ r ≥ 1 ,0 > p < 1‬שלם‪ ,‬אם‬
‫פונקציית ההסתברות שלו היא‪:‬‬
‫‬
‫‬
‫‪k−1‬‬
‫‪k−r‬‬
‫= )‪P (X = k‬‬
‫)‪pr (1 − p‬‬
‫‪, k≥r‬‬
‫‪r−1‬‬
‫מסמנים משתנה מקרי מפולג בינומית שלילית )‪.X ∼ N B (r, p‬‬
‫)לא נוכיח במסגרת זו שזו אכן פונקציית התפלגות‪(.‬‬
‫הסבר להתפלגות הבינומית השלילית‪:‬‬
‫נניח שמבצעים ניסוי עם שתי תוצאות אפשריות‪" ,‬הצלחה" בהסתברות ‪ p‬ו"כישלון" בהסתברות‬
‫‪.1 − p‬‬
‫חוזרים על הניסוי באופן בלתי־תלוי עד וכולל ההצלחה ה‪.r-‬‬
‫נבדוק מהי ההסתברות שיידרשו בדיוק ‪ k‬ניסיונות כדי להגיע להצלחה ה‪?r-‬‬
‫ברור שהסתברות זו היא ‪ 0‬עבור כל ‪ k‬המקיים ‪ ,k < r‬כי לא ניתן להגיע ל‪ r-‬הצלחות אם‬
‫ביצענו פחות מ‪ r-‬ניסויים‪ .‬לכן נניח מעתה כי ‪.k ≥ r‬‬
‫נסמן ב‪ X-‬את המ"מ שסופר את מספר הניסיונות‪.‬‬
‫‪76‬‬
‫‪k−r‬‬
‫)‪ pr (1 − p‬הוא ההסתברות לכל סדרה באורך ‪ k‬שכוללת בדיוק ‪ k‬הצלחות‪.‬‬
‫הביטוי‬
‫כמה סדרות כאלו קיימות?‬
‫מתוך שאר ‪k − 1‬‬
‫הניסיון האחרון‪ ,‬דהיינו הניסיון ה‪ ,k-‬הוא בהכרח הצלחה‪ .‬לכן נותרלבחור ‬
‫‪k−1‬‬
‫‪.‬‬
‫הניסיונות את מיקומן של ‪ r − 1‬הצלחות‪ ,‬ולכן קיבלנו את הגודל‬
‫‪r−1‬‬
‫‪8.7‬‬
‫התפלגות היפר־גאומטרית‬
‫)משפחה תלת־פרמטרית של התפלגויות(‬
‫מ"מ ‪ X‬ייקרא בעלת התפלגות היפר־גאומטרית עם הפרמטרים ‪ ,n, a, b‬כולם שלמים‪ ,‬אם‬
‫פונקציית ההסתברות שלו היא‪:‬‬
‫‬
‫‬
‫‬
‫‪a‬‬
‫‪b‬‬
‫‪k‬‬
‫‪n−k‬‬
‫‬
‫‬
‫‪n−b≤k ≤a‬‬
‫= )‪P (X = k‬‬
‫‪a+b‬‬
‫‪n‬‬
‫מסמנים משתנה מקרי מפולג היפר־גאומטרית )‪.X ∼ HG (n, a, b‬‬
‫הסבר להתפלגות ההיפר־גאומטרית‪:‬‬
‫נניח שנתונים ‪ a‬עצמים מסוג ‪ A‬ו‪ b-‬עצמים מסוג ‪.B‬‬
‫נגדיר את הבחירה בעצם מסוג ‪ A‬כ"הצלחה"‪ ,‬כך שההסתברות היא‪:‬‬
‫‪a‬‬
‫‪b‬‬
‫=‪1−p‬‬
‫‪a+b‬‬
‫‪a+b‬‬
‫=‪p‬‬
‫נגדיר את המ"מ ‪ X‬להיות מספר העצמים מסוג ‪ A‬שנדגום‪.‬‬
‫שמוציאים ‪ n‬עצמים באופן אקראי מתוך כלל העצמים עם החזרה‪ ,‬כמובן ∼ ‪X‬‬
‫נניח‬
‫‬
‫‬
‫‪a‬‬
‫‪.Bin n, a+b‬‬
‫כעת נניח שמוציאים את העצמים ללא החזרה‪ .‬כמובן מניחים ‪.n ≤ a + b‬‬
‫נראה שההסתברות להוציא בדיוק ‪ k‬עצמים מסוג ‪ 0 ≤ k ≤ n ,A‬שלם‪ ,‬היא ההסתברות‬
‫ההיפר־גאומטרית שהגדרנו‪.‬‬
‫המכנה מציין את מרחב המדגם‪ ,‬כלומר את כל האפשרויות לבחור ‪ n‬עצמים מתוך ‪.a + b‬‬
‫במונה‪ ,‬האיבר הראשון הוא מספר הדרכים לבחור ‪ k‬עצמים מתוך ‪ ,a‬והאיבר השני הוא‬
‫מספר הדרכים לבחור את שאר האיברים מתוך ‪ n − k‬האיברים הנותרים‪ .‬כופלים את שני‬
‫האיברים כדי לקבל את שני האירועים יחד‪.‬‬
‫נשים לב כי אם התנאי הכפול ‪ n − b ≤ k ≤ a‬לא מתקיים‪ ,‬ההסתברות הזו שווה ל‪.0-‬‬
‫נוכיח שזו אכן פונקציית הסתברות‪.‬‬
‫ראשית קל לראות שכל הערכים שמתקבלים חיוביים‪.‬‬
‫נחשב את סכום ההסתברויות‪ ,‬ולשם כך נשים לב שלאחר העברת אגפים מספיק להוכיח‪:‬‬
‫‬
‫ ‬
‫‬
‫ ‪n‬‬
‫‪X‬‬
‫‪a‬‬
‫‪b‬‬
‫‪a+b‬‬
‫=‬
‫‪k‬‬
‫‪n−k‬‬
‫‪n‬‬
‫‪k=0‬‬
‫נזכור‪:‬‬
‫‪a+b‬‬
‫‪b‬‬
‫‪a‬‬
‫)‪(x + 1) (x + 1) = (x + 1‬‬
‫‪77‬‬
‫ולכן נסיק‪:‬‬
‫‪xn‬‬
‫‬
‫ ‪a+b‬‬
‫‪X‬‬
‫‪a+b‬‬
‫‪n‬‬
‫= ‪xj‬‬
‫‬
‫‪n=0‬‬
‫ ‪b‬‬
‫‪X‬‬
‫‪b‬‬
‫‪j‬‬
‫‪xi‬‬
‫‬
‫‪j=0‬‬
‫‪a‬‬
‫‪i‬‬
‫ ‪a‬‬
‫‪X‬‬
‫‪i=0‬‬
‫מאחר והמקדמים של ‪ xk‬בשני האגפים זהים‪ ,‬לכל ‪ ,0 ≤ k ≤ a + b‬נסיק‪:‬‬
‫‬
‫ ‬
‫‬
‫ ‪a‬‬
‫‪X‬‬
‫‪a‬‬
‫‪b‬‬
‫‪a+b‬‬
‫=‬
‫‪i‬‬
‫‪n−i‬‬
‫‪n‬‬
‫‪i=0‬‬
‫במחוברים שבהם ‪ n − i ≥ b‬יש לקרוא את האיבר כ‪.0-‬‬
‫‪9‬‬
‫‪9.1‬‬
‫מדדי מרכז של משתנים מקריים‬
‫תוחלת של משתנה מקרי )‪Expected value‬‬
‫(‬
‫הגדרה‪ :‬יהי ‪ X‬מ"מ כלשהו עם פונקציית ההתפלגות )‪.P (X = x‬‬
‫התוחלת של ‪ X‬מוגדרת ומסומנת להיות‪:‬‬
‫‪X‬‬
‫= )‪E (X‬‬
‫)‪x · P (X = x‬‬
‫‪x‬‬
‫דוגמה‪ :‬נניח כי ]‪ ,A ∼ U [1, 6‬כך שפונקציית ההתפלגות היא‪:‬‬
‫‪6‬‬
‫‪5‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪X‬‬
‫)‪P (X = x‬‬
‫נחשב את התוחלת‪:‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪E (X) = 1 · + 2 · + 3 · + 4 · + 5 · + 6 · = 3.5‬‬
‫‪6‬‬
‫‪6‬‬
‫‪6‬‬
‫‪6‬‬
‫‪6‬‬
‫‪6‬‬
‫קיבלנו ערך שנמצא בדיוק באמצע שני ערכי הקיצון של ‪.X‬‬
‫אם היינו משנים את המשקל של כל ערך‪ ,‬ומגדירים את פונקציית ההתפלגות כך‪:‬‬
‫‪6‬‬
‫‪5‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪6‬‬
‫‪3‬‬
‫‪12‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪12‬‬
‫‪1‬‬
‫‪6‬‬
‫‪X‬‬
‫)‪P (X = x‬‬
‫היינו מקבלים את התוחלת הבאה‪:‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪3‬‬
‫‪1‬‬
‫‪1‬‬
‫· ‪E (X) = 1 · + 2‬‬
‫·‪+3· +4· +5‬‬
‫‪+ 6 · > 3.5‬‬
‫‪6‬‬
‫‪12‬‬
‫‪6‬‬
‫‪6‬‬
‫‪12‬‬
‫‪6‬‬
‫כלומר‪ ,‬התוחלת גדלה כי העברנו משקל רב יותר לערך יחסית גדול‪.‬‬
‫התוחלת היא ערך שלוקח בחשבון לא רק את הערכים האפשריים אלא גם את המשקל של‬
‫כל אחד מהם‪ .‬כלומר את ההסתברות שכל אחד מהם יתרחש‪ .‬התוחלת מהווה מעין סיכום‬
‫כללי של המשתנה‪.‬‬
‫התוחלת משמרת את התכונות שראינו לגבי הממוצע‪ .‬כך למשל היא משמרת את יחידות‬
‫המדידה‪ ,‬וכן‪:‬‬
‫)‪E (a + bX) = a + bE (X‬‬
‫‪78‬‬
‫‪9.1.1‬‬
‫תוחלת של מ"מ ברנולי‬
‫‪X ∼ B (p) , E (X) = p‬‬
‫‪1‬‬
‫‪p‬‬
‫‪0‬‬
‫‪1−p‬‬
‫‪x‬‬
‫)‪P (X = x‬‬
‫הוכחה‪ :‬נחשב לפי הגדרת התוחלת‪:‬‬
‫‪E (X) = 0 · (1 − p) + 1 · p = p‬‬
‫‬
‫הערה‪ :‬נשים לב שמתקיים )‪.X ∼ B (p) ⇔ X ∼ Bin (1, p‬‬
‫‪9.1.2‬‬
‫תוחלת של מ"מ אחיד‬
‫‪b−a‬‬
‫‪2‬‬
‫‪b‬‬
‫‪b−1‬‬
‫‪b−2‬‬
‫‪1‬‬
‫‪b−a+1‬‬
‫‪1‬‬
‫‪b−a+1‬‬
‫‪1‬‬
‫‪b−a+1‬‬
‫= )‪X ∼ U (a, b) , E (X‬‬
‫‪...‬‬
‫‪...‬‬
‫‪a+2‬‬
‫‪a+1‬‬
‫‪a‬‬
‫‪1‬‬
‫‪b−a+1‬‬
‫‪1‬‬
‫‪b−a+1‬‬
‫‪1‬‬
‫‪b−a+1‬‬
‫‪x‬‬
‫)‪P (X = x‬‬
‫הוכחה‪ :‬נסמן ‪ m = b − a‬ונחשב לפי הגדרת התוחלת‪:‬‬
‫‪1‬‬
‫=‬
‫‪m+1‬‬
‫·‪k‬‬
‫‪m+1‬‬
‫‪X‬‬
‫= )‪k · P (X = k‬‬
‫‪k=1‬‬
‫‪m+1‬‬
‫‪X‬‬
‫= )‪E (X‬‬
‫‪k=1‬‬
‫‪m+1‬‬
‫‪X‬‬
‫‪1‬‬
‫‪1‬‬
‫)‪m (m + 1‬‬
‫‪m‬‬
‫‪b−a‬‬
‫·‬
‫=‪k‬‬
‫·‬
‫=‬
‫=‬
‫‪m+1‬‬
‫‪m+1‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪k=1‬‬
‫‬
‫‪9.1.3‬‬
‫תוחלת של מ"מ בינומי‬
‫‪X ∼ Bin (n, p) , E (X) = np‬‬
‫‪79‬‬
‫=‬
‫הוכחה‪ :‬נחשב לפי הגדרת התוחלת )שימו לב לאינדקסים(‪:‬‬
‫!‪n‬‬
‫‪n−k‬‬
‫)‪· pk (1 − p‬‬
‫=‬
‫!)‪k! (n − k‬‬
‫·‪k‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪k · P (X = k‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪E (X‬‬
‫‪k=0‬‬
‫‪k=0‬‬
‫!)‪(n − 1‬‬
‫)‪n−1−(k−1‬‬
‫)‪· pk−1 (1 − p‬‬
‫=‬
‫!))‪(k − 1)! (n − 1 − (k − 1‬‬
‫!)‪(n − 1‬‬
‫‪n−1−k‬‬
‫)‪· pk (1 − p‬‬
‫‪= np‬‬
‫!)‪k! (n − 1 − k‬‬
‫‪n‬‬
‫‪X‬‬
‫‪n‬‬
‫‪X‬‬
‫· ‪= np‬‬
‫‪k=1‬‬
‫· ‪= np‬‬
‫‪k=0‬‬
‫!)‪(n−1‬‬
‫השוויון האחרון נובע מכך שהביטוי ‪·pk−1 (1−p)n−1−k‬‬
‫!)‪ nk=0 k!(n−1−k‬הוא סכום ההסתברויות‬
‫של מ"מ )‪ ,Y ∼ Bin (n − 1, p‬ולכן מהגדרת פונקציית התפלגות של מ"מ זה שווה ‪.1‬‬
‫‬
‫‪P‬‬
‫‪9.1.4‬‬
‫תוחלת של מ"מ פואסון‬
‫‪X ∼ P ois (λ) , E (X) = λ‬‬
‫הוכחה‪ :‬נחשב לפי הגדרת התוחלת‪:‬‬
‫‪λk‬‬
‫=‬
‫!‪k‬‬
‫· ‪k · e−λ‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪k · P (X = k‬‬
‫‪k=1‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪E (X‬‬
‫‪k=0‬‬
‫‪n‬‬
‫‪X‬‬
‫‪λk−1‬‬
‫‪λk‬‬
‫·‪=λ‬‬
‫· ‪e−λ‬‬
‫‪=λ‬‬
‫!)‪(k − 1‬‬
‫!)‪(k − 1‬‬
‫‪k=0‬‬
‫· ‪e−λ‬‬
‫‪n‬‬
‫‪X‬‬
‫=‬
‫‪k=1‬‬
‫‪λk−1‬‬
‫!)‪ nk=0 e−λ · (k−1‬הוא סכום ההסתברויות של מ"מ‬
‫השוויון האחרון נובע מכך שהביטוי‬
‫)‪ ,Y ∼ P ois (λ‬ולכן מהגדרת פונקציית התפלגות של סכום מ"מ זה שווה ל‪ .1-‬‬
‫‪P‬‬
‫‪9.1.5‬‬
‫תוחלת של מ"מ גאומטרי‬
‫‪1‬‬
‫‪p‬‬
‫= )‪X ∼ Geo (p) , E (X‬‬
‫‪80‬‬
‫הוכחה ראשונה‪ :‬נחשב לפי הגדרת התוחלת‪:‬‬
‫‪2‬‬
‫‪= 0 + p + 2p (1 − p) + 3p (1 − p) + ...‬‬
‫‪k−1‬‬
‫)‪k · p (1 − p‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪k · P (X = k‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪E (X‬‬
‫‪k=1‬‬
‫‪k=1‬‬
‫⇓‬
‫‬
‫‬
‫‪2‬‬
‫‪(1 − p) E (X) = (1 − p) p + 2p (1 − p) + 3p (1 − p) + ...‬‬
‫⇓‬
‫‪2‬‬
‫‪3‬‬
‫‪(1 − p) E (X) = p (1 − p) + 2p (1 − p) + 3p (1 − p) ...‬‬
‫⇓‬
‫‬
‫‬
‫‪3‬‬
‫‪2‬‬
‫‪p · E (X) = E (X) − p (1 − p) + 2p (1 − p) + 3p (1 − p) ...‬‬
‫ ⇓‬
‫‬
‫‬
‫‪2‬‬
‫‪2‬‬
‫‪3‬‬
‫‪p · E (X) = p + 2p (1 − p) + 3p (1 − p) + ... − p (1 − p) + 2p (1 − p) + 3p (1 − p) ...‬‬
‫⇓‬
‫‪2‬‬
‫‪3‬‬
‫‪p · E (X) = p + p (1 − p) + p (1 − p) + p (1 − p) + ... = 1‬‬
‫⇓‬
‫‪E (X) = p1‬‬
‫השוויון הלפני־אחרון נובע מכך שהביטוי ‪ nk=0 p(1−p)k‬הוא סכום ההסתברויות של‬
‫מ"מ )‪ ,Y ∼ Geo (λ‬ולכן מהגדרת התפלגות של סכום מ"מ זה שווה ל‪ .1-‬‬
‫‪P‬‬
‫• נוכיח באופן נוסף שזו התוחלת של מ"מ גאומטרי‪ ,‬ולצורך כך נוכיח טענת־עזר‪.‬‬
‫טענת־עזר‪ :‬אם ‪ X‬מ"מ שלם ואי־שלילי‪ ,‬אז‪:‬‬
‫)‪P (X ≥ k‬‬
‫∞‬
‫‪X‬‬
‫= )‪E (X‬‬
‫‪k=1‬‬
‫נימוק‪ :‬נסמן ‪ P (X = x) = px‬ונקבל לפי הגדרת התוחלת‪:‬‬
‫‪k · P (X = k) = p1 + 2p2 + 3p3 + 4p4 + ...‬‬
‫∞‬
‫‪X‬‬
‫= )‪E (X‬‬
‫‪k=1‬‬
‫נתבונן בסכום שקיבלנו באופן הבא‪:‬‬
‫‪+...‬‬
‫‪+...‬‬
‫‪+...‬‬
‫‪+...‬‬
‫‪.‬‬
‫‪..‬‬
‫‪+ p4‬‬
‫‪+ p4‬‬
‫‪+ p4‬‬
‫‪p4‬‬
‫‪+ p3‬‬
‫‪+ +p3‬‬
‫‪p3‬‬
‫‪+ p2‬‬
‫‪p2‬‬
‫‪≥ 1) = p1‬‬
‫= )‪≥ 2‬‬
‫= )‪≥ 3‬‬
‫= )‪≥ 4‬‬
‫‪..‬‬
‫‪.‬‬
‫‪(X‬‬
‫‪(X‬‬
‫‪(X‬‬
‫‪(X‬‬
‫‪P‬‬
‫‪P‬‬
‫‪P‬‬
‫‪P‬‬
‫נשים לב שזה בדיוק אותו סכום שהצגנו‪P‬לעיל לפי הגדרת התוחלת‪ ,‬ולכן התוחלת‬
‫∞‬
‫ניתנת להצגה כסכום )‪. k=1 P (X ≥ k‬‬
‫‪81‬‬
‫הוכחה שנייה‪ :‬ראינו לעיל בהתפלגות הגאומטרית‪ ,‬שמתקיים‬
‫עבור ‪.k ≥ 1‬‬
‫נסיק‪:‬‬
‫‪1‬‬
‫‪1‬‬
‫=‬
‫)‪1 − (1 − p‬‬
‫‪p‬‬
‫=‬
‫‪k−1‬‬
‫)‪(1 − p‬‬
‫∞‬
‫‪X‬‬
‫‪k−1‬‬
‫)‪,P (X ≥ k) = (1 − p‬‬
‫= )‪P (X ≥ k‬‬
‫‪k=1‬‬
‫∞‬
‫‪X‬‬
‫= )‪E (X‬‬
‫‪k=1‬‬
‫השוויון השלישי נובע מנוסחת הסוכם של טור הנדסי‪ ,‬שאיברו הראשון הוא ‪ 1‬ומנת‬
‫הטור היא ‪ .1 − p‬‬
‫תוחלת של מ"מ בינומי שלילי‬
‫‪9.1.6‬‬
‫‪r‬‬
‫‪p‬‬
‫= )‪X ∼ N B (r, p) E (X‬‬
‫הוכחה לכך נראה בהמשך‪.‬‬
‫תוחלת של מ"מ היפר־גאומטרי‬
‫‪9.1.7‬‬
‫‪a‬‬
‫‪a+b‬‬
‫· ‪X ∼ HG (n, a, b) E (X) = n‬‬
‫הוכחה לכך נראה בהמשך‪.‬‬
‫‪9.2‬‬
‫שכיח‬
‫הגדרה‪ :‬השכיח של מ"מ הוא הערך ‪ x‬שמקבל את ההסתברות הגבוהה ביותר‪ .‬כלומר‬
‫})‪.argmax {P (X = x‬‬
‫‪x‬‬
‫‪9.2.1‬‬
‫שכיח של מ"מ ברנולי‬
‫נניח כי )‪) X ∼ Bin (1, p‬למעשה זהו מ"מ ברנולי(‪ ,‬נקבל‪:‬‬
‫(‬
‫‪1 p > 21‬‬
‫= ‪Mode‬‬
‫‪0 p < 12‬‬
‫במקרה‬
‫‪9.2.2‬‬
‫‪1‬‬
‫‪2‬‬
‫= ‪ p‬שני הערכים שכיחים באותה מידה ולכן שניהם שכיחים‪.‬‬
‫שכיח של מ"מ פואסון‬
‫נוכיח שהשכיח של מ"מ )‪ X ∼ P ois (λ‬הוא ‪) bλc‬הערך השלם(‪.‬‬
‫‪82‬‬
‫נתון כי ‪ k ≥ 0‬וכן נשים לב לקשר שבין ‪ pk‬ל‪:pk−1 -‬‬
‫‪λk‬‬
‫‪λk−1‬‬
‫‪λ‬‬
‫‪λ‬‬
‫· ‪= e−λ‬‬
‫· ‪· = pk−1‬‬
‫!‪k‬‬
‫‪(k − 1)! k‬‬
‫‪k‬‬
‫· ‪pk = e−λ‬‬
‫נסיק שכאשר ‪ λk > 1‬אז ‪ ,pk > pk−1‬וכאשר ‪ λk < 1‬אז ‪.pk < pk−1‬‬
‫מכאן ש‪ pk -‬כפונקציה של ‪ ,k‬בתחילה עולה ואח"כ יורדת‪.‬‬
‫השכיח הוא ה‪ k-‬האחרון שעבורו ‪ .pk−1 < pk‬כלומר ה‪ k-‬האחרון שעבורו ‪ ,λ > k‬משמע‬
‫הערך השלם של ‪ .λ‬‬
‫‪9.2.3‬‬
‫שכיח של מ"מ בינומי‬
‫נוכיח שהשכיח של מ"מ )‪ X ∼ Bin (n, p‬הוא ‪.b(n + 1) pc‬‬
‫נשים לב לקשר שבין ‪ pk‬ל‪:pk−1 -‬‬
‫=‬
‫‪(n−k+1)p‬‬
‫)‪k(1−p‬‬
‫· ‪= pk−1‬‬
‫‪n−k‬‬
‫)‪· pk (1 − p‬‬
‫‪(n−k+1)p‬‬
‫)‪k(1−p‬‬
‫·‬
‫!‪n‬‬
‫!)‪k!(n−k‬‬
‫‪n−k+1‬‬
‫= ‪pk‬‬
‫)‪· pk−1 (1 − p‬‬
‫!‪n‬‬
‫!)‪(k−1)!(n−k+1‬‬
‫כמו־כן מתקיים‪:‬‬
‫)‪(n + 1) p > k ⇔ (n − k + 1) p > k (1 − p‬‬
‫ולכן נקבל שכאשר ‪ (n + 1) p > k‬אז ‪ ,pk > pk−1‬וכאשר ‪ (n + 1) p < k‬אז ‪.pk < pk−1‬‬
‫מכאן ש‪ pk -‬כפונקציה של ‪ ,k‬בתחילה עולה ואח"כ יורדת )פונקציה יונימודלית(‪.‬‬
‫השכיח הוא ה‪ k-‬האחרון שעבורו ‪ .pk−1 < pk‬כלומר ה‪ k-‬האחרון שעבורו ‪,(n + 1) p > k‬‬
‫משמע הערך השלם של ‪ .(n + 1) p‬‬
‫‪9.2.4‬‬
‫שכיח של מ"מ גאומטרי‬
‫מ"מ גאומטרי הוא דוגמה למקרה בו משמעותו של השכיח כמדד מרכזי היא בעייתית‪.‬‬
‫נוכיח שעבור מ"מ )‪ X ∼ Geo (p‬השכיח הוא ‪ ,1‬ללא כל תלות ב‪.p-‬‬
‫‪k−1‬‬
‫)‪.pk = p (1 − p‬‬
‫נשים לב שמתקיים‬
‫פונקציה זו מונוטונית יורדת ב‪ ,k-‬ולכן הערך המקסימלי מתקבל עבור ‪ ,1‬ללא קשר לערכו‬
‫של ‪.p‬‬
‫‪9.3‬‬
‫תוחלת של פונקציות של משתנים מקריים‬
‫נניח כי ‪ X‬מ"מ כלשהו‪ ,‬ונניח כי ‪ f‬היא פונקציה של ‪.X‬‬
‫כלומר דוגמים מ"מ‪ ,‬מפעילים עליו את ‪ f‬ומתייחסים לתוצאה שהתקבלה‪ ,‬שנסמן )‪.f (X‬‬
‫נשים לב שהערך שמתקבל הוא עצמו מ"מ בעל התפלגות ותוחלת‪.‬‬
‫דוגמה‪ :‬נניח כי ]‪.f (x) = x2 ,X ∼ U [1, 6‬‬
‫בחישוב פשוט נקבל את ההתפלגות‪:‬‬
‫‪6‬‬
‫‪36‬‬
‫‪5‬‬
‫‪25‬‬
‫‪4‬‬
‫‪16‬‬
‫‪3‬‬
‫‪9‬‬
‫‪2‬‬
‫‪4‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪83‬‬
‫‪x‬‬
‫‪X2‬‬
‫‬
‫‪P X 2 = x2‬‬
‫וכן חישוב נוסף ייתן לנו את התוחלת של המ"מ ‪:X 2‬‬
‫‪ 1‬‬
‫‪91‬‬
‫‪1‬‬
‫= )‪E X 2 = (1 + 4 + 9 + 16 + 25 + 36‬‬
‫‪= 15‬‬
‫‪6‬‬
‫‪6‬‬
‫‪6‬‬
‫הגדרה‪ :‬תוחלת של פונקציה של מ"מ היא‪:‬‬
‫)‪f (x) · P (X = x‬‬
‫‪X‬‬
‫= ])‪E [f (X‬‬
‫‪x‬‬
‫‪9.3.1‬‬
‫תוחלת של פונקציה־לינארית‬
‫נניח כי ‪ f‬היא פונקציה לינארית‪ .‬כלומר היא מהצורה ‪.f (x) = a + bx‬‬
‫טענה‪ :‬התוחלת של פונקציה מהצורה הזו היא‪:‬‬
‫)‪E [a + bx] = a + bE (X‬‬
‫כלומר‪ ,‬עבור פונקציות לינאריות‪ ,‬תוחלת הפונקציה שווה לפונקציה של התוחלת )כפי‬
‫שגם מתקיים בממוצעים(‪.‬‬
‫תובנה זו מאפשרת לעבור בין יחידות מדידה שונות‪ ,‬שכן מדובר בפונקציה לינארית‪.‬‬
‫הוכחה‪ :‬נחשב לפי הגדרת התוחלת‪:‬‬
‫= )‪(a + bx) P (X = x‬‬
‫‪X‬‬
‫= )‪E [f (x)] = E (a + bx‬‬
‫‪x‬‬
‫)‪xP (X = x) = a + b · E (X‬‬
‫‪X‬‬
‫‪P (X = x) + b‬‬
‫‪X‬‬
‫‪x‬‬
‫‪=a‬‬
‫‪x‬‬
‫‬
‫דוגמה‪ :‬נמשיך את הדיון בדוגמה ]‪ ,f (x) = x2 ,X ∼ U [1, 6‬ונקבל שמכיוון שזו אינה‬
‫פונקציה לינארית‪ ,‬אז‪:‬‬
‫‪ 2‬‬
‫‪7‬‬
‫‪2‬‬
‫‪91‬‬
‫= )‪> E 2 (X‬‬
‫=‬
‫‪6‬‬
‫‬
‫‪2‬‬
‫‪E [f (x)] = E X‬‬
‫‬
‫בהמשך נוכיח שלא מדובר במקרה‪ ,‬ולכל מ"מ ‪ X‬מתקיים ‪ ,E 2 (X) ≤ E X 2‬באופן‬
‫‪2‬‬
‫אנלוגי לתוצאה שהראינו בפרק על סטטיסטיקה תאורית‪.X ≤ X 2 ,‬‬
‫‪84‬‬
‫תוחלת של הרכבת פונקציות‬
‫‪9.3.2‬‬
‫נניח שנתונות שתי פונקציות )‪ .f (x) , g (x‬נגדיר פונקציה שלישית שמהווה פעולה לינארית‬
‫על הפונקציות הללו‪.‬‬
‫כלומר ניקח את הפונקציה הלינארית ‪ h (y, z) = ay + bz + c‬ונרכיב אותה על הפונקציות‬
‫הללו שמופעלות על המ"מ‪:‬‬
‫‪h (f (X) , g (X)) = af (X) + bg (X) + c‬‬
‫טענה‪ :‬התוחלת של ההרכבה היא‪:‬‬
‫‪E [h (f (X) , g (X))] = aE [f (X)] + bE [g (X)] + c‬‬
‫הוכחה‪:‬‬
‫= )‪h (f (X) , g (X)) P (X = x‬‬
‫‪P‬‬
‫‪x‬‬
‫= ]))‪E [h (f (X) , g (X‬‬
‫= )‪(af (X) + bg (X) + c) · P (X = x‬‬
‫= )‪P (X = x‬‬
‫‪P‬‬
‫‪x‬‬
‫· ‪g (X) P (X = x) + c‬‬
‫‪P‬‬
‫‪x‬‬
‫‪P‬‬
‫‪x‬‬
‫=‬
‫‪f (X) P (X = x) + b‬‬
‫‪= aE [f (X)] + bE [g (X)] + c‬‬
‫‬
‫חשוב לשים לה שהטענה אינה נכונה עבור מכפלה‪ .‬כלומר‪:‬‬
‫])‪E [f (X) · g (X)] 6= E [f (X)] E [g (X‬‬
‫‪10‬‬
‫‪10.1‬‬
‫מדדי פיזור של משתנים מקריים‬
‫שונות של משתנים מקריים‬
‫בדומה למדד הפיזור עבור התצפיות‪ ,‬נציע מדד פיזור למשתנים מקריים‪.‬‬
‫הגדרה‪ :‬השונות של מ"מ ‪ X‬מוגדרת ומסומנת‪:‬‬
‫‪2‬‬
‫])‪V ar (X) = E [X − E (X‬‬
‫התוחלת )‪ E (X‬קבועה בהינתן המ"מ‪.‬‬
‫‪2‬‬
‫נשים לב שהשונות היא תוחלת של הפונקציה ))‪.f (X) = (X − E (X‬‬
‫‪85‬‬
‫‪P‬‬
‫‪x‬‬
‫‪=a‬‬
‫הסבר‪ :‬אם כן‪ ,‬בשונות של משתנים מקריים אנו מסתכלים על המרחק של המ"מ ממדד מרכזי‬
‫ התוחלת‪ ,‬כאשר את המרחק מגדירים כריבוע ההפרש‪.‬‬‫נרצה מדד מרכזי למרחקים אלו‪ ,‬ולכן נבחר את התוחלת‪ .‬כך קיבלנו את הגדרת‬
‫השונות‪.‬‬
‫הסיבה שמסתכלים דווקא על ריבוע ההפרש‪ ,‬היא כי לו היינו מסתכלים למשל רק‬
‫על ההפרש‪ ,‬אז תוחלת ההפרש הייתה אפס‪ .‬כי אם נסמן )‪ ,f (x) = x − E (X‬נקבל‪:‬‬
‫‪E [X − E (X)] = E [f (X)] = f (E (X)) = E (X) − E (X) = 0‬‬
‫דוגמה‪ :‬נניח כי ]‪ .X ∼ U [1, 6‬בחישוב מפורט שביצענו נבע כי התוחלת היא‬
‫‪6‬‬
‫‪5‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪6‬‬
‫‪25‬‬
‫‪4‬‬
‫‪1‬‬
‫‪6‬‬
‫‪9‬‬
‫‪4‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪4‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪4‬‬
‫‪1‬‬
‫‪6‬‬
‫‪9‬‬
‫‪4‬‬
‫‪1‬‬
‫‪6‬‬
‫‪25‬‬
‫‪4‬‬
‫‪7‬‬
‫‪2‬‬
‫= )‪.E (X‬‬
‫‪x‬‬
‫)‪P (X = x‬‬
‫‪2‬‬
‫‪x − 72‬‬
‫ומכאן שהשונות היא‪:‬‬
‫‪35‬‬
‫‪1 25 1 9 1 1 1 9 1 25‬‬
‫·‬
‫· ‪+ · + · + · +‬‬
‫=‬
‫‪6 4‬‬
‫‪6 4 6 4 6 4 6 4‬‬
‫‪12‬‬
‫= )‪V ar (X‬‬
‫דוגמה‪ :‬נניח כי )‪ .X ∼ Bin (1, p‬ראינו שהתוחלת של מ"מ ברנולי היא ‪ .p‬מכאן שהשונות‬
‫‪2‬‬
‫היא ]‪:V ar (X) = E [X − p‬‬
‫‪1‬‬
‫‪p‬‬
‫‪2‬‬
‫)‪(1 − p‬‬
‫‪0‬‬
‫‪1−p‬‬
‫‪p2‬‬
‫‪x‬‬
‫)‪P (X = x‬‬
‫‪2‬‬
‫)‪(x − p‬‬
‫ומכאן שהשונות היא‪:‬‬
‫‪2‬‬
‫)‪V ar (X) = (1 − p) p2 + p (1 − p) = p (1 − p) (p + 1 − p) = p (1 − p‬‬
‫‪86‬‬
‫הערה‪ :‬השונות של מ"מ ברנולי היא ‪ .p (1 − p) = p − p2‬זו פונקציה ריבועית שסימטרית‬
‫סביב ‪.p = 0.5‬‬
‫הגרף שלה נראה כך‪:‬‬
‫נשים לב כי השונות שווה לאפס כאשר ‪ p‬שווה ‪ 0‬או ‪ .1‬כלומר‪ ,‬התוצאה של המשתנה המקרי‬
‫קבועה כ"כשלון" או "הצלחה" )בהתאמה(‪.‬‬
‫השונות מקבלת ערך מקסימלי כאשר ‪ ,p = 0.5‬מה שמרמז על כך שכאשר ‪ p = 0.5‬מידת‬
‫האי ודאות הקיימת במ"מ ברנולי היא מקסימלית‪.‬‬
‫תכונות השונות‬
‫‪V ar (X) ≥ 0 .1‬‬
‫‪ V ar (X) = 0 .2‬אם ורק אם ‪P (X = E (X)) = 1‬‬
‫כלומר קיים ‪ a‬קבוע‪ ,‬שעבורו ‪) P (X = a) = 1‬מ"מ דטרמיניסטי‪/‬מנוון(‪.‬‬
‫‪ .3‬יחידות המדידה של )‪ V ar (X‬הן ריבוע יחידות המדידה של ‪.X‬‬
‫‪V ar (X + a) = V ar (X) .4‬‬
‫‪V ar (aX) = a2 V ar (X) .5‬‬
‫הערה‪:‬‬
‫))‪V ar (f (X) + g (X)) 6= V ar (f (X)) + V ar (g (X‬‬
‫‪87‬‬
‫‪10.1.1‬‬
‫סטיית תקן של משתנה מקרי‬
‫הגדרה‪ :‬סטיית תקן של מ"מ ‪ X‬היא שורש השונות‪ .‬מסמנים‪:‬‬
‫‪p‬‬
‫)‪SD (X) = V ar (X‬‬
‫תכונות סטיית התקן‬
‫‪SD (X) ≥ 0 .1‬‬
‫‪ SD (X) = 0 .2‬אם ורק אם ‪P (X = E (X)) = 1‬‬
‫כלומר קיים ‪ a‬קבוע‪ ,‬שעבורו ‪) P (X = a) = 1‬מ"מ דטרמיניסטי‪/‬מנוון(‪.‬‬
‫‪ .3‬יחידות המדידה של )‪ SD (X‬הן אותן יחידות המדידה של ‪.X‬‬
‫זוהי הסיבה שסטיית התקן היא מדד הפיזור המועדף‪.‬‬
‫‪SD (X + a) = SD (X) .4‬‬
‫‪SD (aX) = |a| SD (X) .5‬‬
‫‪10.1.2‬‬
‫נוסחה לחישוב השונות‬
‫‬
‫‪2‬‬
‫])‪V ar (X) = E X 2 − [E (X‬‬
‫הוכחה‪ :‬נשים לב שבאופן כללי מהנוסחה לפולינום ריבועי נובע‪:‬‬
‫‬
‫‬
‫‪= E X 2 − 2XA + A2 = E X 2 − 2AE (X) + A2‬‬
‫מתקבלת פרבולה צוחקת ב‪ ,A-‬שהגרף שלה הוא‪:‬‬
‫‪88‬‬
‫‬
‫‪2‬‬
‫‬
‫)‪E (X − A‬‬
‫)‪.Amin = − −2E(X‬‬
‫המינימום של הפרבולה מתקבל עבור )‪= E (X‬‬
‫‪2·1‬‬
‫‪b2‬‬
‫כאשר ‪ y = ax2 + bx + c‬נקבל‬
‫‪.ymin = c − 4a‬‬
‫לכן‪:‬‬
‫‪2‬‬
‫‪2‬‬
‫= ‪V ar (X) = E (X − E (X)) = E (X − A)min‬‬
‫‬
‫‪2‬‬
‫])‪= E X 2 − [E (X‬‬
‫‪[−2E(X)]2‬‬
‫‪4‬‬
‫‬
‫‪= E X2 −‬‬
‫‬
‫מסקנה‪ :‬ידוע כי ‪ ,V ar (X) ≥ 0‬ולכן נסיק‪:‬‬
‫‬
‫)‪0 ≤ V ar (X) = E X 2 − E 2 (X‬‬
‫⇓‬
‫‬
‫‪E 2 (X) ≤ E X 2‬‬
‫‪10.1.3‬‬
‫שונות של מ"מ ברנולי‬
‫)‪X ∼ Bin (1, p) V ar (X) = p (1 − p‬‬
‫הוכחה‪ :‬נניח כי )‪ X ∼ Bin (1, p‬כך שההתפלגות שלו היא‪:‬‬
‫‪89‬‬
‫‪1‬‬
‫‪p‬‬
‫‪1‬‬
‫‪x‬‬
‫)‪P (X = x‬‬
‫‪x2‬‬
‫‪0‬‬
‫‪1−p‬‬
‫‪0‬‬
‫‬
‫ולכן נסיק כי ‪ ,E X 2 = E (X) = p‬ונקבל‪:‬‬
‫‬
‫)‪V ar (X) = E X 2 − E 2 (X) = p − p2 = p (1 − p‬‬
‫‬
‫שונות של מ"מ פואסון‬
‫‪10.1.4‬‬
‫‪X ∼ P ois (λ) V ar (X) = λ‬‬
‫‬
‫הוכחה‪ :‬ראשית נוכיח את השוויון ‪) E X 2 = λ2 + λ‬שימו לב לאינדקסים(‪:‬‬
‫∞‬
‫∞‬
‫∞‬
‫‪X‬‬
‫‪ X‬‬
‫‪λk‬‬
‫‪λk X −λ λk‬‬
‫· ‪k 2 e−λ‬‬
‫· ‪k (k − 1) e−λ‬‬
‫· ‪ke‬‬
‫= ‪E X2‬‬
‫=‬
‫‪+‬‬
‫=‬
‫!‪k‬‬
‫!‪k‬‬
‫!‪k‬‬
‫‪k=0‬‬
‫‪k=0‬‬
‫‪+ λ = λ2 + λ‬‬
‫∞‬
‫‪X‬‬
‫‪e−λ λk‬‬
‫!‪k‬‬
‫‪+ λ = λ2‬‬
‫‪k=0‬‬
‫‪k=0‬‬
‫∞‬
‫‪X‬‬
‫‪e−λ λk−2‬‬
‫!)‪(k − 2‬‬
‫‪= λ2‬‬
‫‪k=2‬‬
‫השוויון השלישי מבוסס על כך ש‪.E (X) = λ-‬‬
‫כעת נוכל להסיק‪:‬‬
‫‬
‫‪V ar (X) = E X 2 − E 2 (X) = λ2 + λ − λ2 = λ‬‬
‫‬
‫‪10.1.5‬‬
‫שונות של מ"מ בינומי‬
‫)‪X ∼ Bin (n, p) V ar (X) = np (1 − p‬‬
‫לא נוכיח טענה זו‪.‬‬
‫‪10.1.6‬‬
‫שונות של מ"מ גאומטרי‬
‫‪1−p‬‬
‫‪p2‬‬
‫= )‪X ∼ Geo (p) V ar (X‬‬
‫‪90‬‬
‫הוכחה‪ :‬לפי הגדרת התוחלת של פונקציה מתקיים‪:‬‬
‫‬
‫‪2‬‬
‫‪3‬‬
‫‪E X 2 = 1 · p + 4p (1 − p) + 9p (1 − p) + 16p (1 − p) + ...‬‬
‫⇓‬
‫‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪(1 − p) E X 2 = p (1 − p) + 4p (1 − p) + 9p (1 − p) + 16p (1 − p) + ...‬‬
‫⇓‬
‫‬
‫‬
‫ ‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪2‬‬
‫‪2‬‬
‫‪pE X = E X − p (1 − p) + 4p (1 − p) + 9p (1 − p) + 16p (1 − p) + ...‬‬
‫⇓‬
‫‬
‫‪2‬‬
‫‪3‬‬
‫‪pE X 2 = p + 3p (1 − p) + 5p (1 − p) + 7p (1 − p) + ...‬‬
‫⇓‬
‫‬
‫‪2‬‬
‫‪3‬‬
‫‪E X 2 = 1 + 3 (1 − p) + 5 (1 − p) + 7 (1 − p) + ...‬‬
‫⇓‬
‫‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪(1 − p) E X 2 = (1 − p) + 3 (1 − p) + 5 (1 − p) + 7 (1 − p) + ...‬‬
‫⇓‬
‫‬
‫‬
‫ ‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪2‬‬
‫‪2‬‬
‫‪pE X = E X − (1 − p) + 3 (1 − p) + 5 (1 − p) + 7 (1 − p) + ...‬‬
‫⇓‬
‫‬
‫‪2‬‬
‫‪3‬‬
‫= ‪pE X 2 = 1 + 2 (1 − p) + 2 (1 − p) + 2 (1 − p) + ...‬‬
‫‪2−p‬‬
‫‪p‬‬
‫)‪2(1−p‬‬
‫)‪1−(1−p‬‬
‫)‪= 1 + 2(1−p‬‬
‫=‬
‫‪p‬‬
‫⇓‬
‫‪E X 2 = 2−p‬‬
‫‪p2‬‬
‫‪=1+‬‬
‫השוויון שלפני האחרון נובע מנוסחת הסכום של טור חשבוני‪ .‬‬
‫‪10.1.7‬‬
‫שונות של מ"מ אחיד‬
‫)‪(b − a + 2) (b − a‬‬
‫‪12‬‬
‫= )‪X ∼ U [a, b] V ar (X‬‬
‫הוכחה‪ :‬ראשית נניח כי ‪ .a = 1, b = n‬נקבל‪:‬‬
‫‪1≤i≤n‬‬
‫‪1+n‬‬
‫‪2‬‬
‫= ‪i2‬‬
‫‪Pn‬‬
‫‪i=1‬‬
‫‪1‬‬
‫‪n‬‬
‫= ‪· n2‬‬
‫‪1‬‬
‫‪n‬‬
‫‪1‬‬
‫‪n,‬‬
‫= )‪P (X = i‬‬
‫= )‪E (X‬‬
‫‪· 16 + ... +‬‬
‫)‪(n+1)(2n+1‬‬
‫‪6‬‬
‫=‬
‫‪1‬‬
‫‪n‬‬
‫‪·4+‬‬
‫)‪n(n+1)(2n+1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪n‬‬
‫·‬
‫‪·1+‬‬
‫‪1‬‬
‫‪n‬‬
‫השוויון השלישי ניתן להוכחה כללית באמצעות אינדוקציה‪.‬‬
‫‪91‬‬
‫=‬
‫‪1‬‬
‫‪n‬‬
‫‬
‫= ‪E X2‬‬
‫נסיק מכאן כי השונות היא‪:‬‬
‫=‬
‫‪(n+1)2‬‬
‫‪4‬‬
‫‪n2 −1‬‬
‫‪12‬‬
‫=‬
‫‪−‬‬
‫)‪(n+1)(2n+1‬‬
‫‪6‬‬
‫)‪(n+1)(n−1‬‬
‫‪12‬‬
‫=‬
‫‬
‫= )‪V ar (X) = E X 2 − E 2 (X‬‬
‫)‪(n+1)(4n+2−3n−3‬‬
‫‪12‬‬
‫)()‪(n+1‬‬
‫‪12‬‬
‫=‬
‫=‬
‫נסיק מכאן באופן כללי שאם ]‪ ,X ∼ U [a, b‬אז‪:‬‬
‫]‪Y = X − a + 1 ∼ U [1, b − a + 1‬‬
‫וכפי שהוכחנו מתקיים‪:‬‬
‫)‪V ar (X − a + 1) = V ar (X‬‬
‫ומכיוון שכעת נמצא ‪ b − a + 1‬בתפקיד ‪ ,n‬נקבל‪:‬‬
‫=‬
‫‪(b−a+1)2 −1‬‬
‫‪12‬‬
‫)‪(b−a)(b−a+2‬‬
‫‪12‬‬
‫= )‪V ar (Y ) = V ar (X‬‬
‫=‬
‫‪(b−a)2 +2(b−a)+1−1‬‬
‫‪12‬‬
‫=‬
‫‬
‫‪10.2‬‬
‫פרדוקס המהמר )או‪ :‬פרדוקס סנט־פטרבורג(‬
‫מהמר משחק בקזינו תחת הכללים הפשוטים הבאים‪ :‬כל פעם הוא מהמר על סכום מסוים‪.‬‬
‫אם הוא זוכה הוא מכפיל את הכסף שיש ברשותו‪ ,‬ואם הוא הפסיד‪ ,‬הוא מפסיד את הכסף‬
‫שיש ברשותו‪.‬‬
‫נסמן ב‪ p-‬את ההסתברות לזכייה‪.‬‬
‫קשה לחשוב על מצב שבו ‪ ,p > 0.5‬כי אז תוחלת הרווח חיובית והקזינו יפסיד‪ .‬נניח לכן כי‬
‫‪.p ≤ 0.5‬‬
‫מהמר חושב שמצא דרך להכות את הקזינו‪ :‬הוא יתחיל להמר על דולר אחד‪ .‬אם הוא ירוויח‬
‫הוא יפרוש והרווח שלו הוא ‪ ,1‬אם יפסיד יהמר שוב‪ ,‬והפעם על ‪ 2‬דולר‪ .‬אם הוא ירוויח הוא‬
‫יפרוש והרווח שלו הוא ‪ .2 − 1 = 1‬אם יפסיד יהמר שוב‪ ,‬והפעם על ‪ 4‬דולר‪ .‬אם הוא ירוויח‬
‫הוא יפרוש והרווח שלו הוא ‪ ,4 − 2 − 1 = 1‬וכן הלאה‪.‬‬
‫בקורס בשנה א' למד המהמר שמספר הסיבובים עד לזכייה הראשונה מפולג גאומטרית עם‬
‫פרמטר ‪ ,p‬וכן שסכום ההסתברויות הוא ‪ .1‬לכן במוקדם או במאוחר הוא יזכה ויפרוש לביתו‬
‫עם רווח של דולר בכיסו‪.‬‬
‫הסבר לפרדוקס‪ :‬לרשות המהמר חייב להיות סכום התחלתי סופי‪ ,‬שאם יפסיד את כולו הוא‬
‫לא יוכל להמשיך לשחק‪ .‬סכום זה יכול להיות גדול )אם למשל הוא מכר את ביתו לצורך‬
‫כך(‪ ,‬אבל הוא בכל מקרה סופי )העולם סופי‪(...‬‬
‫מכאן שכדי שהמהר יוכל לשחק ‪ n‬משחקים‪ ,‬הסכום ההתחלתי חייב להיות )לפי נוסחת‬
‫הסכום של טור הנדסי(‪:‬‬
‫‪2n − 1‬‬
‫‪= 2n − 1‬‬
‫‪2−1‬‬
‫· ‪1 + 2 + ... + 2n = 1‬‬
‫‪92‬‬
‫נניח שהמהר מחזיק באמתחתו את הסכום הזה‪ ,‬ובסוף הערב המהמר מרוויח דולר אחד‪,‬‬
‫בהתאם לתכנית שלו‪ ,‬או מפסיד את כל כספו‪.‬‬
‫נניח לצורך הפשטות כי ‪) p = 0.5‬ההסתברות האידאלית מבחינת המהמר(‪ ,‬אז נקבל את‬
‫פונקציית ההסתברות הבאה‪:‬‬
‫‪X‬‬
‫)‪P (X = x‬‬
‫‬
‫‪1 n‬‬
‫ ‪2‬‬
‫‪n‬‬
‫‪1 − 12‬‬
‫‪n‬‬
‫)‪− (2 − 1‬‬
‫‪1‬‬
‫נחשב את תוחלת הרווח של המהמר‪:‬‬
‫ ‪ n‬‬
‫‪ n‬‬
‫‪ n n‬‬
‫‪ n‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪n‬‬
‫‪n‬‬
‫‪E (X) = 1· 1 −‬‬
‫‪= 1−‬‬
‫‪−2‬‬
‫‪+‬‬
‫‪=0‬‬
‫)‪−(2 − 1‬‬
‫‪n‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‬
‫כעת בדקו לבד מדוע כאשר ‪ p < 0.5‬התוחלת הופכת להיות שלילית‪.‬‬
‫‪10.2.1‬‬
‫הערה‪ :‬הסתברות ושכיחות יחסית‬
‫נניח כי )‪ X ∼ Bin (n, p‬כך ש‪.V ar (X) = np (1 − p) ,E (X) = np-‬‬
‫מבצעים ניסוי ‪ n‬פעמים באופן בלתי־תלוי‪ ,‬כאשר בכל פעם התוצאה ‪ A‬מוגדרת כ"הצלחה"‪,‬‬
‫ונסמן ‪ .P (A) = p‬נניח כי ‪ X‬הוא מספר ההצלחות‪.‬‬
‫‪.X‬‬
‫ראינו שכאשר )‪ ,X ∼ Bin (n, p‬השכיחות היחסית של מספר ההצלחות היא ‪n‬‬
‫נשים לב שהשכיחות היחסית עצמה היא גם משתנה מקרי‪.‬‬
‫אם כן נבדוק מהי תוחלת השכיחות היחסית של מספר ההצלחות‪:‬‬
‫‪np‬‬
‫)‪E (X‬‬
‫=‬
‫‪=p‬‬
‫‪n‬‬
‫‪n‬‬
‫‬
‫=‬
‫‪X‬‬
‫‪n‬‬
‫‬
‫‪E‬‬
‫וכן נבדוק מהי השונות של השכיחות היחסית‪:‬‬
‫‪1‬‬
‫‪1‬‬
‫)‪p (1 − p‬‬
‫= )‪· V ar (X) = 2 · np (1 − p‬‬
‫‪−→ 0‬‬
‫‪2‬‬
‫∞→‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫‬
‫=‬
‫‪X‬‬
‫‪n‬‬
‫‬
‫‪V ar‬‬
‫כלומר‪ ,‬ככל שמספר הניסויים גדל‪ ,‬כך השונות של השכיחות היחסית קטנה‪.‬‬
‫התוחלת של השכיחות היחסית היא ‪) p‬לכל ‪ (n‬ולכן השכיחות היחסית היא אמנם מקרית‪,‬‬
‫אולם היא הולכת ומתקרבת להסתברות ככל שמספר החזרות על הניסוי גדל‪ ,‬בגלל שהשונות‬
‫שואפת ל‪.0-‬‬
‫‪ 10.2.2‬הערה‪ :‬סופיות התוחלת‪/‬השונות‬
‫‬
‫נניח כי ‪ ,X ∼ Geo 12‬ונניח ‪ Y = αX‬עבור ‪ α > 0‬כלשהו‪.‬‬
‫נתבונן בתוחלת של ‪ Y‬ושל ‪:Y 2‬‬
‫‪( α‬‬
‫‪2‬‬
‫‪P∞ i 1 i‬‬
‫‪0≤α≤2‬‬
‫‪1− α‬‬
‫‪2‬‬
‫= ‪E (Y ) = i=1 α 2‬‬
‫∞‬
‫‪2≤α‬‬
‫√‬
‫‪0≤α≤ 2‬‬
‫√‬
‫‪2≤α‬‬
‫‪α2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪1− α2‬‬
‫∞‬
‫‪‬‬
‫‪‬‬
‫=‬
‫‪‬‬
‫‪93‬‬
‫‬
‫‪1 i‬‬
‫‪2‬‬
‫‪2i‬‬
‫‪α‬‬
‫∞‪P‬‬
‫‪i=1‬‬
‫=‬
‫‬
‫‪2‬‬
‫‪E Y‬‬
‫מכאן שעבור המ"מ ‪ Y‬התוחלת סופית רק אם ‪.0 ≤ α ≤ 2‬‬
‫כדי שהשונות תהיה מוגדרת נצטרך לדרוש גם ∞ < ‪ ,E Y 2‬ולכן השונות סופית רק אם‬
‫√‬
‫‪.0 ≤ α ≤ 2‬‬
‫‪10.3‬‬
‫חציון‬
‫נניח שנתונה פונקציית הסתברות )‪ ,P (X = x‬ונתונים הערכים‪:‬‬
‫‪x1 < x2 < x3 < ... < xn‬‬
‫נגדיר את ההסתברויות המתאימות הבאות‪:‬‬
‫‪p1 , p2 , p3 , ..., pn‬‬
‫כלומר ‪.1 ≤ i ≤ n ,P (X = xi ) = pi‬‬
‫נגדיר פונקציית קנס )|‪ ,f (A) = E (|X − A‬ונחפש ‪ A‬שימזער אותה‪.‬‬
‫נשים לב שלפי הגדרת התוחלת מתקיים‪:‬‬
‫‪|xi − A| pi‬‬
‫‪n‬‬
‫‪X‬‬
‫= ) ‪|xi − A| P (X = xi‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫= )‪f (A‬‬
‫‪i=1‬‬
‫זוהי פונקציה לינארית למקוטעין שמזכירה פרבולה צוחקת‪ .‬היא מקבלת מינימום כאשר‬
‫הגרף משנה מגמה מירידה לעלייה‪ ,‬וזה קורה בנקודה‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪i‬‬
‫‪ X‬‬
‫‪1‬‬
‫| ‪A∗ = min xi‬‬
‫≥ ‪pj‬‬
‫‪‬‬
‫‪2‬‬
‫‪j=1‬‬
‫הערך ∗‪ A‬מוגדר להיות החציון‪.‬‬
‫דוגמה‪ :‬נניח )‪ X ∼ Geo (p‬כך ש‪-‬‬
‫‪i−1‬‬
‫)‪.P (X = i) = p (1 − p‬‬
‫‪i‬‬
‫)‪1 − (1 − p‬‬
‫‪i‬‬
‫)‪= 1−(1 − p‬‬
‫)‪1 − (1 − p‬‬
‫‪=p‬‬
‫‪i−1‬‬
‫)‪P (X = j) = p+p (1 − p)+...+p (1 − p‬‬
‫‪i‬‬
‫‪X‬‬
‫‪j=1‬‬
‫החציון הוא ערך ה‪ i-‬המינימלי‪ ,‬המקיים‪:‬‬
‫‪1‬‬
‫‪2‬‬
‫‪i‬‬
‫≥ )‪1 − (1 − p‬‬
‫או‪:‬‬
‫‪1‬‬
‫‪i‬‬
‫)‪≥ (1 − p‬‬
‫‪2‬‬
‫או‪:‬‬
‫ ‬
‫‪1‬‬
‫‪log1−p‬‬
‫‪≤i‬‬
‫‪2‬‬
‫‪94‬‬
‫כדי לקבל ערך שלם‪ ,‬החציון יהיה‪:‬‬
‫‬
‫ ‬
‫‬
‫‪1‬‬
‫‪log1−p‬‬
‫‪≤i‬‬
‫‪2‬‬
‫במ"מ אחיד‪ ,‬החציון יהיה תמיד הערך המרכזי‪ .‬ואם יש שני ערכים מרכזיים‪ ,‬החציון‬
‫יהיה כל ערך שביניהם‪.‬‬
‫‪11‬‬
‫תיקנון משתנים מקריים‬
‫)‪X−E(X‬‬
‫)‪SD(X‬‬
‫= ‪ .Z‬כלומר‬
‫הגדרה‪ :‬בהינתן מ"מ ‪ ,X‬נאמר שהמשתנה המקרי המתוקנן שלו הוא‬
‫נבצע את הטרנספורמציה הזו על כל התצפיות‪.‬‬
‫כפי שהגדרנו בסטטיסטיקה תיאורית‪ ,‬המ"מ המתוקנן משמש כדי לתאר את המרחק‬
‫מהתוחלת ביחידות של סטיית תקן‪.‬‬
‫דוגמה‪ :‬נניח כי ]‪ ,X ∼ U [1, 6‬כך ש‪:‬‬
‫‪E (X) = 3.5‬‬
‫‪35‬‬
‫‪12‬‬
‫‪= 1.707‬‬
‫= )‪V ar (X‬‬
‫‪35‬‬
‫‪12‬‬
‫‪q‬‬
‫= )‪SD (X‬‬
‫נחשב את ההתפלגות של המ"מ המתוקנן‪:‬‬
‫)‪P (Z = z‬‬
‫‪Z=z‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪−2.5‬‬
‫‪1.707‬‬
‫‪−1.5‬‬
‫‪1.707‬‬
‫‪−0.5‬‬
‫‪1.707‬‬
‫‪0.5‬‬
‫‪1.707‬‬
‫‪1.5‬‬
‫‪1.707‬‬
‫‪2.5‬‬
‫‪1.707‬‬
‫‪95‬‬
‫‪X=x‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫חלק ‪VI‬‬
‫התפלגויות משותפות‬
‫‪12‬‬
‫משתנים מקריים רב־ממדיים‬
‫בדיון במ"מ אלה‪ ,‬מגדירים יותר ממ"מ יחיד‪.‬‬
‫דוגמה‪ :‬מטילים מטבע הוגן ‪ 3‬פעמים‪ .‬מרחב המדגם מכיל ‪ 8‬אפשרויות‪:‬‬
‫}) ‪Ω = {(H, H, H) , (H, H, T ) , (H, T, H) , (T, H, H) , (H, T, T ) , (T, H, T ) , (T, T, H) , (T, T, T‬‬
‫נגדיר את המ"מ ‪ X‬כמספר הראשים‪ ,‬ואת ‪ Y‬כמספר הראשים בהטלה הראשונה פחות‬
‫מספרם בהטלה השנייה‪.‬‬
‫‪Y‬‬
‫‪0‬‬
‫‪0‬‬
‫‪1‬‬
‫‪−1‬‬
‫‪1‬‬
‫‪−1‬‬
‫‪0‬‬
‫‪0‬‬
‫‪X‬‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪0‬‬
‫‪H, H, H‬‬
‫‪H, H, T‬‬
‫‪H, T, H‬‬
‫‪T, H, H‬‬
‫‪H, T, T‬‬
‫‪T, H, T‬‬
‫‪T, T, H‬‬
‫‪T, T, T‬‬
‫ניתן לבדוק את ההסתברות של ‪ X‬ושל ‪ Y‬בנפרד‪ ,‬ולקבל‪:‬‬
‫‪1‬‬
‫‪8‬‬
‫= )‪P (X = 3‬‬
‫‪3‬‬
‫‪8‬‬
‫‪2‬‬
‫‪8‬‬
‫= )‪P (X = 2‬‬
‫= )‪P (Y = 1‬‬
‫‪3‬‬
‫‪8‬‬
‫‪4‬‬
‫‪8‬‬
‫= )‪P (X = 1‬‬
‫= )‪P (Y = 0‬‬
‫‪P (X = 0) = 18‬‬
‫‪P (Y = −1) = 82‬‬
‫אך ניתן גם לבדוק את ההתפלגויות המשותפות‪:‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪0‬‬
‫‪0‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪0‬‬
‫‪1‬‬
‫‪8‬‬
‫‪0‬‬
‫‪X‬‬
‫‪Y‬‬
‫‪−1‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪8‬‬
‫‪0‬‬
‫כך למשל נקבל ‪ P (X = 0, Y = −1) = 0‬או למשל‬
‫‪1‬‬
‫‪8‬‬
‫= )‪.P (X = 1.Y = 1‬‬
‫ניתן לחשב את ההתפלגות של ‪ X‬מתוך ההתפלגות המשותפת ל‪ X-‬ו‪ .Y -‬בהקשר זה‪,‬‬
‫ההתפלגות של ‪ X‬מכונה "ההתפלגות השולית של ‪."X‬‬
‫‪m‬‬
‫נזכור שעבור חלוקה ‪ {Bj }j=1‬מתקיים‪:‬‬
‫) ‪P (X = 0, Bi‬‬
‫‪m‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪96‬‬
‫= )‪P (X = 0‬‬
‫)זה חיתוך של המאורע ‪ X = 0‬עם המאורע ‪(Bi‬‬
‫ולכן נקבל‪:‬‬
‫‪1‬‬
‫‪1‬‬
‫=‪+0‬‬
‫‪8‬‬
‫‪8‬‬
‫‪P (X = 0, Y = y) = 0 +‬‬
‫‪X‬‬
‫= )‪P (X = 0‬‬
‫‪y‬‬
‫ובאופן דומה‪:‬‬
‫‪1 1‬‬
‫‪1‬‬
‫=‪+ +0‬‬
‫‪8 8‬‬
‫‪4‬‬
‫‪P (X = x, Y = 1) = 0 +‬‬
‫‪X‬‬
‫= )‪P (Y = 1‬‬
‫‪x‬‬
‫וכך ניתן להשלים את כל ההסתברויות השוליות של ‪ X‬ושל ‪ ,Y‬ולקבל‪:‬‬
‫‪1‬‬
‫‪4‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪4‬‬
‫‪12.1‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪0‬‬
‫‪0‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪3‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪3‬‬
‫‪8‬‬
‫‪0‬‬
‫‪1‬‬
‫‪8‬‬
‫‪0‬‬
‫‪1‬‬
‫‪8‬‬
‫‪1‬‬
‫‪8‬‬
‫‪0‬‬
‫‪X‬‬
‫‪Y‬‬
‫‪−1‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪8‬‬
‫פונקציה של משתנים מקריים‬
‫בהינתן המשתנים המקריים ‪ ,X, Y‬נגדיר את המשתנים המקריים הבאים‪:‬‬
‫‪Z =X +Y‬‬
‫‪W =X −Y‬‬
‫‪T =X ·Y‬‬
‫טענה‪:‬‬
‫) ‪E (X ± Y ) = E (X) ± E (Y‬‬
‫הוכחה‪ :‬נסמן )‪ ,pxy = P (X = x, Y = y‬ונחשב‪:‬‬
‫‪XX‬‬
‫‪XX‬‬
‫= ‪(x ± y) pxy‬‬
‫‪xpxy ±‬‬
‫= ‪ypxy‬‬
‫‪y‬‬
‫‪x‬‬
‫‪y‬‬
‫‪x‬‬
‫‪XX‬‬
‫‪y‬‬
‫= ) ‪E (X ± Y‬‬
‫‪x‬‬
‫‪X X‬‬
‫‪X X‬‬
‫‪X‬‬
‫‪X‬‬
‫‪x‬‬
‫‪pxy ±‬‬
‫‪y‬‬
‫= ‪pxy‬‬
‫‪xP (X = x) ±‬‬
‫= )‪yP (Y = y‬‬
‫‪x‬‬
‫‪y‬‬
‫‪x‬‬
‫‪y‬‬
‫‪y‬‬
‫=‬
‫‪x‬‬
‫) ‪= E (X) ± E (Y‬‬
‫‬
‫הערה‪ :‬תוצאה זו בעצם אומרת כי ) ‪ f (X ± Y‬נקבעת רק בעזרת )‪ E (X‬ו‪ E (Y )-‬ללא‬
‫חשיבות להתפלגות השולית‪.‬‬
‫באופן אחר‪ :‬יתכנו התפלגויות משותפות רבות ל‪ X-‬ול‪ ,Y -‬אך ) ‪ E (X ± Y‬תיקבע‬
‫רק לפי ההתפלגויות השוליות של ‪ X‬ו‪.Y -‬‬
‫‪97‬‬
‫דוגמה‬
‫בכד ‪ N‬כדורים ממוספרים‪ .‬מוציאים שניים מתוכם‪ ,‬ללא החזרה‪.‬‬
‫נסמן ב‪ X-‬את מספרו של הראשון וב‪ Y -‬את זה של השני‪.‬‬
‫במקרה ‪ N = 3‬נקבל את ההסתברויות המשותפות הבאות‪:‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪0‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪1‬‬
‫‪6‬‬
‫‪1‬‬
‫‪6‬‬
‫‪0‬‬
‫‪1‬‬
‫‪6‬‬
‫‪0‬‬
‫‪Y‬‬
‫‪X‬‬
‫ההסתברות השולית היא‪:‬‬
‫‪1‬‬
‫‪1 1‬‬
‫= ‪+‬‬
‫‪6 6‬‬
‫‪3‬‬
‫‪P (X = 1, Y = j) = 0 +‬‬
‫‪3‬‬
‫‪X‬‬
‫= )‪P (X = 1‬‬
‫‪j=1‬‬
‫וכן כל ההסתברויות השוליות הן ‪. 13‬‬
‫נשים לב שבדוגמה זו‪ ,‬לכל ‪ a‬מתקיים‬
‫‪1‬‬
‫‪3‬‬
‫= )‪.P (X = a) = P (Y = a‬‬
‫הגדרה‪ :‬משתנים מקריים ‪ X, Y‬ייקראו שווי־התפלגות אם לכל ‪ a‬מתקיים‪:‬‬
‫)‪P (X = a) = P (Y = a‬‬
‫חשוב להפריד בין "שווי־התפלגות" לבין "שווים"‪ .‬כלומר‪ ,‬שוויון בהתפלגות לא אומר‬
‫‪ ,P (X = Y ) = 1‬כפי שראינו בדוגמה האחרונה שבה למעשה ‪.P (X = Y ) = 0‬‬
‫בדוגמה שראינו מתקיים‪:‬‬
‫‪1‬‬
‫‪(1 + 2 + 3) = 2‬‬
‫‪3‬‬
‫= )‪E (X‬‬
‫וכן‪:‬‬
‫‪1‬‬
‫‪2‬‬
‫‪2 1‬‬
‫‪2 1‬‬
‫)‪+ (2 − 2‬‬
‫)‪+ (3 − 2‬‬
‫=‬
‫‪3‬‬
‫‪3‬‬
‫‪3‬‬
‫‪3‬‬
‫‪2‬‬
‫)‪V ar (X) = (1 − 2‬‬
‫מכיוון שהתוחלת והשונות הן פונקציה של ההתפלגות‪ ,‬נסיק שהתוחלת והשונות של ‪ Y‬שוות‬
‫לאלו של ‪ ,X‬שכן הם שווי־התפלגות‪.‬‬
‫נמשיך את הדיון בדוגמה‪ :‬נגדיר ‪ .Z = X · Y‬כלומר לכל ‪ ω ∈ Ω‬מתקיים = )‪Z (ω‬‬
‫)‪.X (ω) · Y (ω‬‬
‫)‪P (Z = z‬‬
‫‪0‬‬
‫‪1‬‬
‫‪3‬‬
‫‪1‬‬
‫‪3‬‬
‫‪0‬‬
‫‪1‬‬
‫‪3‬‬
‫‪0‬‬
‫‪98‬‬
‫‪z = xy‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪6‬‬
‫‪9‬‬
‫נחשב את התוחלת‪:‬‬
‫‪2+3+6‬‬
‫‪11‬‬
‫=‬
‫‪3‬‬
‫‪3‬‬
‫= )‪E (Z‬‬
‫אך נשים לב‪:‬‬
‫‪ 2‬‬
‫‪2‬‬
‫‪4‬‬
‫‪11‬‬
‫= ) ‪E (X) · E (Y‬‬
‫=‪= 6‬‬
‫‪3‬‬
‫‪9‬‬
‫‪3‬‬
‫נסיק מכך שהתוחלת של פונקציה של מ"מ לא בהכרח שווה לפונקציה של התוחלות‪.‬‬
‫לעומת זאת כפי שראינו לעיל‪ ,‬אם מדובר בפונקציה לינארית התוחלת של הפונקציה שווה‬
‫לפונקציה של התוחלות‪:‬‬
‫‪t=x+y‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫)‪P (T = t‬‬
‫‪0‬‬
‫‪1‬‬
‫‪3‬‬
‫‪1‬‬
‫‪3‬‬
‫‪1‬‬
‫‪3‬‬
‫‪0‬‬
‫ובחישוב פשוט נקבל עבור המ"מ ‪:T = X + Y‬‬
‫) ‪E (X) + E (Y ) = 2 + 2 = 4 = E (X + Y ) = E (T‬‬
‫ניתן לראות ישירות מכך ש‪ T ∼ U [3, 5]-‬שהשונות היא‪:‬‬
‫‪2‬‬
‫‪4‬‬
‫‪32 − 1‬‬
‫) ‪= 6= = V ar (X) + V ar (Y‬‬
‫‪12‬‬
‫‪3‬‬
‫‪3‬‬
‫= ) ‪V ar (T‬‬
‫מסקנה‪ :‬רק כאשר הפונקציה לינארית‪ ,‬תוחלת הפונקציה שווה לפונקציה של התוחלת‪.‬‬
‫כמו־כן שונות הפונקציה לא שווה לפונקציה של השונות‪ ,‬גם כאשר הפונקציה לינארית‪.‬‬
‫הערה‪ :‬נגדיר ‪ W‬להיות הערך על הכשור שנותר מבין השלושה‪ .‬מתקיים ]‪.W ∼ U [1, 3‬‬
‫נשים לב שכל מהמ"מ ‪ X, Y, W‬הוא מקרי‪ ,‬אולם הסכום שלהם קבוע‪:‬‬
‫‪X +Y =6−W ⇔X +Y +6‬‬
‫נסיק מכך‪:‬‬
‫‪E (X + Y ) = E (6 − W ) = E (6) − E (W ) = 6 − 2 = 4‬‬
‫‪2‬‬
‫‪3‬‬
‫‪2‬‬
‫= ) ‪V ar (X + Y ) = V ar (6 − W ) = V ar (−W ) = (−1) V ar (W ) = V ar (W‬‬
‫‪99‬‬
‫ראינו כי אם )‪ X ∼ Bin (n, p‬אז ‪ .E (X) = np‬נראה הוכחה נוספת לכך‪.‬‬
‫נתבונן באוכלוסייה של ‪ n‬אנשים‪ ,‬ובודקים מי מהם מגיע לבנק‪ .‬אם הפרט ה‪ i-‬מגיע לבנק‪,‬‬
‫נגדיר זאת כ"הצלחה"‪ ,‬ונסמנה ב‪.1-‬‬
‫נגדיר זאת באמצעות "פונקציית אינדיקטור"‪:‬‬
‫(‬
‫‪1 success in the i-person‬‬
‫= ‪1 ≤ i ≤ n Ii‬‬
‫‪0‬‬
‫‪otherwise‬‬
‫נסמן לכל ‪:i‬‬
‫‪P (Ii = 1) = p‬‬
‫‪P (Ii = 0) = 1 − p‬‬
‫‪E (Ii ) = p‬‬
‫נסמן את המ"מ ‪ X‬להיות מספר ההצלחות‪ ,‬ולכן‪:‬‬
‫‪Ii‬‬
‫‪n‬‬
‫‪X‬‬
‫= ‪X = I1 + I2 + ... + In‬‬
‫‪i=1‬‬
‫‪p = np‬‬
‫‪n‬‬
‫‪X‬‬
‫= ) ‪E (Ii‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫!‬
‫=‬
‫‪Ii‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫‪E (X) = E‬‬
‫‪i=1‬‬
‫השוויון השני נובע מכך שתוחלת של סכום היא סכום התוחלות‪ .‬‬
‫הערה‪ :‬נשים לב כי קיבלנו תוחלת של ‪ np‬ללא הדרישה לאי־תלות בין המופעים השונים‪ ,‬כפי‬
‫שנדרש בהגדרת התפלגות בינומית‪.‬‬
‫דוגמה‪ :‬התפלגות היפר־גאומטרית‬
‫באוכלוסייה קיימים ‪ a‬פרטים מסוג ‪ A‬ו‪ b-‬פרטים מסוג ‪ .B‬בוחרים מתוכן ‪ n‬פרטים ללא‬
‫החזרה‪.1 ≤ n ≤ a + b .‬‬
‫נדון במקרה ‪ n = 2‬ונגדיר‪:‬‬
‫(‬
‫‪1 if the rst is A‬‬
‫= ‪I1‬‬
‫‪0‬‬
‫‪otherwise‬‬
‫‪if the second is A‬‬
‫‪otherwise‬‬
‫‪1‬‬
‫‪0‬‬
‫(‬
‫= ‪I2‬‬
‫נחשב לדוגמה‪:‬‬
‫‪b‬‬
‫‪b−1‬‬
‫·‬
‫‪a+b a+b−1‬‬
‫= )‪P (I1 = 0, I2 = 0) = P (I1 = 0) P (I2 = 0|I1 = 0‬‬
‫ובאופן דומה נשלים את טבלת ההתפלגות המשותפת כולה‪:‬‬
‫‪100‬‬
‫‪1‬‬
‫‪b‬‬
‫‪a+b‬‬
‫‪a‬‬
‫‪a+b‬‬
‫‪1‬‬
‫‪I1‬‬
‫‪0‬‬
‫‪b‬‬
‫‪a+b−1‬‬
‫‪a−1‬‬
‫‪a+b−1‬‬
‫‪a‬‬
‫‪a+b‬‬
‫·‬
‫·‬
‫‪I2‬‬
‫‪b−1‬‬
‫‪a+b−1‬‬
‫‪a‬‬
‫‪a+b−1‬‬
‫‪b‬‬
‫‪a+b‬‬
‫‪a‬‬
‫‪a+b‬‬
‫‪a‬‬
‫‪a+b‬‬
‫·‬
‫·‬
‫‪b‬‬
‫‪a+b‬‬
‫‪b‬‬
‫‪a+b‬‬
‫‪0‬‬
‫‪1‬‬
‫טענה‪ :‬עבור )‪) X ∼ HG (n, a, b‬כלומר אם דוגמים ‪ n‬פרטים ללא החזרה מתוך אוכלוסייה‬
‫בה יש ‪ a‬מסוג ‪ A‬ו‪ b-‬מסוג ‪ ,B‬והמ"מ ‪ X‬סופר את מספר הנדגמים מסוג ‪ (A‬מתקיים‪:‬‬
‫‪a‬‬
‫‪a+b‬‬
‫· ‪E (X) = n‬‬
‫הוכחה‪ :‬עבור פונקציית ההתפלגות‪:‬‬
‫‪if the iis A‬‬
‫‪otherwise‬‬
‫‪1‬‬
‫‪0‬‬
‫(‬
‫= ‪1 ≤ i ≤ n , Ii‬‬
‫מתקיים שכל ‪ Ii , Ij‬הם שווי־התפלגות‪ ,‬ובפרט גם‪:‬‬
‫‪a‬‬
‫‪a+b‬‬
‫∈ ‪E (Ii ) = E (Ij ) = 1 · P (Ij ∈ A) + 0 · P (Ij‬‬
‫= )‪/ A‬‬
‫כמו־כן מתקיים לפי הגדרת המ"מ‪:‬‬
‫‪Ii‬‬
‫‪n‬‬
‫‪X‬‬
‫=‪X‬‬
‫‪i=1‬‬
‫ולכן נקבל לפי הגדרת התוחלת‪:‬‬
‫‪a‬‬
‫‪a‬‬
‫·‪=n‬‬
‫‪a+b‬‬
‫‪a+b‬‬
‫‪n‬‬
‫‪X‬‬
‫= ) ‪E (Ii‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫!‬
‫=‬
‫‪Ii‬‬
‫‪n‬‬
‫‪X‬‬
‫‪E (X) = E‬‬
‫‪i=1‬‬
‫‬
‫נשים לב שמתקיים לפי השונות של מ"מ ברנולי שהראינו לעיל‪:‬‬
‫‬
‫‬
‫‪a‬‬
‫‪a‬‬
‫‪ab‬‬
‫= ) ‪V ar (Ii ) = V ar (Ij‬‬
‫‪1−‬‬
‫=‬
‫‪2‬‬
‫‪a+b‬‬
‫‪a+b‬‬
‫)‪(a + b‬‬
‫וכן‪:‬‬
‫)‪a (a − 1‬‬
‫)‪(a + b) (a + b − 1‬‬
‫= )‪E (Ii · Ij ) = P (Ii · Ij = 1‬‬
‫‪101‬‬
‫דוגמה‪ :‬נניח כי )‪ .X ∼ N B (r, p‬כלומר מבצעים ניסוי עם הסתברות ‪ p‬להצלחה‪ ,‬עד‬
‫ההצלחה ה‪ ,r-‬ו‪ X-‬סופר את מספר הניסויים‪.‬‬
‫נבדוק מתי תהיה ההצלחה ה‪ ,r-‬מבלי שמשנה לנו התפזרות ההצלחות בדרך‪.‬‬
‫כזכור ראינו שההתפלגות הבינומית השלילית היא‪:‬‬
‫‬
‫‬
‫‪k−1‬‬
‫‪k−r‬‬
‫= )‪k ≥ r P (X = k‬‬
‫)‪pr (1 − p‬‬
‫‪r−1‬‬
‫טענה‪:‬‬
‫‪r‬‬
‫‪p‬‬
‫= )‪E (X‬‬
‫הוכחה‪ :‬נגדיר‪:‬‬
‫‪ X1‬הוא מספר הניסויים עד ההצלחה הראשונה‪.‬‬
‫‪ X2‬הוא מספר הניסויים הנוספים עד ההצלחה הבאה‪.‬‬
‫‪..‬‬
‫‪.‬‬
‫‪ Xr‬הוא מספר הניסויים עד ההצלחה ה‪.r-‬‬
‫נשים לב כי כולם שווי־התפלגות המקיימים ) ‪,1 ≤ i ≤ r ,X1 , X2 , ..., Xr ∼ Geo (P‬‬
‫ולכן ‪.E (Xi ) = p1‬‬
‫לפי ההגדרה של המ"מ מתקיים ‪ ,X = X1 + X2 + ... + Xr‬ולכן‪:‬‬
‫‪r‬‬
‫‪p‬‬
‫= ) ‪E (X) = E (X1 ) + E (X2 ) + ... + E (Xr‬‬
‫‬
‫דוגמה‪ :‬חברת קוקה־קולה מציעה מבצע‪ :‬בכל פקק של בקבוק מופיעה אות עברית מקרית‪,‬‬
‫‪1‬‬
‫‪) 22‬האותיות הסופיות ייחשבו כרגילות(‪ .‬כל אדם שמצליח להרכיב את‬
‫בהסתברות‬
‫שמו זכאי להשתתף בהגרלת פרס‪.‬‬
‫נגדיר את מספר הפקקים שיש להשיג כדי להרכיב שם ולהשתתף בהגרלה כמ"מ‪.‬‬
‫כמה בקבוקים בתוחלת על "איתן" לרכוש כדי להשתתף בהגרלה?‬
‫נסמן‪:‬‬
‫‪ X1‬מספר הבקבוקים שיש לרכוש עד לאות ראשונה מתאימה‪.‬‬
‫‪ X2‬הוא מספר הבקבוקים הנוספים שיש לרכוש עד לאותה השנייה המתאימה‪.‬‬
‫‪ X3‬הוא מספר הבקבוקים הנוספים שיש לרכוש עד לאותה השלישית המתאימה‪.‬‬
‫‪ X4‬הוא מספר הבקבוקים הנוספים שיש לרכוש עד לאותה האחרונה המתאימה‪.‬‬
‫נסמן ‪ ,Y = X1 + X2 + X3 + X4‬ונשים לב ש‪ Y -‬מסמן את המ"מ שהגדרנו לעיל‪.‬‬
‫כעת נשים לב להתפלגויות של ‪:Xi‬‬
‫‬
‫‪4‬‬
‫‪⇒ E (X1 ) = 22‬‬
‫‪X1 ∼ Geo 22‬‬
‫‪4‬‬
‫‪22‬‬
‫‪3‬‬
‫= ) ‪⇒ E (X1‬‬
‫‬
‫‪3‬‬
‫‪22‬‬
‫‪X2 ∼ Geo‬‬
‫‪22‬‬
‫‪2‬‬
‫= ) ‪⇒ E (X1‬‬
‫‬
‫‪2‬‬
‫‪22‬‬
‫‪X1 ∼ Geo‬‬
‫‪22‬‬
‫‪1‬‬
‫= ) ‪⇒ E (X1‬‬
‫‬
‫‪1‬‬
‫‪22‬‬
‫‪X1 ∼ Geo‬‬
‫‪102‬‬
‫נסיק מכך‪:‬‬
‫‬
‫‪+ 12 + 1‬‬
‫‪13‬‬
‫‪1‬‬
‫‪3‬‬
‫‪+‬‬
‫‪1‬‬
‫‪4‬‬
‫‪E (Y ) = E (X1 ) + E (X2 ) + E (X3 ) + E (X4 ) = 22‬‬
‫קשרים בין משתנים מקריים‬
‫שונות משותפת של משתנים מקריים‬
‫‪13.1‬‬
‫הגדרה‪ :‬בהינתן שני מ"מ ‪ X, Y‬נגדיר ונסמן את השונות המשותפת שלהם‪:‬‬
‫])) ‪Cov (X, Y ) = E [(X − E (X)) (Y − E (Y‬‬
‫נשים לב שמההגדרה נובע מיד )‪.Cov (X, Y ) = Cov (Y, X‬‬
‫נדון בדוגמה ‪ :1‬לכל זוג ‪ x, y‬נבדוק את הערך של )) ‪ ,(x − E (X)) (y − E (Y‬ונזכור כי‬
‫‪:E (X) = E (2) = 2‬‬
‫‪Y‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪(1 − 2) (3 − 2) = −1‬‬
‫‪(2 − 2) (3 − 2) = 0‬‬
‫‪(3 − 2) (3 − 2) = 1‬‬
‫‪(1 − 2) (2 − 2) = 0‬‬
‫‪(2 − 2) (2 − 2) = 0‬‬
‫‪(3 − 2) (2 − 2) = 0‬‬
‫‪(1 − 2) (1 − 2) = 1‬‬
‫‪(2 − 2) (1 − 2) = 0‬‬
‫‪(3 − 2) (1 − 2) = −1‬‬
‫‪X‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫כעת נוכל לחשב את התוחלת של ההתפלגות שקיבלנו כדי למצוא את השונות המשותפת‪:‬‬
‫= ])) ‪Cov (X, Y ) = E [(X − E (X)) (Y − E (Y‬‬
‫= ])‪[(x − 2) (y − 2)] · P [(X − 2) (Y − 2) = (x − 2) (y − 2‬‬
‫‪X‬‬
‫=‬
‫‪x,y‬‬
‫‪+ 1 · 0 = − 31‬‬
‫‪1‬‬
‫‪6‬‬
‫·‪+0‬‬
‫‪1‬‬
‫‪6‬‬
‫·‪−1‬‬
‫‪1‬‬
‫‪6‬‬
‫·‪+0·0+0‬‬
‫‪1‬‬
‫‪6‬‬
‫·‪+0‬‬
‫‪1‬‬
‫‪6‬‬
‫·‪−1‬‬
‫נוסחה‪:‬‬
‫) ‪Cov (X, Y ) = E (XY ) − E (X) E (Y‬‬
‫‪103‬‬
‫‪1‬‬
‫‪6‬‬
‫·‪=1·0+0‬‬
‫הוכחה‪:‬‬
‫= ])) ‪Cov (X, Y ) = E [(X − E (X)) (Y − E (Y‬‬
‫= ]) ‪= E [XY − E (Y ) X − E (X) Y + E (X) E (Y‬‬
‫= ]) ‪= E (XY ) − E [E (Y ) X] − E [E (X) Y ] + E [E (X) E (Y‬‬
‫= ) ‪= E (XY ) − E (Y ) E (X) − E (X) E (Y ) + E (X) E (Y‬‬
‫)‪= E (XY ) − E (Y ) E (X‬‬
‫‬
‫בדוגמה‪ :‬מתקיים ‪ ,E (X) = E (Y ) = 2‬וכן חישבנו לעיל‬
‫‪1‬‬
‫‪11‬‬
‫‪−4=−‬‬
‫‪3‬‬
‫‪3‬‬
‫‪11‬‬
‫‪3‬‬
‫= ) ‪ ,E (XY‬ולכן‪:‬‬
‫= ) ‪Cov (X, Y‬‬
‫תכונות השונות המשותפת‪:‬‬
‫‪ .1‬יחידות המדידה של השונות המשותפת הן מכפלת יחידות המדידה של שני המשתנים‬
‫המקריים‪.‬‬
‫‪Cov (aX + b, cY + d) = ac · Cov (X, Y ) .2‬‬
‫‪Cov (X, Y ) = Cov (Y, X) .3‬‬
‫‪Cov (X, X) = V ar (X) .4‬‬
‫דוגמה‪ :‬באוכלוסייה ‪ a‬פרטים מסוג ‪ ,A‬ו‪ b-‬פרטים מסוג ‪ .B‬בוחרים שני פרטים ללא החזרה‪.‬‬
‫פונקציית ההתפלגות היא‪:‬‬
‫(‬
‫‪1 if the rst is A‬‬
‫= ‪I1‬‬
‫‪0‬‬
‫‪otherwise‬‬
‫‪if the second is A‬‬
‫‪otherwise‬‬
‫‪1‬‬
‫‪0‬‬
‫(‬
‫= ‪I2‬‬
‫חישבנו את התוחלת‪:‬‬
‫‪a‬‬
‫‪a+b‬‬
‫= ) ‪E (I1 ) = E (I2‬‬
‫נבדוק מהי השונות המשותפת של שני מ"מ אלו‪.‬‬
‫אינטואיטיבית ניתן לקבוע שהשונות המשותפת שלילית‪ ,‬שכן אם ידוע כי ‪ I1 = 1‬אז‬
‫‪104‬‬
‫ההסתברות לאירוע ‪ I2 = 1‬קטנה יותר‪ .‬ואכן כפי שנראה זה המצב‪.‬‬
‫חישוב עזר‪:‬‬
‫(‬
‫‪a‬‬
‫‪a−1‬‬
‫‪1‬‬
‫‪a+b · a+b−1‬‬
‫= ‪I1 · I2‬‬
‫‪a‬‬
‫‪a−1‬‬
‫‪0 1 − a+b · a+b−1‬‬
‫ולכן‪:‬‬
‫‪a‬‬
‫‪a−1‬‬
‫·‬
‫‪a+b a+b−1‬‬
‫= ) ‪E (I1 · I2‬‬
‫כעת נחשב פורמלית את השונות המשותפת‪:‬‬
‫‬
‫‪2‬‬
‫‪a‬‬
‫‪a‬‬
‫‪a−1‬‬
‫‪Cov (I1 , I2 ) = E (I1 · I2 ) − E (I1 ) E (I2 ) = a+b‬‬
‫‪· a+b−1‬‬
‫‪− a+b‬‬
‫=‬
‫‪<0‬‬
‫‪13.2‬‬
‫‪−ab‬‬
‫)‪(a+b)2 (a+b−1‬‬
‫=‬
‫)‪a(a2 −a+ab−b−a2 −ab+a‬‬
‫)‪(a+b)2 (a+b−1‬‬
‫=‬
‫)‪a(a−1)(a+b)−a2 (a+b−1‬‬
‫)‪(a+b)2 (a+b−1‬‬
‫מקדם המתאם של משתנים מקריים‬
‫הגדרה‪ :‬בהינתן המ"מ ‪ ,X, Y‬מקדם המתאם ביניהם מוגדר ומסומן‪:‬‬
‫) ‪Cov (X, Y‬‬
‫) ‪SD (X) · SD (Y‬‬
‫= ) ‪Corr (X, Y‬‬
‫תכונות מקדם המתאם‪:‬‬
‫‪ .1‬מקדם המתאם הוא ערך מספרי ללא יחידות מדידה‪.‬‬
‫‪.2‬‬
‫‪Corr (X, Y ) ac > 0‬‬
‫‪−Corr (X, Y ) ac < 0‬‬
‫(‬
‫= )‪Corr (aX + b, cY + d‬‬
‫טענה‪ :‬לכל מ"מ ‪ X, Y‬מתקיים‪:‬‬
‫‪−1 ≤ Corr (X, Y ) ≤ 1‬‬
‫נוכיח טענה זו בהמשך‪.‬‬
‫נמשיך לדון בדוגמה הקודמת‪ :‬נשים לב שמתקיים‪:‬‬
‫‪b‬‬
‫‪a+b‬‬
‫·‬
‫‪a‬‬
‫‪a+b‬‬
‫‬
‫‬
‫‪a‬‬
‫‪I1 ∼ I2 ∼ Bin 1, a+b‬‬
‫= ) ‪⇒ V ar (I1 ) = V ar (I2‬‬
‫‪105‬‬
‫=‬
‫מכאן‪:‬‬
‫‪−1‬‬
‫‪a+b−1‬‬
‫=‬
‫‪−ab‬‬
‫)‪(a+b)2 (a+b−1‬‬
‫‪ab‬‬
‫‪(a+b)2‬‬
‫) ‪Cov (I1 , I2‬‬
‫=‬
‫) ‪SD (I1 ) · SD (I2‬‬
‫= ) ‪Corr (X, Y‬‬
‫נשים לב שנובע מכאן כי ככל ש‪ a, b-‬גדולים יותר‪ ,‬מקדם המתאם )בערך מוחלט( בין ‪I1 , I2‬‬
‫חלש יותר‪ .‬ואכן באופן אינטואיטיבי ככל שהאוכלוסיות גדולות יותר‪ ,‬ההשפעה של שליפת‬
‫פריט אחד על שליפת השני ‪ -‬קטנה יותר‪.‬‬
‫טרמינולוגיה‬
‫‪ X, Y‬ייקראו מתואמים שלילית אם‪.Corr (X, Y ) < 0 :‬‬
‫‪ X, Y‬ייקראו מתואמים חיובית אם‪.Corr (X, Y ) > 0 :‬‬
‫‪ X, Y‬ייקראו בלתי־מתואמים אם‪:‬‬
‫‪E (XY ) = E (X) E (Y ) ⇔ Cov (X, Y ) = 0 ⇔ Corr (X, Y ) = 0‬‬
‫‪.‬‬
‫טענה‪:‬‬
‫) ‪V ar (X ± Y ) = V ar (X) + V ar (Y ) ± 2Cov (X, Y‬‬
‫הוכחה‪:‬‬
‫‪2‬‬
‫‪2‬‬
‫= ])) ‪V ar (X ± Y ) = E [X ± Y − E (X ± Y )] = E [X − E (X) ± (Y − E (Y‬‬
‫‪2‬‬
‫‪2‬‬
‫= )) ‪= E (X − E (X)) ± 2E (X − E (X)) (Y − E (Y )) + E (Y − E (Y‬‬
‫) ‪= V ar (X) ± 2Cov (X, Y ) + V ar (Y‬‬
‫‬
‫מסקנה‪ X, Y :‬בלתי־מתואמים אם ורק אם מתקיים‪:‬‬
‫) ‪V ar (X ± Y ) = V ar (X) ± V ar (Y‬‬
‫מסקנה‪:‬‬
‫) ‪V ar (aX ± bY ± c) = V ar (aX ± bY ) = a2 V ar (X)+b2 V ar (Y )±2abCov (X, Y‬‬
‫‪106‬‬
‫מסקנה‪:‬‬
‫= )‪V ar (X ± Y ± Z‬‬
‫)‪= V ar (X) + V ar (Y ) + V ar (Z) ± 2Cov (X, Y ) ± 2Cov (X, Z) ± 2Cov (Y, Z‬‬
‫נשאיר טענה זו ללא הוכחה‪.‬‬
‫חישבו על ההכללה של טענה זו לסכום כללי של ‪ n‬משתנים מקריים‪.‬‬
‫טענה‪:‬‬
‫‪−1 ≤ Corr (X, Y ) ≤ 1‬‬
‫הוכחה‪ :‬נתבונן בביטוי הבא כפונקציה של ‪:b‬‬
‫) ‪V ar (Y − bX) = V ar (Y ) + b2 V ar (X) − 2bCov (X, Y‬‬
‫זו פונקציה ריבועית ב‪ ,b-‬והיא אי־שלילית‪.‬‬
‫כזכור עבור פונקציה ריבועית כללית ‪ y = ax2 + bx + c‬מתקבל מינימום בערך‪:‬‬
‫‪b2‬‬
‫‪4a‬‬
‫‪ymin = c −‬‬
‫במקרה הנוכחי ידוע כי ‪ ymin ≥ 0‬כי הוא שונות ‪ y − bX‬עבור ‪ b‬כלשהו‪ ,‬ולכן נסיק‪:‬‬
‫‪≥0‬‬
‫) ‪Cov 2 (X,Y‬‬
‫)‪V ar(X‬‬
‫‪= V ar (Y ) −‬‬
‫) ‪4Cov 2 (X,Y‬‬
‫)‪4V ar(X‬‬
‫‪ymin = V ar (Y ) −‬‬
‫⇓‬
‫‪h‬‬
‫‪i‬‬
‫‪2‬‬
‫) ‪(X,Y‬‬
‫‪= V ar (Y ) 1 − Cov‬‬
‫=‬
‫) ‪V ar(Y‬‬
‫⇓ ‬
‫‬
‫) ‪0 ≤ V ar (Y ) 1 − Corr2 (X, Y‬‬
‫⇓‬
‫) ‪1 ≤ Corr2 (X, Y‬‬
‫⇓‬
‫‪−1 ≤ Corr (X, Y ) ≤ 1‬‬
‫) ‪4Cov 2 (X,Y‬‬
‫)‪4V ar(X‬‬
‫‪0 ≤ V ar (Y ) −‬‬
‫‬
‫ערכו של ‪ b‬שמתאר את )‪ V ar (Y − bX‬הוא‪:‬‬
‫) ‪Cov (X, Y‬‬
‫) ‪SD (Y‬‬
‫· ) ‪= Corr (X, Y‬‬
‫)‪V ar (X‬‬
‫)‪SD (X‬‬
‫דוגמה‪ :‬בכד נמצאים ‪ N = 3‬כדורים ממוספרים ‪ .1, 2, 3‬מוציאים שניים ללא החזרה‪.‬‬
‫נגדיר את ‪ X‬כמספר על הכדור הראשון ואת ‪ Y‬כמספר שעל השני‪.‬‬
‫‪107‬‬
‫נחשב את מקדם המתאם‪.‬‬
‫‪ X, Y‬שווי־התפלגות ולכן‪:‬‬
‫‪E (X) = E (Y ) = 2‬‬
‫‪2‬‬
‫‪3‬‬
‫‪− 2 · 2 = − 13‬‬
‫=‬
‫‪11‬‬
‫‪3‬‬
‫‪32 −1‬‬
‫‪12‬‬
‫= ) ‪V ar (X) = V ar (Y‬‬
‫= ) ‪Cov (X, Y ) = E (XY ) − E (X) E (Y‬‬
‫נסיק מכאן‪:‬‬
‫‪− 31‬‬
‫‪1‬‬
‫‪q =−‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫· ‪3‬‬
‫‪3‬‬
‫‪Corr (X, Y ) = q‬‬
‫הכללה‪ :‬נכליל את התוצאה שראינו בדוגמה‪.‬‬
‫נניח שבכד ‪ N‬כדורים ממוספרים ‪ ,1, 2, ..., N‬ומוציאים שניים ללא החזרה‪.‬‬
‫נגדיר את ‪ X1‬כמספר שעל הכדור הראשון ואת ‪ X2‬כמספר שעל השני‪.‬‬
‫נוכיח שמתקיים‪:‬‬
‫‪1‬‬
‫‪N −1‬‬
‫‪Corr (X1 , X2 ) = −‬‬
‫הוכחה‪ :‬ברור כי ‪ X1 , X2‬שווי־התפלגות‪ ,‬ולכן‪:‬‬
‫‪N +1‬‬
‫‪2‬‬
‫=‬
‫‪N 2 −1‬‬
‫‪12‬‬
‫= ) ‪E (X1 ) = E (X2‬‬
‫= ) ‪V ar (X1 ) = V ar (X2‬‬
‫נניח שכל הכדורים הוצאו בזה אחר זה‪ ,‬ונגדיר בהתאם בנוסף את המ"מ ‪.X3 , ..., XN‬‬
‫נטען שלכל זוג מ"מ שנבחר ) ‪ 1 ≤ i, j ≤ N ,(Xi , Xj‬התפלגות משותפת זהה עם כל‬
‫זוג משתנים שנבחר ) ‪.1 ≤ r, k ≤ N ,(Xr , Xk‬‬
‫כלומר‪ ,‬למשל ההתפלגות המשותפת של ) ‪ (X2 , X7‬זהה להתפלגות המשותפת של‬
‫) ‪ (X4 , X6‬או של ) ‪.(X2 , X6‬‬
‫לכן נוכל לסמן באופן כללי את הקבוע‪:‬‬
‫‪Cov (Xi , Xj ) = C, i 6= j‬‬
‫נשים לב שמתקיים ‪ ,V ar (X1 + X2 + ... + XN ) = 0‬כי הסכום ‪X1 +X2 +...+XN‬‬
‫הוא ערך קבוע ושווה ל‪ N (N2+1) -‬לפי נוסחת סכום של טור חשבוני‪ ,‬ושונות של קבוע‬
‫היא ‪.0‬‬
‫מאידך נזכור‪:‬‬
‫= )‪V ar (X + Y + Z‬‬
‫)‪= V ar (X) + V ar (Y ) + V ar (Z) ± 2Cov (X, Y ) ± 2Cov (X, Z) ± 2Cov (Y, Z‬‬
‫‪108‬‬
‫וניתן להכליל זאת לכל מספר של מ"מ‪ ,‬ולכן‪:‬‬
‫= ‪·C‬‬
‫)‪N (N +1‬‬
‫‪2‬‬
‫· ‪0 = V ar (X1 + X2 + ... + XN ) = N V ar (X1 ) + 2‬‬
‫‪+ N (N − 1) C‬‬
‫)‪(N 2 −1‬‬
‫‪12‬‬
‫‪=N‬‬
‫וכעת אם נחלץ מהמשוואה את ) ‪ C = Cov (Xi , Xj‬נקבל‪:‬‬
‫‬
‫‪−N N 2 − 1‬‬
‫)‪− (N + 1) (N − 1‬‬
‫)‪− (N + 1‬‬
‫=‪C‬‬
‫=‬
‫=‬
‫)‪12N (N − 1‬‬
‫)‪12 (N − 1‬‬
‫‪12‬‬
‫ולכן לפי הגדרת מקדם המתאם‪:‬‬
‫‪1‬‬
‫‪N −1‬‬
‫=‬
‫)‪−(N +1‬‬
‫‪12‬‬
‫)‪(N 2 −1‬‬
‫‪q‬‬
‫)‪(N 2 −1‬‬
‫‪12‬‬
‫‪Corr (X, Y ) = q‬‬
‫‪12‬‬
‫כלומר ככל ש‪ N -‬גדול יותר ההשפעה של מ"מ אחד על האחר קטנה יותר‪ .‬‬
‫הערה‪ :‬מתוצאה זו נובע שעבור ‪ N = 2‬מתקיים ‪ .Corr (X1 , X2 ) = −1‬כלומר מתקבל‬
‫מתאם מקסימלי )בערך מוחלט(‪ .‬ההסבר הוא שקיים קשר לינארי בין ‪ X1‬ל‪X2 -‬‬
‫שניתן להציגו ‪.X2 = 3 − X1‬‬
‫‪13.3‬‬
‫ישר הרגרסיה בין משתנים מקריים‬
‫נבחר ‪ ,a, b‬ולאחר שנבדוק את ערכו של ‪ X‬ננבא את ערכו של ‪ Y‬להיות ‪.Yˆ = b + aX‬‬
‫נשים לב שבחירת ‪ a, b‬היא עוד לפני שידענו את ערכו של ‪.X‬‬
‫תוחלת ריבוע השגיאה בין הערך המנובא לערך האמתי היא‪:‬‬
‫‪2‬‬
‫])‪E [Y − (b + aX‬‬
‫כעת נחפש מקדמים ‪ a, b‬שימזערו את השגיאה‪.‬‬
‫טענה‪:‬‬
‫)‪SD(X‬‬
‫) ‪SD(Y‬‬
‫· ) ‪amin = Corr (X, Y‬‬
‫)‪bmin = E (Y ) − amin E (X‬‬
‫הוכחה‪ :‬נזכור כי‪:‬‬
‫)‪= V ar (X) + E 2 (X‬‬
‫‬
‫‪2‬‬
‫‪− E 2 (X) ⇒ E X‬‬
‫‬
‫‪2‬‬
‫‪V ar (X) = E X‬‬
‫ומכאן שמתקיים‪:‬‬
‫‪2‬‬
‫= )‪E (Y − b − aX) = V ar (Y − b − aX) + E 2 (Y − b − aX‬‬
‫)‪= V ar (Y − aX) + E 2 (Y − b − aX‬‬
‫‪109‬‬
‫כאשר )‪ b = E (Y ) − aE (X‬המחובר השני יתאפס‪ ,‬ולכן זה אידאלי כדי למזער את‬
‫הביטוי‪.‬‬
‫)‪ a = Corr (X, Y ) · SD(X‬המחובר הראשון יקבל ערך‬
‫שכאשר‬
‫ראינו‬
‫כמו־כן‪,‬‬
‫) ‪SD(Y‬‬
‫מינימלי‪ .‬‬
‫הישר ‪ y = bmin + amin x‬נקרא ישר הרגרסיה של ‪ Y‬על ‪.X‬‬
‫דוגמה‪ :‬נמשיך עם הדוגמה הקודמת ‪ -‬מוציאים שני כדורים ללא החזרה‪ ,‬מתוך כד של ‪N‬‬
‫כדורים ממוספרים‪.‬‬
‫מגדירים את ‪ X‬להיות המספר שעל הכדור הראשון ואת ‪ Y‬להיות המספר שעל השני‪.‬‬
‫נחשב את ישר הרגרסיה של ‪ Y‬על ‪:X‬‬
‫‪y = b + ax‬‬
‫)‪SD(X‬‬
‫) ‪SD(Y‬‬
‫· ) ‪a = Corr (X, Y‬‬
‫)‪b = E (Y ) − aE (X‬‬
‫הראינו לעיל שבדוגמה זו מתקיים‪:‬‬
‫‪−1‬‬
‫‪N −1‬‬
‫= ) ‪Corr (X, Y‬‬
‫)‪. SD(X‬‬
‫ומאחר ש‪ X, Y -‬שווי־התפלגות אז ) ‪ SD (X) = SD (Y‬ולכן ‪SD(Y ) = 1‬‬
‫נסיק מכך את ערכו של ‪:a‬‬
‫‪−1‬‬
‫‪N −1‬‬
‫=‪a‬‬
‫כמו־כן נזכור שמתקיים‪:‬‬
‫‪N +1‬‬
‫‪2‬‬
‫= ) ‪E (X) = E (Y‬‬
‫ולכן נקבל את ערכו של ‪:b‬‬
‫‪N +1‬‬
‫‪1‬‬
‫‪N +1‬‬
‫‪N2 − 1 + N + 1‬‬
‫)‪N (N + 1‬‬
‫‪+‬‬
‫·‬
‫=‬
‫=‬
‫‪2‬‬
‫‪N −1‬‬
‫‪2‬‬
‫)‪2 (N − 1‬‬
‫)‪2 (N − 1‬‬
‫=‪b‬‬
‫מכאן שישר הרגרסיה הוא‪:‬‬
‫)‪N (N + 1‬‬
‫‪1‬‬
‫‪−‬‬
‫‪·x‬‬
‫)‪2 (N − 1‬‬
‫‪N −1‬‬
‫=‪y‬‬
‫נשים לב שברגע שיש הרבה כדורים‪ ,‬המידע על תוצאת הראשון לא מספק הרבה מידע‬
‫על התוצאה של השני‪ .‬זה ניכר בביטוי שקיבלנו בכך שכאשר ∞ → ‪ N‬אז השיפוע‬
‫שואף ל‪ ,0-‬והיחס בין המקדם החופשי לבין התוחלת של ‪ Y‬שואף ל‪.1-‬‬
‫נשים לב כי החותך שואף ל‪. N2 -‬‬
‫‪110‬‬
‫שונות מוסברת ולא־מוסברת‬
‫הראינו שעבור ישר הרגרסיה‪ ,‬הביטוי‪:‬‬
‫‬
‫) ‪E (Y − b − aX) = 1 − Corr (X, Y ) V ar (Y‬‬
‫‪2‬‬
‫‪2‬‬
‫הוא השונות הבלתי־מוסברת של ‪ ,Y‬כפונקציה לינארית ב‪ .X-‬כלומר גודל הטעות בניבוי‪,‬‬
‫במונחי תוחלת‪.‬‬
‫‪2‬‬
‫באופן טבעי‪ ,‬השונות המוסברת תהיה )) ‪.E (b + aX − E (Y‬‬
‫טענה‪:‬‬
‫‪2‬‬
‫) ‪E (b + aX − E (Y )) = Corr2 (X, Y ) · V ar (Y‬‬
‫‬
‫הוכחה‪ :‬נוכיח זאת לפי הנוסחה ) ‪:E T 2 = V ar (T ) + E 2 (T‬‬
‫‪2‬‬
‫)) ‪E (b + aX − E (Y )) = V ar (b + aX − E (Y )) + E 2 (b + aX − E (Y‬‬
‫|‬
‫‪{z‬‬
‫}‬
‫‪=0‬‬
‫⇓‬
‫‪2‬‬
‫)) ‪E (b + aX − E (Y )) = V ar (b + aX − E (Y‬‬
‫כמו־כן מתקיים‪:‬‬
‫= )‪V ar (b + aX − E (Y )) = V ar (aX) = a2 V ar (X‬‬
‫) ‪· V ar (X) = Corr2 (X, Y ) · V ar (Y‬‬
‫) ‪V ar(Y‬‬
‫)‪V ar(X‬‬
‫· ) ‪= Corr2 (X, Y‬‬
‫ומכאן השוויון המבוקש‪ .‬‬
‫לסיכום‪ ,‬השונות של ‪ Y‬שווה ל‪:‬‬
‫}השונות המוסברת של ‪ Y‬על־ידי פונקציה לינארית ב‪}+{X-‬השונות הבלתי־מוסברת של ‪Y‬‬
‫על־ידי פונקציה לינארית ב‪.{X-‬‬
‫‪14‬‬
‫אי־תלות בין משתנים מקריים‬
‫הגדרה‪ :‬המשתנים המקריים ‪ X1 , X2 , ..., Xn‬ייקראו בלתי־תלויים אם לכל ‪x1 , x2 , ..., xn‬‬
‫מתקיים‪:‬‬
‫) ‪P (X1 = x1 , X2 = x2 , ..., Xn = xn ) = P (X1 = x1 )·P (X2 = x2 )·...·P (Xn = xn‬‬
‫דוגמה‪:‬‬
‫‪0.3‬‬
‫‪0.7‬‬
‫‪1‬‬
‫‪0‬‬
‫‪0.18‬‬
‫‪0.42‬‬
‫‪0.6‬‬
‫‪0.12‬‬
‫‪0.28‬‬
‫‪0.4‬‬
‫‪111‬‬
‫‪X1‬‬
‫‪X2‬‬
‫‪0‬‬
‫‪1‬‬
‫כך למשל ניתן לראות שמתקיים‪:‬‬
‫)‪P (X1 = 1, X2 = 0) = 0.18 = 0.6 · 0.3 = P (X1 = 1) P (X2 = 0‬‬
‫טענה‪ :‬אם ‪ X1 , X2 , X3‬בלתי־תלויים‪ ,‬אז גם כל זוג מביניהם בלתי־תלוי‪.‬‬
‫ובאופן כללי‪ ,‬אם ‪ X1 , X2 , ..., Xn‬מ"מ בלתי־תלויים‪ ,‬אז גם כל קבוצה חלקית שלהם‬
‫מורכבת ממ"מ בלתי־תלויים‪.‬‬
‫הוכחה‪ :‬לכל ‪ x1 , x2‬מתקיים‪:‬‬
‫= ) ‪P (X1 = x1 , X2 = x2 , X3 = x3‬‬
‫‪X‬‬
‫= ) ‪P (X1 = x1 , X2 = x2‬‬
‫‪x3‬‬
‫‪X‬‬
‫‪P‬‬
‫= ) ‪P (X1 = x1 ) P (X = x2 ) P (X3 = x3 ) = P (X1 = x1 ) P (X = x2 ) x3 P (X3 = x3‬‬
‫‪x3‬‬
‫) ‪= P (X1 = x1 ) P (X = x2 ) · 1 = P (X1 = x1 ) P (X = x2‬‬
‫‬
‫טענה‪ :‬אם ‪ X1 , X2‬מ"מ ב"ת אז ‪.Corr (X1 , X2 ) = 0‬‬
‫הוכחה‪ :‬נוכיח את הטענה השקולה ) ‪:E (X1 X2 ) = E (X1 ) E (X2‬‬
‫‪XX‬‬
‫= ) ‪E (X1 X2‬‬
‫= ) ‪x1 x2 P (X1 = x1 , X2 = x2‬‬
‫‪x2‬‬
‫) ‪x2 P (X1 = x1 ) = E (X1 ) E (X2‬‬
‫‪X‬‬
‫‪x1‬‬
‫) ‪x1 P (X2 = x2‬‬
‫‪x2‬‬
‫‪X‬‬
‫=‬
‫‪x1‬‬
‫‬
‫הערה‪ :‬הטענה ההפוכה אינה נכונה‪ .‬כלומר‪ ,‬אם ‪ Corr (X1 , X2 ) = 0‬זה לא אומר שהם‬
‫בלתי־תלויים‪.‬‬
‫דוגמה־נגדית‪ :‬ניקח סדרה של זוגות נתונים )‪ ,(0, 1) , (1, 0) , (0, −1) , (−1, 0‬כאשר בכל זוג‬
‫הערך הראשון הוא ‪ X1‬והשני הוא ‪ .X2‬כל זוג מתקבל בהסתברות ‪.0.25‬‬
‫נשים לב שמתקיים‪:‬‬
‫‪E (X1 ) = E (X1 ) = 0‬‬
‫‪X1 · X2 = 0‬‬
‫‪Cov (X1 , X2 ) = 0 − 0 = 0‬‬
‫וכעת נחשב את הדוגמה הנגדית‪:‬‬
‫‪1‬‬
‫‪1 1‬‬
‫· = )‪= P (X1 = −1, X2 = 0) 6= P (X1 = −1) P (X2 = 0‬‬
‫‪4‬‬
‫‪4 2‬‬
‫‪112‬‬
‫התפלגות סכום של מ"מ בינומיים‪ :‬נניח כי )‪ ,X2 ∼ Bin (m, p) ,X1 ∼ Bin (n, p‬והם ב"ת‪.‬‬
‫אז מתקיים כי )‪.X1 + X2 ∼ Bin (n + m, p‬‬
‫הוכחה ראשונה‪ :‬כדי להוכיח שמ"מ מתפלג באופן כלשהו‪ ,‬צריך להראות שפונקצייה‬
‫ההתפלגות שלו מתאימה להגדרת ההתפלגות‪.‬‬
‫כלומר במקרה זה צריך להראות שלכל ‪ 0 ≤ i ≤ n + m‬מתקיים‪:‬‬
‫‬
‫‬
‫‪n+m‬‬
‫‪n+m−i‬‬
‫= )‪P (X1 + X2 = i‬‬
‫)‪pi (1 − p‬‬
‫‪i‬‬
‫נחשב‪:‬‬
‫== )‪P (X1 = k, X2 = i − k‬‬
‫‪i‬‬
‫‪X‬‬
‫= )‪P (X1 + X2 = i‬‬
‫‪k=0‬‬
‫)‪P (X1 = k) P (X2 = i − k‬‬
‫‪Pi‬‬
‫‪k=0‬‬
‫=‬
‫‬
‫‬
‫‬
‫ ‪i‬‬
‫‪X‬‬
‫‪n‬‬
‫‪m‬‬
‫‪n−k‬‬
‫‪m−i+k‬‬
‫)‪pk (1 − p‬‬
‫)‪pi−k (1 − p‬‬
‫=‬
‫‪k‬‬
‫‪i−k‬‬
‫=‬
‫‪k=0‬‬
‫‬
‫=‬
‫‪m‬‬
‫‪i−k‬‬
‫‬
‫‪n‬‬
‫‪k‬‬
‫‬
‫‪Pi‬‬
‫‪m−i+k‬‬
‫‪k=0‬‬
‫‪i‬‬
‫)‪= p (1 − p‬‬
‫‬
‫‬
‫‪n+m‬‬
‫‬
‫‬
‫ ‪i‬‬
‫‪X‬‬
‫‪i‬‬
‫‪n‬‬
‫‪m‬‬
‫‪m−i+k‬‬
‫=‬
‫)‪= pi (1 − p‬‬
‫·‬
‫‪k‬‬
‫‪i−k‬‬
‫‪n+m‬‬
‫‪k=0‬‬
‫‪i‬‬
‫‪n+m−i‬‬
‫)‪pi (1 − p‬‬
‫‬
‫‪n+m‬‬
‫‪i‬‬
‫‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫המעבר האחרון נובע מכך שמתקיים ‪= 1‬‬
‫‪m‬‬
‫‪i−k‬‬
‫‪‬‬
‫‪n+m ‬‬
‫‪i‬‬
‫=‬
‫‪n‬‬
‫‪k‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪Pi‬‬
‫‪ , k=0‬שכן זהו סכום‬
‫‪‬‬
‫ההסתברויות של מ"מ היפר־גאומטרי‪ .‬‬
‫הערה‪ :‬שימו לב שכאשר ‪ i − k ≥ m ,k ≥ n‬או ‪ ,i − k ≤ 0‬ערכו של המקדם הקומבינטורי‬
‫המתאים הוא ‪.0‬‬
‫‪113‬‬
‫הוכחה שנייה‪ :‬מ"מ בינומי הוא סכום של מ"מ ברנוליים שווי־התפלגות וב"ת‪ .‬ולכן הוא ניתן‬
‫להצגה באופן הבא‪:‬‬
‫‪Pn‬‬
‫‪X1 = i=1 Ii‬‬
‫‪Pn+m‬‬
‫‪i=n+1 Ii‬‬
‫= ‪X2‬‬
‫כאשר מגדירים‪:‬‬
‫‪p‬‬
‫‪1−p‬‬
‫‪1‬‬
‫‪0‬‬
‫(‬
‫= ‪Ii‬‬
‫ולכן ‪ i 6= j‬המ"מ ‪ Ii , Ij‬ב"ת‪.‬‬
‫מכאן ניתן להסיק‪:‬‬
‫‪Ii‬‬
‫‪n+m‬‬
‫‪X‬‬
‫= ‪X1 + X2‬‬
‫‪i=1‬‬
‫ובמילים‪ :‬סכום של ‪ n + m‬מ"מ ב"ת מפולגים ברנולית עם פרמטר ‪ ,p‬כלומר מ"מ מפולג‬
‫בינומית עם פרמטרים ‪ n + m‬ו‪ .p-‬‬
‫טענה‪:‬‬
‫)‪V ar (x) = np (1 − p‬‬
‫הוכחה‪ :‬נחשב‪:‬‬
‫)‪p (1 − p) = np (1 − p‬‬
‫‪n‬‬
‫‪X‬‬
‫= ) ‪V ar (Ii‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪X‬‬
‫‪i=1‬‬
‫!‬
‫=‬
‫‪Ii‬‬
‫‪n‬‬
‫‪X‬‬
‫‪V ar (X) = V ar‬‬
‫‪i=1‬‬
‫השוויון השני נובע מכך שמדובר במ"מ ב"ת‪ .‬‬
‫טענה‪ :‬אם )‪ X ∼ P ois (λ‬אז ‪.V ar (X) = λ‬‬
‫הוכחה‪ :‬פואסון הוא קירוב בינומי של )‪ ,X ∼ Bin (n, p‬ולכן‪:‬‬
‫‪V ar (X) = np (1 − p) = np − np2 −→ λ − 0 = λ‬‬
‫∞→‪n‬‬
‫‪p→0‬‬
‫‪np→λ‬‬
‫‬
‫‪114‬‬
‫חלק ‪VII‬‬
‫שקלול בין משתנים מקריים‬
‫נניח שמתעניינים בהכנסה הממוצעת של שכירים‪ .‬ממוצע זה יתקבל אם נתבונן באוכלוסיה‬
‫כולה ונחשב את הממוצע מתוך נתוני ההכנסות‪ .‬כך גם נוכל לקבל את שונות ההכנסות‪.‬‬
‫נסמן את ממוצע ההכנסות ב‪ µ-‬ואת שונותן ב‪.σ 2 -‬‬
‫לפני שאנו יודעים מהם ‪ ,µ, σ 2‬נדגום מתוך האוכלוסייה נדגם מקרי בודד‪ ,‬נסמן את הכנסתו‬
‫ב‪ X1 -‬ונניח שמתקיים‪:‬‬
‫‪E (X1 ) = µ‬‬
‫‪V ar (X1 ) = σ 2‬‬
‫נרצה לאמוד את ערכו של ‪ ,µ‬ונעשה זאת באמצעות ממוצע שיילקח על־פני מדגם מסוים‪.‬‬
‫אנו חשים כי ככל שניקח יותר נדגמים ב"ת כך נאמוד בצורה טובה יותר את ערכו של ‪.µ‬‬
‫אם ניקח למשל שני נדגמים ב"ת ונמצע עליהם‪ ,‬נקבל‪:‬‬
‫‬
‫‬
‫‪1‬‬
‫‪X1 + X2‬‬
‫‪1‬‬
‫‪E‬‬
‫‪= (E (X1 ) + E (X2 )) = (µ + µ) = µ‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‬
‫‬
‫‪X1 + X2‬‬
‫‪2σ 2‬‬
‫‪σ2‬‬
‫‪1‬‬
‫‪V ar‬‬
‫=‬
‫= )) ‪= · (V ar (X1 ) + V ar (X2‬‬
‫‪2‬‬
‫‪4‬‬
‫‪4‬‬
‫‪2‬‬
‫ככלל‪ ,‬התוחלת קבועה לכל מספר של נדגמים‪ ,‬אולם השונות תקטן ככל שנגדיל את מספר‬
‫‪2‬‬
‫הנדגמים‪ ,‬כי ערכה הוא ‪. σn‬‬
‫הקיטון בשונות מעניק משמעות פורמלית לתחושה שככל שהמדגם גדול יותר השגיאה של ‪X‬‬
‫באמידת ‪ µ‬קטנה יותר‪.‬‬
‫ואכן מתקיים‪:‬‬
‫‪2‬‬
‫‬
‫‬
‫‬
‫= ‪E X − µ = V ar X − µ + E 2 X − µ = V ar X + 0‬‬
‫!‬
‫‪σ2‬‬
‫‪n‬‬
‫= )‪· n · V ar (X‬‬
‫‪1‬‬
‫‪n2‬‬
‫=‬
‫‪Xi‬‬
‫‪n‬‬
‫‪X‬‬
‫‪1‬‬
‫‪n‬‬
‫‬
‫‪= V ar X = V ar‬‬
‫‪i=1‬‬
‫במידה ונרצה שלא לתת משקל שווה לכל נדגם‪ ,‬כך שהאומד ל‪ µ-‬יהיה ‪.αX1 + (1 − α) X2‬‬
‫התוחלת לא תשתנה‪:‬‬
‫‪E [αX1 + (1 − α) X2 ] = αE (X) + (1 − α) E (X2 ) = E (X1 ) = µ‬‬
‫ואולם השונות תהיה‪:‬‬
‫‪2‬‬
‫= ) ‪V ar [αX1 + (1 − α) X2 ] = α2 V ar (X1 ) + (1 − α) V ar (X2‬‬
‫) ‪= α2 [V ar (X1 ) + V ar (X2 )] − 2αV ar (X2 ) + V ar (X2‬‬
‫נשים לב שקיבלנו משוואה ריבועית ב‪ ,α-‬ולכן הערך שממזער אותה הוא )השונויות שוות(‪:‬‬
‫]) ‪− [−2V ar (X2‬‬
‫) ‪V ar (X2‬‬
‫‪1‬‬
‫=‬
‫=‬
‫]) ‪2 [V ar (X1 ) + V ar (X2‬‬
‫)‪V ar (X1 ) + V ar (X)2‬‬
‫‪2‬‬
‫‪115‬‬
‫= ‪αmin‬‬
‫מכאן שהמשקלים האופטימליים כאשר ) ‪ V ar (X1 ) = V ar (X2‬הם אלו השווים לכל‬
‫הנדגמים‪.‬‬
‫ניתן לראות שאם למשל מתקיים ) ‪ V ar (X1 ) < V ar (X2‬נעדיף להעניק משקל גדול יותר‬
‫למדגם בעל השונות הנמוכה‪ ,‬כדי להקטין את שונות האומד‪.‬‬
‫‪14.0.1‬‬
‫דוגמה‪ :‬השקעה אופטימלית‬
‫שתי מניות ‪ X1 , X2‬בעלות תוחלת שווה‪ ,‬אך בעלות שונות שונה‪ ,‬ונניח ≤ ) ‪V ar (X1‬‬
‫) ‪) .V ar (X2‬המשמעות היא שהמניה השנייה מסוכנת יותר(‪.‬‬
‫אם ‪ X1 , X2‬ב"ת ואנו שונאי־סיכון ייתכן ובמחשבה ראשונה נחליט שעדיף להשקיע את כל‬
‫כספינו במניה הראשונה‪ ,‬אך נראה שגם אם אנחנו שונאי־סיכון כדאי אמנם להשקיע יותר‬
‫במניה הראשונה אך לא הכל‪.‬‬
‫) ‪V ar(X2‬‬
‫כלומר להשקיע שיעור של‬
‫‪ V ar(X‬מהכסף במניה הראשונה‪ ,‬ובמניה השנייה‬
‫) ‪1 )+V ar(X2‬‬
‫) ‪V ar(X1‬‬
‫‪. V ar(X‬‬
‫להשקיע שיעור של‬
‫) ‪1 )+V ar(X2‬‬
‫תוצאה זו נראית מוזרה במבט ראשון‪ ,‬אך האינטואיציה מאחוריה היא שתמיד רצוי להגדיל‬
‫את המדגם לצורך הקטנת השונות‪ .‬למרות ש‪ X1 -‬מסוכן פחות לא נשים את כל הביצים בסל‬
‫אחד‪.‬‬
‫*****‬
‫אגב‪ ,‬ניתן לראות שכאשר מציבים במשוואה הריבועית את הערך האופטימלי ‪ αmin‬שקיבלנו‪,‬‬
‫מתקבלת השונות‪:‬‬
‫‪h‬‬
‫‪i2‬‬
‫‪h‬‬
‫‪i‬‬
‫) ‪V ar(X2‬‬
‫) ‪V ar(X2‬‬
‫‪[V‬‬
‫‪ar‬‬
‫‪(X‬‬
‫)‬
‫‪+‬‬
‫‪V‬‬
‫‪ar‬‬
‫‪(X‬‬
‫])‬
‫‪−‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫)‪V ar(X1 )+V ar(X)2‬‬
‫= ) ‪V ar(X1 )+V ar(X)2) V ar (X2 ) + V ar (X2‬‬
‫=‬
‫) ‪V ar 2 (X2‬‬
‫) ‪V ar(X1 )+V ar(X2‬‬
‫‪+ V ar (X2 ) = V ar (X2 ) −‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪+ V ar(X‬‬
‫) ‪V ar(X1‬‬
‫)‪2‬‬
‫=‬
‫) ‪V ar(X1 )V ar(X2‬‬
‫) ‪V ar(X1 )+V ar(X2‬‬
‫=‬
‫) ‪2V ar 2 (X2‬‬
‫) ‪V ar(X1 )+V ar(X2‬‬
‫‪−‬‬
‫) ‪V ar 2 (X2‬‬
‫) ‪V ar(X1 )+V ar(X2‬‬
‫) ‪V ar(X2 )V ar(X1 )+V ar 2 (X2 )−V ar(X2‬‬
‫) ‪V ar(X1 )+V ar(X2‬‬
‫=‬
‫=‬
‫כלומר מחצית הממוצע ההרמוני בין השונויות‪.‬‬
‫*****‬
‫טענה‪:‬‬
‫) ‪V ar (X2 ) − Cov (X1 , X2‬‬
‫) ‪V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2‬‬
‫= ‪αmin‬‬
‫הוכחה‪:‬‬
‫= ] ‪V ar [αX1 + (1 − α) X2‬‬
‫‪2‬‬
‫= ) ‪= α2 V ar (X1 ) + (1 − α) V ar (X2 ) + 2α (1 − α) Cov (X1 , X2‬‬
‫‬
‫‬
‫= ) ‪= α2 V ar (X1 ) + 1 − 2α + α2 V ar (X2 ) + 2α − 2α2 Cov (X1 , X2‬‬
‫) ‪= α2 (V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2 )) − 2α (V ar (X2 ) − Cov (X1 , X2 )) + V ar (X2‬‬
‫‪116‬‬
‫כפי שראינו השונות של הסכום היא פונקציה ריבועית ב‪ ,α-‬ערכו של ‪ αmin‬נקבע לפי‬
‫הנוסחה למינימום של פונקציה מסוג זה‪ .‬‬
‫כאשר מציבים במשוואה הריבועית את ערך ה‪ αmin -‬שקיבלנו‪ ,‬ניתן לראות שהשונות המינימלית‬
‫יוצאת‪:‬‬
‫) ‪V ar (X1 ) V ar (X2 ) − Cov 2 (X1 , X2‬‬
‫) ‪V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2‬‬
‫שונאי־סיכון יעדיפו שונות משותפת שלילית‪ .‬ניתן להראות כי‪:‬‬
‫‪1‬‬
‫) ‪V ar (X2‬‬
‫≤ ‪≤ αmin‬‬
‫‪≤1‬‬
‫‪2‬‬
‫) ‪V ar (X1 + X2‬‬
‫⇒ ‪Cov (X1 , X2 ) < 0‬‬
‫כלומר כאשר המתאם שלילי נשקיע יותר במניה המסוכנת על חשבון הבטוחה‪ ,‬בהשוואה‬
‫למקרה של חוסר מתאם‪.‬‬
‫כאשר ‪ α > 1‬כך שהמקדם של ‪ X2‬יוצא שלילי‪ ,‬מתייחסים לזה כאילו "לווים" מ‪ X2 -‬לטובת‬
‫‪) .X1‬בדומה למכירת ‪.(short‬‬
‫הערה‪ :‬מתקיים‪:‬‬
‫) ‪V ar (X1 ) V ar (X2‬‬
‫) ‪V ar (X1 ) V ar (X2 ) − Cov 2 (X1 , X2‬‬
‫<‬
‫) ‪V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2‬‬
‫) ‪V ar (X1 ) + V ar (X2‬‬
‫כאשר ‪ Cov (X1 , X2 ) > 0‬ייתכן שמתקיים‪:‬‬
‫) ‪V ar (X2 ) − Cov 2 (X1 , X2‬‬
‫) ‪V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2‬‬
‫<‪1‬‬
‫ונצטרך לתקן זאת כך ש‪:‬‬
‫‬
‫) ‪V ar (X2 ) − Cov 2 (X1 , X2‬‬
‫‪= min 1,‬‬
‫) ‪V ar (X1 ) + V ar (X2 ) − 2Cov (X1 , X2‬‬
‫‬
‫‪117‬‬
‫‪αmin‬‬
‫חלק ‪VIII‬‬
‫אי־שוויונים‬
‫‪15‬‬
‫אי־שוויון מרקוב‬
‫משפט‪ :‬נניח שהמ"מ ‪ X‬יכול לקבל רק ערכים אי־שליליים‪ ,‬אזי לכל ‪ a > 0‬מתקיים‪:‬‬
‫)‪E (X‬‬
‫‪a‬‬
‫≤ )‪P (X ≥ a‬‬
‫ובאופן שקול‪:‬‬
‫)‪E (X‬‬
‫‪a‬‬
‫‪P (X < a) ≥ 1 −‬‬
‫הוכחה‪ :‬נחשב‪:‬‬
‫‪X‬‬
‫≥ )‪x · P (X = x‬‬
‫≥ )‪x · P (X = x‬‬
‫‪X‬‬
‫‪x‬‬
‫‪x≥a‬‬
‫= )‪P (X = x‬‬
‫= )‪E (X‬‬
‫‪X‬‬
‫· ‪a · P (X = x) = a‬‬
‫‪x≥a‬‬
‫‪X‬‬
‫≥‬
‫‪x≥a‬‬
‫)‪a · P (X ≥ a‬‬
‫נעביר אגפים ונקבל את אי השוויון‪ .‬‬
‫דוגמה‪ :‬מחיר כרטיס למשחק קוביה עולה ‪ 4‬ש"ח‪ .‬במהלך המשחק מטילים את הקוביה‬
‫וזוכים בשקלים כמספר שיצא בקוביה‪.‬‬
‫נשחק ‪100‬פעמים ונרצה לחסום את ההסתברות שלא נצא בהפסד‪ .‬כלומר‪:‬‬
‫!‬
‫‪100‬‬
‫‪X‬‬
‫‪P‬‬
‫‪Xi ≥ 400‬‬
‫‪i=1‬‬
‫כאשר ‪ Xi‬הוא ערך הזכייה במשחק ה‪.i-‬‬
‫לפי אי־שוויון מרקוב נוכל להסיק‪:‬‬
‫‬
‫‪P100‬‬
‫) ‪E (Xi‬‬
‫‪100 · 3.5‬‬
‫‪7‬‬
‫=‬
‫=‬
‫‪400‬‬
‫‪400‬‬
‫‪8‬‬
‫‪i=1‬‬
‫=‬
‫‪Xi‬‬
‫‪P‬‬
‫‪100‬‬
‫‪i=1‬‬
‫!‬
‫‪E‬‬
‫≤‬
‫‪400‬‬
‫‪i=1‬‬
‫ובאופן שקול נוכל לקבוע‪:‬‬
‫‪7‬‬
‫‪1‬‬
‫=‬
‫‪8‬‬
‫‪8‬‬
‫!‬
‫‪≥1−‬‬
‫‪Xi < 400‬‬
‫‪100‬‬
‫‪X‬‬
‫‪i=1‬‬
‫‪118‬‬
‫‪Xi ≥ 400‬‬
‫‪100‬‬
‫‪X‬‬
‫‪P‬‬
‫‪P‬‬
‫הערה‪ :‬אי־שוויון שקול לאי־שוויון מרקוב הוא‪:‬‬
‫‪1‬‬
‫‪t‬‬
‫משמעות אי־שוויון זה היא שההסתברות להתרחק מהתוחלת קטנה יותר ככל שהמרחק‬
‫גדול יותר‪ ,‬כאשר את המרחק מודדים ביחידות התוחלת‪.‬‬
‫≤ ))‪P (X ≥ tE (X‬‬
‫‪16‬‬
‫אי־שוויון צ'בישב‬
‫משפט‪ :‬בהינתן מ"מ ‪ X‬כלשהו‪ ,‬לכל ‪ a > 0‬מתקיים‪:‬‬
‫)‪V ar (X‬‬
‫‪a2‬‬
‫≤ )‪P (|X − E (X)| ≥ a‬‬
‫ובאופן שקול‪:‬‬
‫‪1‬‬
‫‪t2‬‬
‫‬
‫≤‬
‫|)‪|X − E (X‬‬
‫‪≥t‬‬
‫)‪SD (X‬‬
‫‬
‫‪P‬‬
‫המשמעות היא שההסתברות שמ"מ יהיה רחוק מהתוחלת שלו קטנה ככל שהמרחק‬
‫ביניהם גדל‪.‬‬
‫‪2‬‬
‫הוכחה‪ :‬נגדיר מ"מ חדש ))‪ ,(X − E (X‬ונשים לב שמתקיים לפי הגדרת השונות‪:‬‬
‫‪2‬‬
‫)‪E [(X − E (X))] = V ar (X‬‬
‫כעת בהינתן ‪ a‬נפעיל את אי־שוויון מרקוב עבור ‪:a2‬‬
‫‬
‫‪ E [X − E (X)]2‬‬
‫)‪V ar (X‬‬
‫‪2‬‬
‫≤ ‪P [X − E (X)] ≥ a2‬‬
‫=‬
‫‪a2‬‬
‫‪a2‬‬
‫נעביר אגפים ונקבל את אי השוויון‪ .‬‬
‫המשך הדוגמה‪ :‬נשים לב שמתקיים עבור ‪:1 ≤ i ≤ 100‬‬
‫‪7‬‬
‫‪2‬‬
‫‪35‬‬
‫‪12‬‬
‫= ) ‪E (Xi‬‬
‫= ) ‪V ar (Xi‬‬
‫ונסמן ונקבל‪:‬‬
‫‪35‬‬
‫‪12‬‬
‫‪E (X) = 350‬‬
‫· ‪V ar (X) = nV ar (Xi ) = 100‬‬
‫(‬
‫⇒ ‪Xi‬‬
‫‪100‬‬
‫‪X‬‬
‫=‪X‬‬
‫‪i=1‬‬
‫)שונות הסכום היא סכום השונויות כי מדובר בסכום של מ"מ ב"ת(‪.‬‬
‫נשתמש בטריק כדי להגיע לביטוי שמכיל את התוחלת ‪:350‬‬
‫!‬
‫!‬
‫!‬
‫‪100‬‬
‫‪100‬‬
‫‪100‬‬
‫‪X‬‬
‫‪X‬‬
‫‪X‬‬
‫‪Xi ≥ 400 = P‬‬
‫‪Xi − 350 ≥ 400 − 350 = P‬‬
‫‪Xi − 350 ≥ 50‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫‪119‬‬
‫‪i=1‬‬
‫‪P‬‬
‫וכעת נשתמש באי־שוויון צ'בישב כדי לחסום את ההסתברות לרווח‪:‬‬
‫‪ 100‬‬
‫‬
‫!‬
‫!‬
‫‪100‬‬
‫‪X‬‬
‫‬
‫‪35‬‬
‫‪X‬‬
‫‪1 100 · 12‬‬
‫‪1‬‬
‫‪7‬‬
‫‬
‫‬
‫ ‪Xi − 350 ≥ 50 = ·P‬‬
‫· ≤ ‪Xi − 350 ≥ 50‬‬
‫=‬
‫‪2‬‬
‫‬
‫‬
‫‪2‬‬
‫‪2 50‬‬
‫‪120‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫‪P‬‬
‫‪P100‬‬
‫השוויון השני נובע מהסימטריות של המ"מ ‪ X = i=1 Xi‬סביב התוחלת‪.‬‬
‫נשים לב שקיבלנו חסם משופר משמעותית ביחס לזה שהתקבל באי־שוויון מרקוב‪,‬‬
‫שכן נעזרנו בערך השונות‪.‬‬
‫דוגמה‪ :‬מעוניים לאמוד את ‪ p‬שמוגדר כפרופורציית התמיכה במפלגת הליכוד‪.‬‬
‫נשאל ‪ n‬נדגמים ב"ת האם הם תומכים בליכוד או לא‪.‬‬
‫נגדיר אינדיקטור לתמיכה בליכוד‪:1 ≤ i ≤ n ,‬‬
‫(‬
‫‪1‬‬
‫‪p‬‬
‫= ‪Xi‬‬
‫‪0 1−p‬‬
‫האומד לפרופורציית התומכים בליכוד הוא המ"מ הממוצע ‪Xi‬‬
‫מדוע זהו אומד ל‪:p-‬‬
‫!‬
‫‪n‬‬
‫‪1‬‬
‫‪1 X‬‬
‫·‬
‫‪Xi = · np = p‬‬
‫‪E‬‬
‫‪n i=1‬‬
‫‪n‬‬
‫‪Pn‬‬
‫‪i=1‬‬
‫·‬
‫‪1‬‬
‫‪n‬‬
‫= ‪ .X‬נראה‬
‫וכמו־כן‪:‬‬
‫‪1‬‬
‫)‪p (1 − p‬‬
‫‪1‬‬
‫= )‪· np (1 − p‬‬
‫≤‬
‫‪n2‬‬
‫‪n‬‬
‫‪4n‬‬
‫!‬
‫=‬
‫‪n‬‬
‫‪1 X‬‬
‫·‬
‫‪Xi‬‬
‫‪n i=1‬‬
‫‪V ar‬‬
‫מפרסמי הסקר מעוניינים שהטעות הסטטיסטית תהיה חסומה על־ידי ‪ .3%‬כלומר‬
‫‪.a = 0.03‬‬
‫נדרוש שהוודאות שלא תתרחש טעות של ‪ 3%‬או יותר‪ ,‬תהיה ‪ 0.95‬לפחות‪.‬‬
‫ננסח את הדרישה באופן פורמלי‪:‬‬
‫‬
‫‬
‫!‬
‫‪n‬‬
‫‪1 X‬‬
‫‬
‫)‪p (1 − p‬‬
‫‪1‬‬
‫‬
‫‬
‫· ‪P‬‬
‫‪Xi − p ≤ 0.03 ≥ 1 −‬‬
‫‪≥1−‬‬
‫‪≥ 0.95‬‬
‫‪2‬‬
‫‪n‬‬
‫‬
‫‪n‬‬
‫·‬
‫‪0.03‬‬
‫‪4n‬‬
‫·‬
‫‪0.032‬‬
‫‪i=1‬‬
‫כעת נצטרך למצוא מהו ‪ n‬מספיק גדול שמקיים את הדרישה הזו‪:‬‬
‫‪≥ 0.95‬‬
‫‪1‬‬
‫‪4n·0.032‬‬
‫‪1−‬‬
‫‪m‬‬
‫‪≤ 0.05‬‬
‫‪1‬‬
‫‪4n·0.032‬‬
‫‪m‬‬
‫‪= 5555.55‬‬
‫‪1‬‬
‫‪4·0.032 ·0.05‬‬
‫≥‪n‬‬
‫ולכן כדי לעמוד בדרישות שהצבנו נצטרך לשאול ‪ 5556‬אנשים לפחות‪.‬‬
‫‪120‬‬
‫‪17‬‬
‫החוק החלש של המספרים הגדולים‬
‫‪n‬‬
‫משפט‪ :‬תהי ‪ {Xi }i=1‬סדרת משתנים מקריים בלתי־תלויים עם תוחלת )‪ E (X‬ושונות‬
‫)‪ V ar (X‬סופיות ושוות לכולם‪.‬‬
‫אזי לכל התפלגות בעלת פונקציית הסתברות ‪ P‬ולכל ‪ ε > 0‬מתקיים‪:‬‬
‫‬
‫‬
‫!‬
‫‪n‬‬
‫‪1 X‬‬
‫‬
‫‬
‫‬
‫‪Xi − E (X) > ε = 0‬‬
‫· ‬
‫‪n‬‬
‫‬
‫‪i=1‬‬
‫‪lim P‬‬
‫∞→‪n‬‬
‫הגבול קיין במובן זה שלכל ‪ ε > 0‬ולכל ‪ δ > 0‬קיים ‪ ,N‬כך שלכל ‪ n > N‬מתקיים‪:‬‬
‫‬
‫‬
‫!‬
‫‪n‬‬
‫‪1 X‬‬
‫‬
‫‬
‫‬
‫· ‪P‬‬
‫‪Xi − E (X) > ε < δ‬‬
‫‪n‬‬
‫‬
‫‪i=1‬‬
‫הערה ‪ :1‬החוק החלש של המספרים הגדולים מתייס לשונות רק בעקיפין ‪ -‬הוא מניח את‬
‫היותה סופית‪.‬‬
‫הערה ‪ N :2‬הוא פונקציה של ‪ ε, δ‬והוא תלוי בהתפלגות‪.‬‬
‫‪Pn‬‬
‫הוכחה‪ :‬נפעיל את אי־שוויון צ'בישב על המ"מ ‪ n1 · i=1 Xi‬שתוחלתו היא )‪ E (X‬ושונותו‬
‫)‪: V ar(X‬‬
‫היא‬
‫‪n‬‬
‫‬
‫‬
‫!‬
‫‪n‬‬
‫‬
‫‪1 X‬‬
‫)‪V ar (X‬‬
‫‬
‫‬
‫≤ ‪Xi − E (X) > ε‬‬
‫· ‪P‬‬
‫‪−→ 0‬‬
‫∞→‪n‬‬
‫‬
‫‪n‬‬
‫‪nε2‬‬
‫‪i=1‬‬
‫‬
‫במציאות בדרך כלל לא יודעים מהי התוחלת ולכן לוקחים את ממוצע המדגם במקומה‬
‫כאומד‪ .‬החוק אומר שככל שניקח מדגם יותר גדול‪ ,‬כך נקטין את השגיאה שלנו באמידת‬
‫תוחלת האוכלוסייה באמצעות ממוצע המדגם‪.‬‬
‫‪121‬‬