àîéãú ôøîèøéí - Stanford AI Lab

‫‪29‬‬
‫פרק ב‬
‫הסקה סטטיסטית‬
‫‪ 2.1‬על בעיית ההסקה הסטטיסטית‬
‫הסקה סטטיסטית )‪ (statistical inference‬מטפלת במצב בו יש לנו נתונים שנוצרו‬
‫מתוך התפלגות שאינה ידועה לנו‪ ,‬ועלינו לנתח אותם ולהסיק מסקנות לגביהם‬
‫ולגבי ההתפלגות שיצרה אותם‪ .‬במילים אחרות‪ ,‬ברבות מהבעיות הסטטיסטיות‬
‫בהן נדון‪ ,‬קיימות כמה התפלגויות אפשריות שיצרו נתונים מסוימים )ובבעיות‬
‫אמיתיות‪ ,‬מספר אינסופי של התפלגויות אפשריות כאלו(‪ ,‬ואנחנו מנסים ללמוד על‬
‫ההתפלגויות האלו‪ ,‬להסיק על תכונות מסוימות שלהן‪ ,‬ולקבוע את הסבירות שכל‬
‫אחת מההתפלגויות האלו היא זו שיצרה את הנתונים בפועל‪.‬‬
‫בפרק הנוכחי נתאר את הגישה הבייסיאנית להסקה סטטיסטית‪ .‬כדי להבהיר את‬
‫המושגים הבסיסיים‪ ,‬נתמקד במקרה הפשוט בו יש מספר קטן של התפלגויות‬
‫אפשריות שיצרו את הנתונים‪.‬‬
‫‪ 2.2‬הסקה והכרעה בייסיאנית‬
‫תורת ההסקה הבייסיאנית היא גישה סטטיסטית לקבלת החלטות בתנאי אי ודאות‪.‬‬
‫גישה זו מבוססת על ההנחה כי הידע הרלבנטי להחלטה מבוטא בצורה‬
‫הסתברותית וכי כל ההסתברויות הרלוונטיות ידועות‪ .‬המודל הפורמלי להכרעה‬
‫בייסיאנית מבוסס על חמישה מרכיבים שיתוארו להלן‪.‬‬
‫‪ 2.2.1‬תמונת העולם בגישה הבייסיאנית‬
‫הדוגמא הקאנונית המשמשת לתיאור תמונת העולם הבייסיאנית‪ ,‬היא אדם היוצא‬
‫מהבית ביום חורפי ומתלבט האם לקחת עמו מטריה‪ .‬נניח לשם הפשטות כי‬
‫קיימות מבחינתו שתי אפשרויות בלבד‪ :‬יהיה יום גשום או לא‪ .‬מצד אחד הוא חושש‬
‫להרטב אם לא ייקח מטריה ויהיה גשום‪ ,‬ומצד שני אם ייקח מטריה ביום ללא גשם‪,‬‬
‫ייסחב אתה שלא לצורך‪ .‬האדם מציץ מהחלון ורואה עננים שחורים וכבדים‪ ,‬ולכן‬
‫מחליט שהסיכון לגשם גובר‪ ,‬ומחליט לקחת מטריה‪ .‬תיאור פורמלי של הבעיה‬
‫במונחים בייסיאנים מתבסס על המרכיבים הבאים‪:‬‬
‫‪30‬‬
‫קבוצת מצבי העולם האפשריים }‪Ω={ωi‬‬
‫"מצבי העולם" מוגדרים כך שידיעת מצב העולם מספקת לנו מידע‬
‫הסתברותי מקסימלי‪ :‬ידועות לנו ההתפלגויות שיצרו את התצפיות‪ .‬מצבי‬
‫העולם השונים הם זרים ‪ ωi ∩ ω j = φ‬וממצים ‪. ∪ω j = Ω‬‬
‫תצפיות }‪X={x1,…,xn‬‬
‫אלו הם הנתונים שיש בידינו ומהם אנחנו מנסים להסיק מהו מצב העולם‪.‬‬
‫בדרך כלל לא נוכל להסיק בוודאות מתוך התבוננות בתצפיות מהו מצב‬
‫העולם‪.‬‬
‫מודל הסתברותי של העולם })‪P={P0(ωi),P(X|ωi‬‬
‫על פי הגישה הבייסיאנית אנו מניחים כי יש לנו ידע הסתברותי מפורש על‬
‫העולם‪ .‬ידע זה כולל הסתברויות א‪-‬פריוריות )‪ P0(ωi‬על הסיכוי להמצא‬
‫במצב עולם ‪ ,ωi‬והסתברויות מותנות לערכי התצפיות ‪ X‬בהינתן מצב‬
‫עולם נתון )‪.P(xj|ωi‬‬
‫פעולות אפשריות }‪A={α1,…,αk‬‬
‫קבוצת הפעולות מביניהן עלינו לבחור‪ .‬לכל פעולה נקבע מחיר )ראה‬
‫הפריט הבא( התלוי במצב העולם‪ ,‬ונשאף כמובן לבחור בפעולה‬
‫המתאימה ביותר למצב העולם‪.‬‬
‫מחיר לכל פעולה })‪Λ={λ(αk,ωi‬‬
‫לתוצאות של הפעולות שלנו יש‪ ,‬כידוע‪ ,‬מחיר‪ ,‬וזה נקבע על פי מצב‬
‫העולם‪ .‬פעולה שאינה מתאימה למצב העולם בו אנחנו נמצאים תלווה‬
‫בדרך כלל בקנס )מחיר בעל ערך חיובי(‪ ,‬ופעולה מתאימה תלווה ברווח‬
‫עבורנו )מחיר אי שלילי(‪ .‬המחיר של פעולה ‪ αk‬במצב עולם ‪ ωi‬יסומן ב‪-‬‬
‫)‪ ,λ(αk|ωi‬ואת מטריצת המחירים נסמן ב‪. Λ={λ(αk|ωi)} -‬‬
‫בדוגמת המטריה שתיארנו קודם‪ ,‬הרי שישנם שני מצבי עולם אפשריים )יש או אין‬
‫גשם(‪ ,‬ונניח כי שכיחותם של ימי הגשם בחורף ידועה‪ .‬ישנן גם שתי פעולות‬
‫אפשריות )לקחת מטריה או לא(‪ ,‬ולשתיהן מחירים שונים כתלות בשאלה האם ירד‬
‫גשם או לא‪ .‬התצפית )ענני גשם( משנה את ההערכה על ההסתברות שגשם אכן‬
‫ירד‪ ,‬ומשפיעה על ההחלטה לקחת מטריה‪.‬‬
‫הגישה הבייסיאנית לקבלת החלטות דורשת שיהיו בידיכם הן ההסתברות‬
‫האפריוריות )שכיחות ימי הגשם(‪ ,‬והן ההסתברויות המותנות )מה ההסתברות‬
‫לעננות כבדה ביום גשום(‪ .‬למרות שמידע כזה אינו ידוע בדרך כלל במפורש לכל‬
‫אדם‪ ,‬הרי שאין מניעה עקרונית לאסוף אותו‪ ,‬כך שהאזרח התמים יוכל לשמור על‬
‫בגדיו יבשים במינימום מאמץ‪.‬‬
‫‪31‬‬
‫נפנה כעת לדון באסטרטגיה הנכונה לקבלת החלטות בגישה הבייסיאנית‪.‬‬
‫‪ 2.2.2‬הכרעה בייסיאנית‬
‫בהינתן בעיית ההכרעה הבייסיאנית }‪ ,{Ω,X,P,A,Λ‬נרצה לבחור את הפעולה‬
‫האופטימלית שכדאי לנקוט אם אנו רואים תצפית ‪ .xj‬לצורך כך‪ ,‬ננסה כעת להגדיר‬
‫פונקצית החלטה דטרמיניסטית ‪ α : X → A‬המתאימה לכל תצפית ‪ x j‬פעולה‬
‫אופטימלית ‪ . α k‬עד כה הגדרנו מחיר לפעולות בהינתן מצב העולם‪ ,‬אך מה שנתון‬
‫לנו בפועל הן התצפיות ולכן עלינו לשקלל את מחירי הפעולות בהתאם‬
‫להסתברויות של מצבי העולם השונים‪ ,‬כפי שהן מושפעות מהתצפיות שברשותנו‪.‬‬
‫הסיכון המותנה‬
‫כדי למצוא פונקצית החלטה דטרמיניסטית אופטימלית נגדיר את הסיכון המותנה‬
‫)‪ (Conditional Risk‬לביצוע פעולה ‪ α k‬בהינתן שראינו תצפית ‪x j‬‬
‫‪| ωi )P (ω i | x j ) ,‬‬
‫‪k‬‬
‫‪∑ λ (α‬‬
‫‪ωi ∈Ω‬‬
‫≡ ) ‪R (α k | x j‬‬
‫)‪(2.1‬‬
‫ואת ההסתברות האפוסטריורית להימצא במצב עולם ‪ ωi‬נחשב תוך שימוש‬
‫בנוסחת בייס )סעיף ‪(1.2.2‬‬
‫) ‪P0 (ωi‬‬
‫) ‪P( x j | ωi‬‬
‫) ‪| ωt ) P0 (ωt‬‬
‫‪j‬‬
‫‪P( x‬‬
‫∑‬
‫‪ω‬‬
‫= ) ‪P0 (ωi‬‬
‫) ‪P ( x j | ωi‬‬
‫) ‪P( x j‬‬
‫= ) ‪P (ωi | x j‬‬
‫‪t‬‬
‫הסיכון הכולל‬
‫בהינתן אסטרטגיית הכרעה הקובעת באיזו פעולה ננקוט עבור כל תצפית‪ ,‬ניתן‬
‫לחשב את הסיכון הכולל של שימוש בפונקציה כזו‪ .‬הסיכון הכולל הוא ממוצע‬
‫הסיכונים על פני התצפיות האפשריות‪:‬‬
‫)‪(2.2‬‬
‫) ‪R [α ( x )] ≡ ∑ R (α ( x j ) | x j ) P ( x j‬‬
‫‪j‬‬
‫ובמקרה הרציף‬
‫‪R [α ( x )] ≡ ∫ R(α ( x j ) | x j ) P ( x j )dx‬‬
‫‪X‬‬
‫‪32‬‬
‫משפט‪ :‬פונקצית ההכרעה האופטימלית‬
‫פונקצית ההכרעה )‪ α*(x‬המביאה למינימום את הסיכון הכולל תהיה הפונקציה‬
‫המביאה למינימום את הסיכון המותנה לכל תצפית אפשרית‪ .‬במלים אחרות‪,‬‬
‫פונקצית ההכרעה האופטימלית קובעת לכל תצפית ‪ x‬את הפעולה בעלת הסיכון‬
‫המותנה הקטן ביותר‪ .‬ובאופן פורמלי‪ :‬בהינתן ‪ x‬הכרע *‪ α‬אם לכל *‪ α'≠α‬מתקיים‬
‫)‪.R(α*|x)≤R(α'|x‬‬
‫הוכחה‬
‫לכל‬
‫*‪α'≠α‬‬
‫ולכל‬
‫) ‪, R (α *| x ) ≤ R (α ' | x‬‬
‫מתקיים‬
‫‪x‬‬
‫) ‪∑ R (α * ( x ) | x ) P ( x ) ≤ ∑ R (α '( x ) | x ) P ( x‬‬
‫‪i‬‬
‫‪i‬‬
‫‪i‬‬
‫‪i‬‬
‫‪i‬‬
‫‪i‬‬
‫‪i‬‬
‫‪i‬‬
‫ולכן‬
‫מתקיים‬
‫ולכן ] )‪R [α * ( x) ] ≤ R [α '( x‬‬
‫כנדרש‪.‬‬
‫פונקצית ‪ δ‬כפונקצית מחיר‬
‫הסיכון מקבל משמעות פשוטה כאשר פונקצית המחיר מקבלת ערך אפס אם בחרנו‬
‫נכונה וערך ‪ 1‬אם שגינו ‪ . λ (α k | ωi ) = 1 − δ ki‬עם פונקצית המחיר הזו‪ ,‬אנחנו‬
‫משלמים מחיר רק אם טעינו‪ ,‬ולכן הסיכון המותנה הוא פשוט הסיכוי לטעות‬
‫) ‪R (α k | x j ) = ∑ (1 − δ ki ) P (ωi | x j ) = ∑ P (ωi | x j‬‬
‫‪i≠k‬‬
‫‪i‬‬
‫והסיכון הכולל יהיה הסיכוי הכולל לטעות )עבור כל התצפיות האפשריות(‪ .‬כלל‬
‫ההכרעה האופטימלי במקרה זה גם הוא פשוט ‪-‬‬
‫"בחר את מצב העולם הסביר ביותר בהנתן ‪"x‬‬
‫ובאופן פורמלי בחר ‪ α ( x ) = α k‬כך ש‪ P ( wk | x ) -‬יהיה מקסימלי‪.‬‬
‫‪33‬‬
‫‪ 2.2.3‬שני מצבי עולם‬
‫הכרעה בייסיאנית אופטימלית‬
‫ראינו כי ההכרעה הבייסיאנית האופטימלית מתבצעת על ידי בחירת אסטרטגיית‪-‬‬
‫פעולה שהיא בעלת הסיכון המותנה הנמוך ביותר‪ .‬במקרה שקיימים רק שני מצבי‬
‫עולם‪ ,‬ושתי פעוות אפשריות‪ ,‬אסטרטגיה זו מקבלת צורה פשוטה במיוחד‪ .‬אם ‪α i‬‬
‫היא הפעולה המתאימה למצב עולם ‪ ωi‬ו‪ λij -‬הוא המחיר שנשלם על הפעולה ‪α i‬‬
‫במצב עולם ‪ , λij = λ (α i | ω j ) , ω j‬אז הסיכון המותנה בבחירת הפעולה ‪ α1‬הוא‬
‫) ‪R (α1 | x ) = λ11 P(ω1 | x ) + λ12 P (ω 2 | x‬‬
‫והסיכון המותנה בבחירת הפעולה ‪ α2‬הוא‬
‫) ‪R(α 2 | x ) = λ21 P(ω1 | x ) + λ22 P(ω 2 | x‬‬
‫ובגבול ההכרעה יהיו כל התצפיות שעבורן מתקיים שוויון בין הסיכונים‪,‬‬
‫) ‪λ21 P (ω1 | x ) + λ22 P(ω 2 | x ) = λ11 P(ω1 | x ) + λ12 P(ω 2 | x‬‬
‫)‪(λ 21 − λ11 )P(ω1 | x) = (λ12 − λ 22 )P(ω 2 | x‬‬
‫כלומר כאשר‬
‫‪P (ω1 | x ) λ22 − λ12‬‬
‫=‬
‫‪P (ω 2 | x ) λ11 − λ21‬‬
‫)‪(2.3‬‬
‫נשתמש בנוסחת בייס‪ ,‬נעביר אגפים ונקבל‬
‫‪P( x | ω1 ) P0 (ω 2 ) λ 22 − λ12‬‬
‫=‬
‫⋅‬
‫‪P( x | ω 2 ) P0 (ω1 ) λ11 − λ 21‬‬
‫אגף שמאל של המשוואה נקרא יחס הנראות )‪ ,(Likelihood ratio‬זהו היחס בין‬
‫הנראות של התצפית )ההסתברות לראות תצפית( במצב העולם הראשון לבין‬
‫הנראות במצב העולם השני‪ .‬נוכל אם כן להגדיר סף ‪:Θ‬‬
‫‪P0 (ω 2 ) λ 22 − λ12‬‬
‫‪,‬‬
‫⋅‬
‫‪P0 (ω1 ) λ11 − λ 21‬‬
‫=‪Θ‬‬
‫ולחלק באמצעותו את מרחב התצפיות לשני אזורים זרים‪ :‬אזור בו יחס הנראות‬
‫גדול מהסף ‪ Θ‬ובו נכריע ‪ ω1‬ואזור בו יחס הנראות קטן מהסף ‪ Θ‬ובו נכריע ‪. ω2‬‬
‫הגבול בין שני אזורים אלו יהיה כל התצפיות עבורן מתקיים‬
‫‪34‬‬
‫‪ , P ( x | ω1 ) P ( x | ω 2 ) = Θ‬והוא נקרא גבול ההכרעה )‪.(Decision Boundary‬‬
‫המבחן שבו נשתמש יהיה אם כן להכריע ‪ ω1‬אם ורק אם‬
‫) ‪P ( x | ω1‬‬
‫‪>Θ‬‬
‫) ‪P( x | ω2‬‬
‫)‪(2.4‬‬
‫מקרה פרטי‪ :‬פונקצית ‪ δ‬כפונקצית מחיר‬
‫נטפל כעת במקרה בו פונקצית המחיר היא ‪ λ(αk,ωi)=1-δkj‬ועלינו להכריע בין שני‬
‫מצבי העולם‪ .‬הסיכון הכולל ] ‪ R[α‬במקרה כזה הוא עבור משתנים מקריים בדידים‬
‫= ) ‪Perror = ∑ min ( P (ω1 | xt ), P (ω 2 | xt ) ) P( xt‬‬
‫‪t‬‬
‫‪ P ( xt | ω1 ) P (ω1 ) P ( xt | ω 2 ) P(ω 2 ) ‬‬
‫‪= ∑ min ‬‬
‫‪,‬‬
‫) ‪ P ( xt‬‬
‫) ‪P( xt‬‬
‫) ‪P ( xt‬‬
‫‪t‬‬
‫‪‬‬
‫‪‬‬
‫) ) ‪= ∑ min ( P ( xt | ω1 ) P (ω1 ), P( xt | ω 2 ) P (ω 2‬‬
‫‪t‬‬
‫מתקיים‬
‫בו‬
‫לאזור‬
‫מתחלק‬
‫התצפיות‬
‫מרחב‬
‫ושוב‬
‫) ‪ , P ( x | ω1 ) P (ω1 ) > P ( x | ω2 ) P(ω2‬ובו נכריע לטובת מצב העולם ‪ ,ω1‬ושאר‬
‫המרחב בו נכריע לטובת מצב העולם ‪.ω2‬‬
‫דוגמא‬
‫עלי הכותרת של הפרח המצוי "לבלב מצוי" ניחנים באורך מופלג המתפלג באופן‬
‫אחיד בין סנטימטר אחד לבין ‪ 1.1‬סנטימטר‪.‬‬
‫‪10 1 ≤ x ≤ 1.1‬‬
‫‪P ( x | ω1 ) = ‬‬
‫‪ 0 otherwise‬‬
‫עלי הכותרת של הזן הנדיר "לבלב נדיר" )הזהה לחלוטין לאחיו( הם בעלי נטייה‬
‫להיות ארוכים יותר‪ ,‬על פי פונקצית ההתפלגות‬
‫‪20( x − 1) 1 ≤ x ≤ 1.1‬‬
‫‪P ( x | ω2 ) = ‬‬
‫‪otherwise‬‬
‫‪ 0‬‬
‫קל לוודא כי פונקציות אלו הן התפלגויות והאינטגרל עליהם הוא אחד‪ .‬מהו כלל‬
‫ההכרעה האופטימלי לאבחנה בין שני סוגי הלבלבים אם ידוע כי בדיוק ‪ 55‬אחוזים‬
‫מהלבלבים הפורחים במחוזותינו נמנים על פרח הלבלב המצוי‪ ,‬והשאר הם לבלבים‬
‫"נדירים"?‬
‫‪35‬‬
‫נרצה למצוא כלל הכרעה כפונקציה של אורך העלים‪ ,‬כך שלכל פרח שנמצא‪ ,‬נוכל‬
‫להכריע בין שני מצבי העולם‪ .‬נרצה להכריע "לבלב מצוי" אם )ורק אם( מתקיים‬
‫) ‪ . P(ω1 | x ) > P(ω 2 | x‬נרשום אם כן‬
‫) ‪P( x | ω1 ) P0 (ω1‬‬
‫= )‪P (ω1 | x‬‬
‫=‬
‫) ‪P ( x | ω1 ) P0 (ω1 ) + P ( x | ω2 ) P0 (ω2‬‬
‫‪10 ⋅ 0.55‬‬
‫‪5.5‬‬
‫=‬
‫‪10 ⋅ 0.55 + 20( x − 1) ⋅ 0.45 9 x − 3.5‬‬
‫‪9x − 9‬‬
‫= )‪P (ω2 | x) = 1 − P(ω2 | x‬‬
‫‪9 x − 3.5‬‬
‫=‬
‫הנקודות על גבול ההכרעה מקיימות ) ‪ , P (ω1 | x ) = P (ω 2 | x‬דהיינו‬
‫‪x = 1.611‬‬
‫⇒‬
‫‪5.5‬‬
‫‪9x − 9‬‬
‫=‬
‫‪9 x − 3.5 9 x − 3.5‬‬
‫ולכן נכריע לטובת הלבלב הנדיר אם ורק אם אורך עלי הכותרת יהיה גדול מ‪-‬‬
‫‪ , 1.611‬כלומר אף פעם‪.‬‬
‫‪36‬‬
‫דוגמא‪ :‬גבול הכרעה עבור שני מצבי עולם והתפלגויות נורמליות שוות‬
‫שונות‬
‫איור ‪2.1‬‬
‫גבול ההכרעה בין שתי התפלגויות נורמליות בעלות שונויות שוות הוא מפריד‬
‫לינארי‪ .‬הדגמה עבור התפלגויות חד מימדיות‪ ,‬דו מימדיות ותלת מימדיות‪.‬‬
‫‪37‬‬
‫דוגמא‪ :‬גבול הכרעה עבור שני מצבי עולם והתפלגויות נורמליות דו‬
‫ממדיות‬
‫איור ‪2.2‬‬
‫גבולות ההכרעה בין שתי התפלגויות נורמליות בעלות שונויות שונות‪ .‬במקרה החד‬
‫ממדי מתקבלים תחום שאינו רצוף‪ .‬במקרה הדו ממדי גבולות ההכרעה הן‬
‫פונקציות ממעלה שניה )אליפסות‪ ,‬היפרבולות(‪.‬‬
‫‪38‬‬
‫‪ 2.3‬בדיקת השערות פשוטות ומבחן סף‬
‫בסעיף הקודם תיארנו את הגישה הבייסיאנית לקבלת החלטות בתנאי אי ודאות‪.‬‬
‫על מנת להשלים את התמונה‪ ,‬נתאר כעת בקצרה גישה סטטיסטית שונה לבדיקת‬
‫השערות‪.‬‬
‫‪ 2.3.1‬מושגים בבדיקת השערות‬
‫הגדרות‬
‫נניח כי אוסף מצבי העולם מתחלק לשתי קבוצות זרות אותן נסמן ‪ Ω0‬ו‪ .Ω1 -‬נסמן‬
‫ב‪ H0 -‬את ההשערה כי מצב העולם הוא בקבוצה ‪ Ω0‬וכן נסמן ב‪ H1 -‬את ההשערה‬
‫כי מצב העולם הוא בקבוצה ‪ .Ω1‬כאשר ‪ Ω0‬מכילה רק מצב עולם יחיד‪ ,‬אזי‬
‫ההשערה ‪ H0‬מכונה השערה פשוטה )‪ ,(Simple hypothesis‬בעוד שבמקרה בו‬
‫הקבוצה מכילה מספר מצבי עולם אפשריים היא מכונה השערה מורכבת‬
‫)‪ .(composite hypothesis‬באופן דומה מגדירים עבור ‪ H1‬ו‪. Ω1 -‬‬
‫עד כה התייחסנו להשערות ‪ H0‬ו‪ H1 -‬באופן סימטרי‪ ,‬אך בבעיות רבות נהוג‬
‫להתייחס אליהן באופן שונה‪ .‬נהוג ש‪ H0 -‬מסמלת את המצב השכיח )ברירת‬
‫המחדל( ומכונה השערת האפס )‪ ,(The null hypothesis‬בעוד ‪ H1‬מסמלת את‬
‫המצב הנדיר או המסוכן ומכונה ההשערה האלטרנטיבית ‪(The alternative‬‬
‫)‪.hypothesis‬‬
‫דוגמא‪:‬‬
‫נאמר שאנחנו רוצים לזהות האם בבדיקת משטח גרון ישנו זיהום חיידקי‪ .‬ידוע כי‬
‫תוצאת ספירת החיידקים באדם בריא מתפלג נורמלית עם ממוצע ‪ 10‬ושונות ‪,20‬‬
‫ואילו באדם חולה הספירה מתפלגת נורמלית עם ממוצע בין ‪ 15‬ל‪ 20 -‬ושונות ‪.25‬‬
‫במקרה זה השערת האפס תהיה כי האדם בריא‪ ,‬והיא השערה פשוטה‪ ,‬בעוד‬
‫שההשערה האלטרנטיבית ‪ H1‬היא ההשערה שהאדם חולה והיא השערה מורכבת‬
‫היות והקבוצה ‪ Ω1‬מכילה קבוצה שלמה של מצבי עולם אפשריים‪ ,‬לכל אחד מהם‬
‫תוחלת אחרת‪.‬‬
‫שני סוגי שגיאות‬
‫כאשר קיימות שתי קבוצות של מצבי עולם יש גם שני סוגים של שגיאות אפשריות‪.‬‬
‫שגיאה ראשונה )‪ (false positive‬היא המקרה בו נקבל בטעות את ‪ H1‬למרות‬
‫שמצב העולם הוא ב‪ .Ω0 -‬במקרה של השגיאה השניה )‪ (false negative‬נקבל‬
‫בטעות את ‪.H0‬‬
‫‪39‬‬
‫‪ 2.3.2‬פרוצדורות הכרעה אופטימליות‬
‫פרוצדורת הכרעה להשערות פשוטות‪ :‬משפט ניימן‪-‬פירסון‬
‫נתאר כעת פרוצדורת הכרעה אופטימלית כאשר שתי ההשערות הן פשוטות‪ .‬תהי‬
‫‪ δ‬פרוצדורת הכרעה כלשהי‪ ,‬אז נהוג לסמן את הסתברויות השגיאה באופן הבא‪:‬‬
‫) ‪α (δ ) = Pr(Rejecting H 0 |Ω0‬‬
‫) ‪β (δ ) = Pr(Accepting H 0 |Ω1‬‬
‫)‪(2.5‬‬
‫השגיאה ‪ α‬נקראת גם המובהקות של המבחן ‪,‬ו‪ (1-β) -‬נקראת עוצמת המבחן‪.‬‬
‫בבואנו להגדיר פרוצדורה להכרעה בין שתי השערות נרצה להביא למינימום את‬
‫השגיאות ‪ α‬ו‪ .β -‬נוכל כמובן לקבוע מבחן שמכריע תמיד ‪ ,H0‬ובכך להביא את‬
‫השגיאה ‪ α‬לאפס‪ ,‬אך במקרה כזה השגיאה ‪ β‬תהיה אחת‪ .‬קריטריון שנראה סביר‬
‫הוא לנסות ולהביא למינימום קומבינציה לינארית של השגיאות מהצורה‬
‫) ‪ . aα (δ ) + bβ (δ‬עבור קריטריון כזה קיימת פרוצדורת הכרעה שהיא אופטימלית‬
‫במובן הבא‪ :‬לכל בחירת ערך של ‪ α‬הפרוצדורה מביאה למינימום את ‪.β‬‬
‫הפרוצדורה המבוקשת מתוארת על ידי הלמה של ניימן‪-‬פירסון )‪:(1933‬‬
‫יהי ‪ Θ>0‬ו‪ δ* -‬פרוצדורת הכרעה בעלת המבנה הבא‪ :‬ההשערה ‪H0‬‬
‫מתקבלת אם ) ‪ f 0 ( x ) > Θf1 ( x‬ואילו ההשערה ‪ H1‬מתקבלת אם‬
‫) ‪) f 0 ( x ) < Θf1 ( x‬כאשר ‪ fi‬היא ההסתברות לקבל התצפית ‪ x‬בהנחת‬
‫‪ .(Hi‬אז לכל פרוצדורת הכרעה אחרת ‪ ,δ‬המקיימת‬
‫)* ‪ α (δ ) ≤ α (δ‬מתקיים )* ‪ , β (δ ) ≥ β (δ‬ואם )* ‪ α (δ ) < α (δ‬אז‬
‫)* ‪. β (δ ) > β (δ‬‬
‫למרות פשטות ההוכחה לא נוכיח את הלמה כאן מטעמי קיצור‪ .‬המסקנה ממשפט‬
‫זה היא שלכל רמת מובהקות ‪ ,α‬מבחן יחס נראות מהצורה‬
‫) ‪f1 ( x‬‬
‫)‪(2.6‬‬
‫‪>Θ‬‬
‫)‪f0 ( x‬‬
‫משיג עוצמה מקסימלית )דהיינו שגיאת ‪ β‬מינימלית(‪ .‬בסעיף הקודם הגענו‬
‫למסקנה דומה לגבי מבחן יחס נראות כאשר נקטנו בגישה בייסיאנית‪ ,‬אבל כאן לא‬
‫נדרשנו להניח כי ידועות לנו ההתפלגויות האפריוריות של מצבי העולם‪ ,‬אלא קיבלנו‬
‫כי מבחן יחס נראות הוא אופטימלי במקרה של הכרעה בין שתי השערות פשוטות‪.‬‬
‫השערות מורכבות‬
‫כאשר עוברים לטפל בהשערות מורכבות‪ ,‬דהיינו להכריע בין קבוצות אפשריות של‬
‫מצבי עולם‪ ,‬הסתברויות השגיאה ‪ α‬ו‪ ,β -‬אינן מוגדרות היטב ויש להגדירן כראוי‪.‬‬
‫פתרון בגישה הבייסיאנית יהיה להביט על השגיאות הממוצעות מסוג ‪ α‬ו‪,β -‬‬
‫)למשל ‪ α‬תהיה הסיכוי לדחות את ‪ H0‬באופן ממוצע על פני מצבי העולם ב‪,( Ω0 -‬‬
‫‪40‬‬
‫אך גישה זו דורשת לדעת את ההסתברויות האפריוריות לכל אחד ממצבי העולם‬
‫ב‪ . Ω0 -‬הגישה הסטטיסטית המקובלת נמנעת מלהגדיר הסתברויות אפריוריות‬
‫כאלו‪ ,‬ובמקום זה מגדירה‬
‫‪(2.7) α = sup ( Pr(Reject H 0 | ω ) ) ,‬‬
‫‪ω ∈ Ω0‬‬
‫דהיינו ניקח את המקרה הגרוע ביותר מבין כל מצבי העולם בקבוצה ‪ .Ω0‬במקרה‬
‫זה לא קיים משפט מקביל ללמה של ניימן‪-‬פירסון ולא קיים מבחן שמבטיח עוצמה‬
‫מקסימלית לכל מצב עולם ‪ .;ω0‬ניתן עם זאת להגדיר פרוצדורה דומה של יחס‬
‫נראות המקיימת תכונות מועילות אחרות שלא נכנס אליהן כאן‪.‬‬
‫‪ 2.4‬תצפיות מרובות ומבחן סדרתי‬
‫‪ 2.4.1‬שימוש בתצפיות מרובות‬
‫עד כה התמקדנו במקרה בו נתונה לנו תצפית בודדת ‪ ,x‬וראינו כלל הכרעה‬
‫אופטימלי מהצורה‬
‫) ‪P ( x1 | ω1‬‬
‫‪> Θ.‬‬
‫) ‪P ( x1 | ω 2‬‬
‫אך למעשה כל הניתוח שלנו מתאים גם למקרה בו נתונות לנו תצפיות מרובות‪,‬‬
‫שאז נשתמש בכלל הכרעה מהצורה‬
‫) ‪P ( x1 ,..., xn | ω1‬‬
‫‪>Θ,‬‬
‫) ‪P ( x1 ,..., xn | ω 2‬‬
‫וכפי שראינו‪ ,‬עבור בחירה נכונה של הסף‪ ,‬כלל הכרעה זו הוא אופטימלי במובן של‬
‫מינימום סיכון‪ .‬פעמים רבות‪ ,‬התצפיות שלנו נאספות על ידי חזרות מרובות על‬
‫אותו ניסוי‪ .‬במקרה כזה )ואם הניסוי נערך כהלכה(‪ ,‬לכל התצפיות ישנה אותה‬
‫התפלגות והן בלתי תלויות‪ .‬במקרה זה המשתנים המקריים המתאימים הם שווי‬
‫התפלגות ובלתי תלויים זה בזה בהנתן מצב העולם‪ ,‬כך שכלל ההכרעה עבור‬
‫תצפיות מרובות מקבל את הצורה‬
‫‪n‬‬
‫) ‪P( xi | ω1‬‬
‫‪>Θ.‬‬
‫∏‬
‫) ‪i =1 P ( xi | ω 2‬‬
‫‪ 2.4.2‬בחינת תצפיות מרובות באופן סדרתי‬
‫הניתוח לעיל מתאים למקרה בו כל התצפיות ניתנות "בבת אחת"‪ .‬קיימים מקרים‬
‫רבים בהם התצפיות נאספות בזו אחר זו ויש לנו אפשרות לנסות ולהכריע במהלך‬
‫איסוף התצפיות‪ .‬בעיות מסוג זה נקראות בעיות למידת ‪) on-line‬בניגוד למקרה בו‬
‫כל הדגימות נתונות מראש הנקרא למידת ‪ .(batch‬נפנה כעת לנתח את התפתחות‬
‫הציונים שתיארנו עבור תצפיות הניתנות בזו אחר זו‪ .‬כפי שראינו‪ ,‬עבור תצפית‬
‫בודדת מתקיים‬
‫‪41‬‬
‫) ‪P ( x1 | ω‬‬
‫) ‪P (ω , x1‬‬
‫⋅ ) ‪= P0 (ω‬‬
‫) ‪P( x1‬‬
‫) ‪P0 (ω ) P ( x1‬‬
‫הסתכלות אפשרית על נוסחה זו היא כי ההסתברות האפריורית למצב העולם‬
‫) ‪ P0 (ω‬מוכפלת ב‪" -‬גורם תיקון" ]) ‪ , P (ω , x1 ) [ P0 (ω ) P( x1‬וכאשר גורם תיקון זה‬
‫שונה מאחד‪ ,‬כלומר כאשר ) ‪ , P ( x1 , ω ) ≠ P0 (ω ) P ( x1‬המדידה מספקת אינפורמציה‬
‫על מצב העולם‪.‬‬
‫⋅ ) ‪P (ω | x1 ) = P0 (ω‬‬
‫אם יש לנו שתי מדידות‪ x1 , x2 ,‬אזי ההסתברות למצב העולם לאור שתי התצפיות‬
‫תהיה‬
‫= ) ‪P (ω | x1 , x2‬‬
‫) ‪P0 (ω ) P ( x1 , x2 | ω‬‬
‫) ‪P0 ( x1 , x2‬‬
‫) ‪P ( x1 | ω ) P ( x2 | ω , x1‬‬
‫⋅‬
‫) ‪P ( x1‬‬
‫) ‪P ( x2 | x1‬‬
‫=‬
‫) ‪= P0 (ω‬‬
‫וגורמי התיקון כאן הולכים ומסתבכים‪.‬‬
‫במקרה בו התצפיות בלתי‪-‬תלויות בהינתן‬
‫) ‪ , P ( x1 , x2 | ω ) = P ( x1 | ω ) P( x2 | ω‬אז ניתן לרשום‬
‫) ‪P ( x1 ,..., xn | ωi‬‬
‫) ‪P ( x1 ,..., xn‬‬
‫מצב‬
‫) ‪P (ωi | x1 ,..., xn ) = P0 (ωi‬‬
‫) ‪P ( x1 ,..., xn | ωi‬‬
‫) ‪| ω j )P0 (ω j‬‬
‫‪m‬‬
‫‪n‬‬
‫העולם‪,‬‬
‫‪∑ P( x ,..., x‬‬
‫‪1‬‬
‫) ‪= P0 (ωi‬‬
‫‪j =1‬‬
‫‪1‬‬
‫) ‪P( x1 ,..., xn | ω j ) P0 (ω j‬‬
‫) ‪| ωi ) P0 (ωi‬‬
‫‪n‬‬
‫‪m‬‬
‫‪∑ P( x ,..., x‬‬
‫‪j =1‬‬
‫‪1‬‬
‫‪1‬‬
‫) ‪P( x1 ,..., xn | ω j ) P0 (ω j‬‬
‫) ‪P ( x1 ,..., xn | ωi ) P0 (ωi‬‬
‫=‬
‫‪m‬‬
‫∑ ‪1+‬‬
‫‪j ≠i‬‬
‫=‬
‫דהיינו‬
‫‪42‬‬
‫ובמקרה שקיימים רק שני מצבי עולם נקבל‬
‫‪1‬‬
‫) ‪P ( x1 ,..., xn | ω 2 ) P0 (ω 2‬‬
‫‪1+‬‬
‫) ‪P( x1 ,..., xn | ω1 ) P0 (ω1‬‬
‫= ) ‪P (ω1 | x1 ,..., xn‬‬
‫‪1‬‬
‫) ‪P0 (ω 2‬‬
‫) ‪n P ( xi | ω 2‬‬
‫∏‬
‫‪i =1‬‬
‫) ‪P0 (ω1‬‬
‫) ‪P ( xi | ω1‬‬
‫=‬
‫‪1+‬‬
‫‪1‬‬
‫‪‬‬
‫‪ P( xi | ω 2 ) ‬‬
‫‪ P0 (ω 2 )  ‬‬
‫‪1 + exp  ∑ log ‬‬
‫‪ + log ‬‬
‫‪‬‬
‫‪ P ( xi | ω1 ) ‬‬
‫‪ P0 (ω1 )  ‬‬
‫‪ i =1‬‬
‫‪n‬‬
‫)‪(2.8‬‬
‫=‬
‫וקיבלנו פונקציה סיגמואידית שהשיפוע שלה גדל עם ‪ , n‬כלומר‪ ,‬היכולת להבחין בין‬
‫שני מצבי העולם גדלה וההסתברויות נעשות חדות עם הגידול במספר התצפיות‪.‬‬
‫כאשר ‪ n‬גדול‪ ,‬ההסתברות למצב עולם בהנתן התצפיות היא או אפס‪ ,‬או אחת‪.‬‬
‫‪ 2.4.3‬מבחן סדרתי להכרעה ‪-‬‬
‫‪Sequential Probability Ratio Test‬‬
‫)‪(SPRT‬‬
‫נשוב לבעיית ההכרעה הבייסיאנית‪ .‬בפרק הקודם תיארנו פרוצדורה להכרעה בין‬
‫שני מצבי עולם בה השווינו את יחס הנראות לסף‪ .‬כעת‪ ,‬כאשר אנחנו פועלים‬
‫בתרחיש של למידת ‪ ,on-line‬יש לפנינו שלוש אפשרויות במקום שתיים‪ :‬בנוסף‬
‫לשתי ההכרעות )לקבל מצב עולם ‪ 1‬או לקבל מצב עולם ‪ (0‬אנחנו יכולים ל"החליט‬
‫שלא להחליט"‪ ,‬ולדרוש נתונים נוספים לצורך הכרעה‪ .‬מסתבר כי בדומה למבחן‬
‫ההשוואה לסף אותו תיארנו בפרק הקודם‪ ,‬ניתן לבחור ספים עבור פרוצדורה מסוג‬
‫זה כך שיובטחו הסתברויות השגיאה הנדרשות‪ .‬נעבור אם כן לתיאור פורמלי של‬
‫פרוצדורת ההכרעה מסוג זה‪.‬‬
‫משפט‪ (Wald 1942) :‬בהנתן ‪ 1 ≥ α , β ≥ 0‬נגדיר מבחן "סדרתי" המשתמש בשני‬
‫ספים‬
‫‪ω1‬‬
‫‪continue‬‬
‫‪ω0‬‬
‫)‬
‫)‬
‫(‬
‫(‬
‫)‪(n‬‬
‫‪‬‬
‫‪1 − α L x | ω0‬‬
‫‪‬‬
‫<‬
‫‪n‬‬
‫‪‬‬
‫‪β‬‬
‫‪L x ( ) | ω1‬‬
‫‪‬‬
‫‪n‬‬
‫‪‬‬
‫‪L x ( ) | ω0‬‬
‫‪1−α‬‬
‫‪ α‬‬
‫<‬
‫<‬
‫‪decision = ‬‬
‫)‪n‬‬
‫(‬
‫‪β‬‬
‫‪1 − β L x | ω1‬‬
‫‪‬‬
‫‪n‬‬
‫‪‬‬
‫‪L x ( ) | ω0‬‬
‫‪α‬‬
‫‪‬‬
‫<‬
‫)‪(n‬‬
‫‪1− β‬‬
‫‪‬‬
‫‪L x | ω1‬‬
‫‪‬‬
‫)‬
‫)‬
‫)‬
‫)‬
‫(‬
‫(‬
‫(‬
‫(‬
‫)‪(2.9‬‬
‫‪43‬‬
‫אם נסמן ב‪ α ' -‬את הסתברות השגיאה מסוג ראשון של מבחן זה‪ ,‬ןב‪ β ' -‬את‬
‫‪β‬‬
‫‪α‬‬
‫≤ ' ‪ α‬ו‪-‬‬
‫הסתברות השגיאה מסוג שני‪ ,‬אזי מובטח כי‬
‫‪1− β‬‬
‫‪1−α‬‬
‫≤' ‪.β‬‬
‫מבחן זה מכריע מצב עולם ‪ 1‬אם חוצים את הסף העליון‪ ,‬מצב עולם ‪ 0‬אם יורדים‬
‫מתחת לסף התחתון‪ ,‬ובמקרה שערכו של יחס הנראות הוא בין שני הספים‪ ,‬יש‬
‫לחכות לתצפיות נוספות‪ .‬בפועל‪ ,‬פרט לאי דיוק הנובע מכך דגימות הן אלמנטים‬
‫בדידים‪ ,‬מתקיים ‪ α ' ≤ α‬ו‪. β ' ≤ β -‬‬
‫הוכחה‪:‬‬
‫יהיו ‪ A‬ו‪ B -‬שני ספים )מאוחר יותר נגדיר את הערכים שלהם במפורש‪ ,‬ולעת עתה‬
‫יהיו מספרים כלשהם(‪ ,‬ובאמצעותם נגדיר את קבוצת סדרות התצפיות באורך ‪n‬‬
‫שעבורן אנחנו מכריעים ‪ ω1‬בדיוק כשהגענו לתצפית ה‪ -n -‬ית‬
‫‪Cn = {x (n) such that decide ω 1‬‬
‫}‪exactly after n observations‬‬
‫(‬
‫(‬
‫)‬
‫)‬
‫‪l‬‬
‫‪‬‬
‫‪L x ( ) | ω0‬‬
‫)‪ (n‬‬
‫≤ ‪=  x such that B‬‬
‫= ‪≤ A for l‬‬
‫‪l‬‬
‫‪L x ( ) | ω1‬‬
‫‪‬‬
‫(‬
‫‪) < B ‬‬
‫‪‬‬
‫) ‪L ( x( ) | ω‬‬
‫‪‬‬
‫‪L x ( ) | ω0‬‬
‫)‪(2.10‬‬
‫‪n‬‬
‫‪n‬‬
‫‪1..n − 1 and‬‬
‫‪1‬‬
‫ובאופן דומה את קבוצת הסדרות באורך ‪ n‬עבורן נכריע ‪ ω0‬בתצפית ה‪-n -‬ית‬
‫‪Dn ≡ {x (n) such that decide ω0‬‬
‫}‪exactly after n observations‬‬
‫(‬
‫)‬
‫(‬
‫)‬
‫‪L ( x ( ) | ω ) ‬‬
‫< ‪1..n − 1 and A‬‬
‫‪‬‬
‫‪L ( x( ) | ω ) ‬‬
‫‪‬‬
‫‪l‬‬
‫‪‬‬
‫‪L x ( ) | ω0‬‬
‫)‪ (n‬‬
‫≤ ‪=  x such that B‬‬
‫= ‪≤ A for l‬‬
‫‪l‬‬
‫‪L x ( ) | ω1‬‬
‫‪‬‬
‫)‪(2.11‬‬
‫‪n‬‬
‫‪0‬‬
‫‪n‬‬
‫‪1‬‬
‫המאורע בו נכריע ‪ ω1‬הוא איחוד המאורעות }‪ ,{Cn‬שהם מאורעות זרים וממצים‪.‬‬
‫לכן‪ ,‬הסיכוי הכולל שנכריע ‪ ω1‬הוא פשוט סכום הסיכויים שנכריע ‪ ω1‬בכל צעד ‪,n‬‬
‫כלומר‬
‫∞‬
‫) ‪P ( decide ω1 ) = ∑ P ( Cn‬‬
‫‪n =1‬‬
‫‪44‬‬
‫והסתברות השגיאה מסוג ראשון ‪ α‬נתונה על ידי‪:‬‬
‫)‬
‫וכן‬
‫(‬
‫‪(2.12) α = ∑ P ( Cn | ω0 ) = ∑ ∫ Pr X ( ) | ω 0‬‬
‫‪n‬‬
‫‪Cn‬‬
‫‪n‬‬
‫‪n‬‬
‫= ) ‪1 − β = 1 − ( probability to decide ω0 while ω1‬‬
‫= ) ‪= ( probability to decide ω1 while ω1‬‬
‫)‬
‫ובאופן דומה‬
‫‪n‬‬
‫‪0‬‬
‫‪1 − α = ∑ ∫ Pr X‬‬
‫‪Dn‬‬
‫כעת לכל סדרה‬
‫)‬
‫(‬
‫)‬
‫‪| ω 0 ≤ B ⋅ Pr X ( ) | ω1‬‬
‫‪n‬‬
‫)‬
‫)‪(n‬‬
‫(‬
‫‪n‬‬
‫‪n‬‬
‫‪1‬‬
‫‪( x1 ,..., xn ) ∈ Cn‬‬
‫‪n Cn‬‬
‫) ‪( |ω‬‬
‫) ‪β = ∑ ∫ Pr ( X ( ) | ω‬‬
‫)‪(n‬‬
‫‪.‬‬
‫(‬
‫‪= ∑ ∫ Pr X ( ) | ω1‬‬
‫‪Dn‬‬
‫)‪(2.13‬‬
‫‪n‬‬
‫)הכרענו ‪ ω1‬אחרי ‪ n‬תצפיות בדיוק( מתקיים‬
‫‪ , Pr x‬ולכן‬
‫(‬
‫(‬
‫)‬
‫‪α = ∑ ∫ Pr x ( n ) | ω 0 ≤ ∑ ∫ B ⋅ Pr X ( n ) | ω1‬‬
‫‪Cn‬‬
‫‪n‬‬
‫‪Cn‬‬
‫‪n‬‬
‫) ‪= B (1 − β‬‬
‫ולכל סדרה ב‪ Dn -‬מתקיים‬
‫)‬
‫‪| ω1‬‬
‫)‪(n‬‬
‫‪) ∑ ∫ A ⋅ Pr (X‬‬
‫≥ ‪| ω0‬‬
‫‪n Dn‬‬
‫)‪( n‬‬
‫‪∑ ∫ Pr (X‬‬
‫= ‪1−α‬‬
‫‪n Dn‬‬
‫‪= A⋅ β‬‬
‫כלומר מצאנו חסמים על הסתברויות השגיאה במונחים של ערכי הסף ‪ A‬ו‪.B-‬‬
‫המסקנה מניתוח זה היא שבהנתן ערכי שגיאות ‪ α0‬ו‪ β0 -‬רצויים נוכל לקבוע ספים‬
‫'‪ A‬ו‪ , B' -‬התלויים רק ב‪ α0 -‬ו‪β0 -‬‬
‫‪α0‬‬
‫‪1 − β0‬‬
‫‪1− α0‬‬
‫≡ '‪A‬‬
‫‪β0‬‬
‫≡ '‪B‬‬
‫)‪(2.14‬‬
‫וספים אלו מקיימים ‪ B ' ≤ B‬ו‪ . A' ≥ A -‬ולכן מבטיחים כי אם נעבור אותם – נעבור‬
‫גם את ‪ A‬ו‪ B-‬והסתברויות השגיאה בפועל של המבחן יקיימו ) ‪ α ' ≤ α 0 /(1 − β 0‬ו‪-‬‬
‫‪45‬‬
‫) ‪ . β ' ≤ β 0 /(1 − α 0‬האיור המצורף להלן מבהיר את היחס בין ספים אלו‪ .‬כאמור‬
‫ניתן גם להראות כי בפועל‪ ,‬פרט לאי דיוק הנובע מכך שהדגימות הן אלמנטים‬
‫בדידים‪ ,‬מתקיים ‪ α ' ≤ α‬ו‪ . β ' ≤ β -‬כפי שכבר ציינו‪ ,‬בדרך כלל נשתמש במבחן‬
‫לוג יחס הנראות במקום ביחס הנראות‪ ,‬ולכן גם בלוג של הספים‪.‬‬
‫דוגמא‬
‫בתכנון ערכה לזיהוי תאים סרטניים נרצה הסתברות גילוי של ‪( α = 10−4 ) 99.99%‬‬
‫והסתברות התראות שווא של ‪ , ( β = 10−3 ) 0.1%‬ונקבל את הספים הבאים‬
‫המבטיחים שלא נחרוג מהסתברויות השגיאה הנדרשות‬
‫‪1 − α 0.9999‬‬
‫=‬
‫‪≅ 1000 ⇒ log10 ( A) = 3‬‬
‫=‪A‬‬
‫‪β‬‬
‫‪10−3‬‬
‫‪α‬‬
‫‪10−4‬‬
‫=‪B‬‬
‫=‬
‫‪≅ 10−4 ⇒ log10 ( B ) = −4‬‬
‫‪1 − β 0.999‬‬
‫כמות התצפיות הדרושות לקבלת הכרעה‬
‫המבחן הסדרתי מאפשר לנו להגיע להכרעה עם מספר תצפיות שמשתנה באופן‬
‫גמיש‪ :‬אם בשל מזל טוב במיוחד התצפיות הראשונות שקיבלנו הן כאלו שעבורן קל‬
‫להכריע‪ ,‬הרי שנסתפק בהן‪ .‬אם לעומת זאת נקבל תצפיות שאינו מאפשרות‬
‫הכרעה‪ ,‬הרי שנצטרך להשתמש ביותר תצפיות‪ .‬מסתבר‪ ,‬שבאופן ממוצע‬
‫פרוצדורת המבחן הסדרתי דורשת שימוש בפחות תצפיות מאשר כמות התצפיות‬
‫הדרושה במבחן יחס נראות שאיננו סדרתי‪ .‬לכן פרוצדורה כזו היא שימושית‬
‫במיוחד במקרה שיש עלות גבוהה לייצר דגימה )למשל כאשר כל אחת מהתצפיות‬
‫דורשת לבצע ניסוי ארוך‪/‬יקר‪/‬מסוכן על נבדקים מתנדבים(‪ .‬למעשה‪ ,‬התיאוריה‬
‫אותה אנו מתארים פותחה לראשונה על ידי ‪ Wald‬לצורך בדיקת איכות של סדרות‬
‫פגזים במלחמת העולם השניה‪ :‬בהינתן סדרת ייצור של פגזים‪ ,‬היה צורך לבצע‬
‫ניסויי ירי ולהכריע האם הסדרה תקינה או פגומה‪ .‬השאיפה להכריע לגבי תקינות‬
‫הסדרה על ידי שימוש בכמה שפחות פגזים‪ ,‬הביאה את הצי האמריקאי לפנות‬
‫לסטטיסטיקאים שיפתחו פרוצדורות יעילות לבחינת הפגזים‪.‬‬
‫‪46‬‬
‫כדי להעריך כמה תצפיות בממוצע דרושות על מנת לקבל הכרעה‪ ,‬נתבונן כיצד‬
‫(‬
‫מתנהג )‬
‫‪ log‬כפונקציה של ‪ .n‬כאשר הדגימות הן בלתי תלויות בהנתן‬
‫) (‬
‫) ‪L ( X ,ω‬‬
‫מצב העולם‪ ,‬אז ) ‪ , P ( X ( ) | ω ) = ∏ P ( X | ω‬ונרשום‬
‫‪L X ( ) ,ω0‬‬
‫‪n‬‬
‫‪n‬‬
‫‪1‬‬
‫‪n‬‬
‫‪i‬‬
‫‪n‬‬
‫‪i =1‬‬
‫‪ P0 (ω0 ) n P ( X i | ω0 ) ‬‬
‫‪y ≡ log ‬‬
‫= ‪‬‬
‫∏‬
‫‪ P0 (ω1 ) i =1 P ( X i | ω1 ) ‬‬
‫‪n‬‬
‫) ) ‪= log ( P0 (ω0 ) ) + ∑ log ( P ( xi | ω0‬‬
‫‪i =1‬‬
‫‪n‬‬
‫= ) ) ‪− log ( P0 (ω1 ) ) − ∑ log ( P ( xi | ω1‬‬
‫‪i =1‬‬
‫‪ P0 (ω0 )  n‬‬
‫‪ P ( xi | ω0 ) ‬‬
‫‪= log ‬‬
‫‪ + ∑ log ‬‬
‫= ‪‬‬
‫‪P‬‬
‫‪ω‬‬
‫‪P‬‬
‫‪x‬‬
‫|‬
‫‪ω‬‬
‫(‬
‫)‬
‫(‬
‫)‬
‫=‬
‫‪1‬‬
‫‪i‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪i‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪1 n‬‬
‫‪ P0 (ω0 ) ‬‬
‫‪ P ( xi | ω0 )  ‬‬
‫‪= log ‬‬
‫‪ + n  ∑ log ‬‬
‫≡ ‪ ‬‬
‫‪ P0 (ω1 ) ‬‬
‫‪ P ( xi | ω1 )  ‬‬
‫‪ n i =1‬‬
‫‪≡a⋅n+b‬‬
‫כלומר קבלנו משוואה לינארית מהצורה ‪ y = a·n + b‬כשהשיפוע‬
‫‪ P ( xi | ω 0 ) ‬‬
‫‪1 n‬‬
‫‪log ‬‬
‫‪‬‬
‫∑‬
‫‪n i =1‬‬
‫‪ P ( xi | ω1 ) ‬‬
‫=‪a‬‬
‫)‪(2.15‬‬
‫הוא הממוצע האמפירי של לוג יחס הנראות‪ .‬על‪-‬פי החוק החלש של המספרים‬
‫הגדולים‪ ,‬ממוצע של ‪ n‬משתנים מקריים המתפלגים ‪ i.i.d.‬שואף לתוחלת‬
‫‪1 n‬‬
‫) ‪ . ∑ i =1 xi → ∑ { x} x ⋅ p ( x‬ההסתברות לפיה נחשב את התוחלת תלויה במצב‬
‫‪n‬‬
‫העולם האמיתי‪ ,‬ולכן נקבל במצב ‪ω0‬‬
‫‪ P ( xi | ω 0 ) ‬‬
‫‪1 n‬‬
‫‪lim ∑ log ‬‬
‫‪‬‬
‫‪n →∞ n‬‬
‫‪i =1‬‬
‫‪ P ( xi | ω1 ) ‬‬
‫)‪(2.16‬‬
‫‪ P ( x ' | ω0 ) ‬‬
‫‪→ ∑ P ( x ' | ω 0 ) log ‬‬
‫‪‬‬
‫'‪x‬‬
‫‪ P ( x ' | ω1 ) ‬‬
‫‪47‬‬
‫ובמצב ‪ ,ω1‬שוב על פי חוק המספרים הגדולים‬
‫‪ P ( xi | ω1 ) ‬‬
‫‪1 n‬‬
‫‪log ‬‬
‫‪‬‬
‫∑‬
‫‪n →∞ n‬‬
‫‪i =1‬‬
‫‪ P ( xi | ω12 ) ‬‬
‫‪lim‬‬
‫‪ P ( x ' | ω0 ) ‬‬
‫‪(2.17) → ∑ P ( x ' | ω1 ) log ‬‬
‫=‪‬‬
‫'‪x‬‬
‫‪ P ( x ' | ω1 ) ‬‬
‫‪ P ( x ' | ω1 ) ‬‬
‫‪= − ∑ P ( x ' | ω1 ) log ‬‬
‫‪‬‬
‫'‪x‬‬
‫‪ P ( x ' | ω0 ) ‬‬
‫הביטויים שקיבלנו מכילים תלויות במדד חשוב לדמיון בין התפלגויות שאותו נתאר‬
‫בסעיף הבא‪.‬‬
‫‪ 2.4.4‬מדד לדמיון בין התפלגויות‬
‫–‬
‫‪The Kullback Leibler‬‬
‫‪Divergence‬‬
‫הגדרה‪ :‬המרחק הסטטיסטי‬
‫עבור ‪ X‬מ"מ בדיד ו‪ ,P -‬ו‪ Q -‬שתי התפלגויות‪ ,‬הגודל‬
‫‪ p( x ) ‬‬
‫‪D [ p || q ] = ∑ p( x )log ‬‬
‫‪‬‬
‫‪x‬‬
‫‪ q( x ) ‬‬
‫)‪(2.18‬‬
‫מהווה מדד למידת הדמיון הסטטיסטי בין ההתפלגויות‪ .‬לגודל מספר רב של שמות‪:‬‬
‫‪ , Kullback Leibler Divergence, Relative Entropy, Cross Entropy‬וחשיבותו‬
‫רבה בתורת האינפורמציה‪ ,‬בלמידה חישובית ובפיסיקה סטטיסטית‪ .‬למרבה‬
‫הבלבול‪ ,‬תחומי מדע שונים נוהגים לבחור בסיס שונה לפונקצית הלוג במשוואה‪:‬‬
‫בפיסיקה נהוג השימוש בלוגריתם הטבעי ובמדעי המחשב בלוג בבסיס ‪ .2‬אנחנו‬
‫נשתמש בבסיסים שונים לפי הצורך‪ ,‬ונשים לב כי שינוי בסיס הלוגריתם מתבטא‬
‫בהכפלת המרחק בקבוע‪.‬‬
‫מדד זה אינו עונה לקריטריונים של מרחק היות והוא אינו סימטרי ואינו מקיים את‬
‫אי שוויון המשולש‪ .‬קל להבין את הסיבה לחוסר הסימטריה אם נזכר כי הראנו ש‪-‬‬
‫‪ D‬מודד עד כמה קל להבחין בין שתי התפלגויות הנובעות משני מצבי עולם‪ .‬היות‬
‫והתצפיות שאנו רואים בפועל תלויות במצב העולם‪ ,‬אז יתכן שאחד ממצבי העולם‬
‫יספק תצפיות שיקלו על ההכרעה‪.‬‬
‫למרות שאינו עונה על הקריטריונים של מרחק‪ ,‬המדד ‪ D‬מקיים תכונות חשובות‬
‫ההופכות אותו לשימושי להשוואת התפלגויות‪ .‬נראה כעת שלוש תכונות כאלו‪:‬‬
‫נראה כי הוא מדד חיובי‪ ,‬וכן את הקשר שלו לשני מדדי מרחק אחרים‪.‬‬
‫‪48‬‬
‫טענה‪ D[p||q] :‬הוא אי שלילי‪ ,‬ומקבל ערך אפס אם ורק אם ‪ p=q‬כמעט‬
‫בכל מקום‬
‫הוכחה‬
‫נסמן ב‪ A -‬את קבוצת המאורעות שעבורם ‪ . A = {x : p( x ) > 0} , p(x)>0‬נשתמש‬
‫באי השוויון ‪) log( x ) ≤ x − 1‬עבור הבסיס הטבעי(‪ ,‬ונרשום‬
‫‪ p( x) ‬‬
‫‪p( x) log ‬‬
‫=‪‬‬
‫‪q ( x) ‬‬
‫‪‬‬
‫‪x∈ A‬‬
‫‪− D [ p || q ] = −‬‬
‫‪ q ( x) ‬‬
‫‪p ( x) log ‬‬
‫≤‪‬‬
‫‪ p( x) ‬‬
‫‪x∈ A‬‬
‫=‬
‫)‪ q( x‬‬
‫‪‬‬
‫‪p ( x) ‬‬
‫= ‪− 1‬‬
‫‪ p ( x) ‬‬
‫‪x∈ A‬‬
‫=‬
‫∑‬
‫∑‬
‫∑‬
‫≤ )‪p ( x‬‬
‫∑‬
‫‪p ( x) = 1 − 1 = 0‬‬
‫∑‬
‫‪q( x) −‬‬
‫∑‬
‫‪q( x) −‬‬
‫∑‬
‫‪x∈ A‬‬
‫)‪(2.19‬‬
‫=‬
‫‪x∈ A‬‬
‫‪x∈ A‬‬
‫=‬
‫‪x∈Ω‬‬
‫נשים לב כי על מנת שיתקיים שוויון ‪ ,‬דרוש כי לכל ‪ x‬ב‪ A -‬מתקיים‬
‫) )‪ , log ( q ( x) / p ( x) ) = 1 − ( q( x) / p( x‬ושוויון זה מתקיים אם ורק אם )‪. p(x)=q(x‬‬
‫קיבלנו כי ‪ D [ p || q ] = 0‬אם ורק אם )‪ p(x)=q(x‬לכל ‪ x‬שעבורו ‪.p(x)>0‬‬
‫טענה‪ D(p||q) :‬מקיים‬
‫‪2‬‬
‫‪1 ‬‬
‫‪‬‬
‫≥ ] ‪D [ p || q‬‬
‫‪p ( x ) − q( x ) ‬‬
‫∑‬
‫‪‬‬
‫‪2ln 2  x‬‬
‫‪‬‬
‫כאשר ‪ D‬מחושב עם לוג בבסיס ‪ .2‬הוכחה בתרגיל‪.‬‬
‫טענה‪ D[p||q] :‬חסום על ידי‬
‫‪1‬‬
‫‪( p( x ) − q( x )) 2‬‬
‫‪1‬‬
‫‪( p( x ) − q( x ))2‬‬
‫≤‬
‫≤‬
‫‪D‬‬
‫[‬
‫‪p‬‬
‫||‬
‫‪q‬‬
‫]‬
‫∑‬
‫∑‬
‫)) ‪2 x max( p( x ), q( x‬‬
‫)) ‪2 x min( p( x ), q( x‬‬
‫)‪(2.21‬‬
‫)‪(2.20‬‬
‫‪49‬‬
‫טענה‪:‬‬
‫כאשר ‪ , p ≈ q‬ניתן לקרב את ]‪ D[p||q‬על ידי‬
‫‪1‬‬
‫) ‪1 n ( pi − qi‬‬
‫=‬
‫‪χ p ,q 2‬‬
‫∑‬
‫‪pi‬‬
‫‪2ln 2 i =1‬‬
‫‪2 ln 2‬‬
‫‪2‬‬
‫≈ ] ‪D [ p || q‬‬
‫)‪(2.22‬‬
‫ומכאן שניתן לקרב את ‪ D‬על ידי מדד ‪ , χ 2‬שהוא מדד נפוץ בסטטיסטיקה קלאסית‬
‫להשוואה בין התפלגויות‪ .‬ההוכחה בתרגיל‪.‬‬
‫טענה‪ D(p||q) :‬מקיים את כלל השרשרת הבא‪:‬‬
‫]) ‪D [ p( x, y ) || q( x, y‬‬
‫]) ‪= D [ p( x ) || q( x )] + D [ p( y | x ) || q( y | x‬‬
‫)‪(2.23‬‬
‫הוכחה‬
‫‪ p( x, y ) ‬‬
‫‪D [ p( x, y ) || q( x, y )] = ∑∑ p( x, y ) log ‬‬
‫=‪‬‬
‫‪x‬‬
‫‪y‬‬
‫‪ q( x , y ) ‬‬
‫‪ p( x ) p( y | x ) ‬‬
‫‪= ∑∑ p( x, y )log ‬‬
‫=‪‬‬
‫‪x‬‬
‫‪y‬‬
‫‪ q( x ) q( y | x ) ‬‬
‫‪ p( x ) ‬‬
‫‪ p( y | x ) ‬‬
‫‪= ∑∑ p( x, y )log ‬‬
‫‪+ ∑∑ p( x, y )log ‬‬
‫‪‬‬
‫=‪‬‬
‫‪x‬‬
‫‪y‬‬
‫‪ q( x )  x y‬‬
‫‪ q( y | x ) ‬‬
‫]) ‪= D [ p( x ) || q( x )] + D [ p( y | x ) || q( y | x‬‬
‫שימוש במרחק סטטיסטי להערכת סבירות של תוצאות‬
‫נניח שאנחנו מבצעים ‪ n‬ניסויי ברנולי שלכל אחד הסתברות ‪ p‬להצלחה‪ .‬מהו הסיכוי‬
‫לקבל ‪ m‬הצלחות?‬
‫מספר ההצלחות מתפלג בינומית‬
‫‪n‬‬
‫!‪n‬‬
‫= ‪Pn ( m ) =   p m (1 − p ) n −m‬‬
‫‪p m (1 − p )n − m‬‬
‫‪m‬‬
‫(!‬
‫‪−‬‬
‫!)‬
‫‪m‬‬
‫‪n‬‬
‫‪m‬‬
‫‪ ‬‬
‫נשתמש בנוסחת סטירלינג לקירוב העצרת‬
‫‪1‬‬
‫) ‪2π n ⇒ log ( n !) ≈ n log ( n ) − n + log ( 2π n‬‬
‫‪2‬‬
‫‪n‬‬
‫‪n‬‬
‫‪n! ≈  ‬‬
‫‪e‬‬
‫‪50‬‬
‫ואם נזניח את האיבר השלישי‪ ,‬נוכל לרשום‬
‫‪‬‬
‫‪‬‬
‫‪n‬‬
‫!‪n‬‬
‫‪log   = log ‬‬
‫‪‬‬
‫‪m‬‬
‫‪ m!(n − m)! ‬‬
‫] )‪≈ [ n log n − n ] − [ m log m − m] − [ (n − m)log(n − m) − ( n − m‬‬
‫‪m‬‬
‫‪n−m‬‬
‫‪‬‬
‫‪‬‬
‫‪= n  log( n) − log(m) −‬‬
‫‪log(n − m) ‬‬
‫‪n‬‬
‫‪n‬‬
‫‪‬‬
‫‪‬‬
‫‪ m‬‬
‫‪m n−m‬‬
‫‪ n − m ‬‬
‫‪log ‬‬
‫‪= n  − log   −‬‬
‫‪‬‬
‫‪n‬‬
‫‪n‬‬
‫‪ n ‬‬
‫‪ n‬‬
‫‪m‬‬
‫ואם נסמן ב‪ qm / n -‬את התפלגות ברנולי עם סיכוי‬
‫‪n‬‬
‫‪ m‬‬
‫‪m n−m‬‬
‫‪n−m‬‬
‫‪log ( Pn ( m ) ) ≈ n  − log   −‬‬
‫‪log ‬‬
‫‪+‬‬
‫‪n‬‬
‫‪n‬‬
‫‪ n ‬‬
‫‪ n‬‬
‫להצלחה‪ ,‬אז קיבלנו‬
‫‪‬‬
‫)‪(n − m‬‬
‫‪m‬‬
‫‪log ( p ) +‬‬
‫‪log (1 − p ) ‬‬
‫‪n‬‬
‫‪n‬‬
‫‪‬‬
‫] ‪= − nD [ qm / n || p‬‬
‫‪+‬‬
‫או‬
‫)] ‪Pn ( m ) ≈ exp ( − nD[ qm / n || p‬‬
‫)הערה‪ :‬אם נחשב את ‪ D‬לפי בסיס שתיים אז נקבל "שתיים בחזקת…" במקום‬
‫האקספוננט(‪.‬‬
‫הקירוב שקיבלנו יכול לשמש אותנו לא רק להערכת ההסתברות לקבל תוצאה‬
‫מסוימת ) ‪ m‬הצלחות( אלא אף לצורך הערכת הסתברות הזנב כולו )‪ m‬הצלחות או‬
‫יותר(‪ ,‬בדומה לחסם צ'רנוף‪ .‬לא נוכיח טענה זו כאן בפירוט‪ ,‬אך ניתן סקיצה של‬
‫ההוכחה‪ .‬על מנת לחסום את הסתברות הזנב )דהיינו סכום של )‪ (n-m‬איברים‬
‫אקספוננציאלים(‪ ,‬נשים לב כי האיבר הגדול ביותר בסכום הוא האיבר הראשון‬
‫)‪ ,Pn(m‬וישנם ‪ n-m‬איברים בסכום‪ .‬לכן הסכום כולו קטן מביטוי מהצורה‬
‫‪n exp ( − nD [ qm / n || p ]) = exp ( − nD [ qm / n || p ] + ln( n ) ) .‬‬
‫וקיבלנו חסם שעבור ‪ n‬גדול יורד אקספוננציאלית עם גודל המדגם ‪ n‬בדומה לחסם‬
‫צ'רנוף‪.‬‬
‫‪51‬‬
‫לצורך ההמחשה‪ ,‬נציג דוגמא מספרית‪ .‬נחסום את ההסתברות לקבל ‪ 70‬פעמים‬
‫"עץ" מתוך ‪ 100‬הטלות של מטבע מאוזנת‪ .‬נציב ‪ p=0.5‬ונקבל‬
‫‪ 0.7 ‬‬
‫‪ 0.3 ‬‬
‫‪D [0.7,0.3 || 0.5,0.5] = 0.7log ‬‬
‫‪ + 0.3log ‬‬
‫‪ = 0.083 .‬‬
‫‪ 0.5 ‬‬
‫‪ 0.5 ‬‬
‫מכאן שההסתברות לקבל ‪ 70‬פעמים "עץ" מתוך ‪ 100‬הטלות כאשר המטבע‬
‫מאוזנת‪ ,‬חסומה על ידי‬
‫‪P100 ( 70 | .5,.5) ≤ exp [ −100 ∗ .083] = exp( −8.3) = 0.00025‬‬
‫דוגמא‪ :‬מרחק בין התפלגויות נורמליות‬
‫נניח שיש לנו שני מצבי עולם‪ ,‬אחד בו התצפיות מגיעות מהתפלגות נורמלית‬
‫המאופיינת ע"י תוחלת ‪ µ1‬וסטית תקן ‪ , σ 1‬והשני בו התצפיות מפולגות נורמלית‬
‫עם תוחלת ‪ µ2‬וסטית תקן ‪σ 2‬‬
‫‪,‬‬
‫‪ ( x − µ1 ) 2 ‬‬
‫‪1‬‬
‫‪exp  −‬‬
‫‪‬‬
‫‪2‬‬
‫‪2σ 1 ‬‬
‫‪2πσ 1‬‬
‫‪‬‬
‫= ) ‪f1 ( x‬‬
‫‪ ( x − µ2 ) 2 ‬‬
‫‪exp  −‬‬
‫= ) ‪f2 ( x‬‬
‫‪‬‬
‫‪2‬‬
‫‪2σ 2‬‬
‫‪2πσ 2‬‬
‫‪‬‬
‫‪‬‬
‫‪1‬‬
‫נחשב את המרחק הסטטיסטי בין ההתפלגויות‪ .‬באפן טבעי‪ ,‬מרחק הסטטיסטי‬
‫עבור משתנים רציפים מוגדר כאינטגרל על פונקצית צפיפות ההתפלגות במקום‬
‫סכום על פונקצית ההסתברות‪ .‬נשתמש בביטויים עבור תוחלת ושונות של משתנים‬
‫‪2‬‬
‫נורמליים‪ , E  ( x − µ1 ) 2  = σ 1 , E [ x ] = µ1 :‬ונרשום‬
‫] ‪D [ P1 || P2‬‬
‫∞‬
‫‪ P1 ( x ) ‬‬
‫= ‪∫ P ( x ) log  P ( x )  dx‬‬
‫‪1‬‬
‫‪2‬‬
‫= ‪dx‬‬
‫‪dx‬‬
‫‪ ( x − µ1 ) 2 ‬‬
‫‪−‬‬
‫‪‬‬
‫‪2σ 12 ‬‬
‫‪‬‬
‫∞‪−‬‬
‫‪ σ 2  − ( x − µ1 ) + ( x − µ2 )  exp‬‬
‫‪‬‬
‫‪‬‬
‫‪2σ 12‬‬
‫‪2σ 22‬‬
‫‪2πσ 1‬‬
‫‪1 ‬‬
‫‪‬‬
‫‪2‬‬
‫‪2‬‬
‫‪( x − µ2 + µ1 − µ1 )2‬‬
‫‪2σ 22‬‬
‫⋅‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ − ( x − µ1 ) 2‬‬
‫‪‬‬
‫‪2‬‬
‫‪ 2σ 1‬‬
‫‪‬‬
‫∞‬
‫‪∫  log  σ‬‬
‫∞‬
‫‪ − σ + exp‬‬
‫‪‬‬
‫‪∫ 2πσ 1‬‬
‫‪ 2σ‬‬
‫∞‪−‬‬
‫‪2‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫=‬
‫=‬
‫∞‪−‬‬
‫‪σ‬‬
‫‪* = log  2‬‬
‫‪ σ1‬‬
‫‪σ‬‬
‫] ‪1 E [ ( x − µ1 )2 + 2( x − µ1 )( µ1 − µ2 ) + ( µ2 − µ1 ) 2‬‬
‫‪= log  2  − +‬‬
‫‪2σ 22‬‬
‫‪ σ1  2‬‬
‫‪2‬‬
‫‪σ‬‬
‫‪1 1 σ 12‬‬
‫) ‪(µ − µ‬‬
‫‪+0+ 2 21‬‬
‫‪* = log  2  − +‬‬
‫‪2‬‬
‫‪2σ 2‬‬
‫‪ σ1  2 2 σ 2‬‬
‫‪52‬‬
‫בשוויונים המסומנים בכוכבית השתמשנו בעובדה שתחת ההתפלגות ‪ ,P1‬ל‪-‬‬
‫) ‪ ( x − µ1‬יש שונות ‪ σ 12‬ולכן‬
‫‪( x − µ1 )2‬‬
‫‪= σ 12 .‬‬
‫‪2σ 12‬‬
‫‪−‬‬
‫‪∫(x − µ ) e‬‬
‫‪2‬‬
‫‪1‬‬
‫) ‪(2πσ‬‬
‫‪2 −1/ 2‬‬
‫‪1‬‬
‫במקרה הכללי‪ ,‬המרחק שקיבלנו איננו סימטרי כמובן‪ ,‬אך במקרה המיוחד בו‬
‫השונויות זהות ‪ σ 1 = σ 2‬נקבל כי האיברים הראשונים מתבטלים ונשאר עם‬
‫‪2‬‬
‫) ‪( µ2 − µ1‬‬
‫‪2σ 2‬‬
‫= ] ‪D [ P1 || P2‬‬
‫)‪(2.24‬‬
‫כלומר ‪ D‬מבטא במקרה זה את ריבוע המרחק בין התוחלות ביחידות של סטית‬
‫תקן )"סיגמאות"(‪ .‬מרחק זה נקרא גם "מרחק מהאלאנוביס" )‪,(Mahalanobis‬‬
‫והשורש הריבועי שלו ידוע גם בתור "יחס אות לרעש" )‪,(Signal-to-Noise Ratio‬‬
‫והוא מדד נפוץ למדידת יכולת ההבחנה בין הערכים אפשריים של משתנה מקרי‬
‫רציף המקבל שני ערכים שעליהם נוסף רעש‪.‬‬
‫‪53‬‬
‫תרגילים‬
‫‪ .1‬נניח כי אנו מחליפים את פונקצית ההכרעה הדטרמניסטית‪ α ( x ) ,‬בכלל‬
‫הכרעה אקראי‪ :‬בהינתן התצפית ‪ x‬אנו מבצעים את הפעולה ‪ αi‬בהסתברות‬
‫) ‪P (αi | xi‬‬
‫א‪ .‬הראו‬
‫הכולל‬
‫הסיכון‬
‫כי‬
‫‪‬‬
‫‪‬‬
‫‪R = ∫  ∑ R (αi | x ) ⋅ P (α i | x ) P ( x ) dx‬‬
‫‪ i‬‬
‫‪‬‬
‫במקום האינטגרל(‪.‬‬
‫כעת‬
‫נתון‬
‫על‪-‬ידי‬
‫)במקרה בדיד מופיע סכום‬
‫ב‪ .‬הראו כי ‪ R‬הינו מינימאלי אם אנו בוחרים ‪ P (αi | xi ) = 1‬עבור הפעולה ‪αi‬‬
‫המביאה למינימום את הסיכון המותנה‪,‬‬
‫דטרמיניסטית היא אופטימלית‪.‬‬
‫) ‪ , R (α i | x‬ולכן הכרעה‬
‫‪ .2‬נניח שמציעים לכם להשתתף במשחק הבא‪ :‬מטילים זוג קוביות הוגנות עד‬
‫שיוצא "‪ "1‬לפחות באחת מהקוביות‪ .‬לפני כל הטלה אתם יכולים להחליט אם‬
‫אתם ממשיכים להשתתף במשחק או יוצאים ממנו‪ .‬אם אתם ממשיכים‬
‫להשתתף במשחק אתם זוכים בשקלים עפ"י תוצאת ההטלה )סכום התוצאות‬
‫בשתי הקוביות( למעט המקרה שבו יוצא "‪ "1‬לפחות באחת מהקוביות שבו‬
‫אתם מפסידים את כל מה שהרווחתם‪ .‬אם הספקתם לצאת מהמשחק לפני‬
‫שיצאה התוצאה "‪ "1‬אתם נשארים עם מה שהרווחתם עד כה‪.‬‬
‫א‪ .‬נסחו את הבעיה כבעיית הכרעה בייסיאנית‪.‬‬
‫ב‪ .‬מהי האסטרטגיה הבייסיאנית האופטימאלית לקבלת החלטה אם להמשיך‬
‫לשחק או לצאת מהמשחק?‬
‫ג‪ .‬מהו הסכום המרבי שתהיו מוכנים לשלם כדי להשתתף במשחק? נמקו‪.‬‬
‫‪ .3‬יהיו ‪ s1‬ו‪ s2 -‬שני "מקורות" פואסוניים‪ ,‬עם ‪ λ1‬ו‪ λ2 -‬בהתאמה‪.‬‬
‫א‪ .‬בהנתן סדרת דגימות מאחד המקורות‪ ,‬כמה דגימות נחוצות על מנת‬
‫להכריע מהו מקור הסדרה בוודאות של ‪ 99‬אחוזים )לכל כיוון(‪.‬‬
‫ב‪ .‬תאר גישה בייסיאנית לטיפול במקרה בו נוסף מקור שלישי עם ‪ . λ3‬מה‬
‫יהיה כלל ההכרעה במקרה זה?‬
‫‪ .4‬גבול הכרעה בין התפלגויות נורמליות‪.‬‬
‫א‪ .‬נתונה בעיית ההכרעה הבאה‪ X :‬מתפלג נורמלית )חד ממדית( עם‬
‫) ‪ . P ( x | w2 ) = N ( µ2 ,σ 22 ) , P ( x | w1 ) = N ( µ1 ,σ 12‬מהו גבול ההכרעה‬
‫בהנחה כי ההסתברויות‬
‫) ) ‪? ( P ( w1 ) = P ( w2‬‬
‫ב‪.‬‬
‫האפריוריות‬
‫לשני‬
‫מצבי‬
‫מתפלג‬
‫‪X‬‬
‫אם‬
‫ההכרעה‬
‫גבול‬
‫מהו‬
‫‪2‬‬
‫) ‪. P ( X | w2 ) = N X ( µ2 , ∑ 2 ) P ( X | w1 ) = N X ( µ1 , ∑12‬‬
‫העולם‬
‫שוות‬
‫דו‪-‬נורמלית‬
‫עם‬
‫‪54‬‬
‫ג‪ .‬מצא את הגבול במקרה הפרטי בו מטריצות הקווריאנס הן אלכסוניות ושוות‬
‫המחירים‬
‫ומטריצת‬
‫שוות‬
‫האפריוריות‬
‫ההסתברויות‬
‫וכן‬
‫מקיימת ‪ λ11 = λ22 = 0‬ו‪. λ12 = λ21 -‬‬
‫‪ .5‬יהיו ‪ x1 , x2 ,..., xn‬משתנים‪-‬מקריים המתפלגים באופן אחיד בקטע ]‪ [0,1‬נגדיר‬
‫‪n‬‬
‫‪) Vn = ∏ xi‬כלומר נפח התיבה ה‪ n -‬ממדית ש‪ x1 ,..., xn -‬הן צלעותיה(‪.‬‬
‫‪i=1‬‬
‫‪1‬‬
‫‪n‬‬
‫א‪ .‬מהו ‪? lim Vn‬‬
‫∞→ ‪n‬‬
‫ב‪ .‬השוו גודל זה לשורש ה‪n -‬י של הנפח "הנאיבי"‪ ,‬המתקבל ממכפלת‬
‫האורכים הממוצעים של הצלעות‪) ,‬כלומר‬
‫‪1‬‬
‫‪2‬‬
‫=‬
‫) (‬
‫‪1/ n‬‬
‫‪1n‬‬
‫‪2‬‬
‫(‪.‬‬
‫‪ .6‬הוכיחו כי ה"מרחק" ‪ D‬בין שתי התפלגויות ברנולי עם סיכויי הצלחה ‪ p‬ו‪q -‬‬
‫מקיים‬
‫‪2‬‬
‫‪2‬‬
‫≥ ] ‪D [ p || q‬‬
‫)‪( p − q‬‬
‫‪ln 2‬‬
‫הדרכה‪ :‬הגדירו פונקציה )‪ g(p,q‬שהיא ההפרש בין שני האגפים‬
‫‪2‬‬
‫‪2‬‬
‫‪g ( p, q ) = D [ p || q ] −‬‬
‫)‪( p − q‬‬
‫‪ln 2‬‬
‫הראו כי הנגזרת של פונקציה זאת קטנה או שווה לאפס כאשר ‪ q ≤ p‬והסיקו‬
‫מכך כי ‪ g ( p, q ) ≥ 0‬עבור ‪. q ≤ p‬‬
‫‪ .7‬הוכח כי המרחק ‪ D‬חסום על ידי‬
‫‪1‬‬
‫‪( p( x ) − q( x )) 2‬‬
‫‪1‬‬
‫‪( p ( x ) − q( x ))2‬‬
‫∑ ≤ ] ‪≤ D[ p || q‬‬
‫∑‬
‫)) ‪2 x max( p ( x ), q( x‬‬
‫)) ‪2 x min( p ( x ), q( x‬‬
‫‪ .8‬הוכח כי כאשר ‪ , p ≈ q‬ניתן לקרב את ]‪ D[p||q‬על ידי‬
‫‪1‬‬
‫) ‪1 n ( pi − qi‬‬
‫≈ ] ‪D [ p || q‬‬
‫=‬
‫‪χ p ,q 2‬‬
‫∑‬
‫‪2ln 2 i =1‬‬
‫‪pi‬‬
‫‪2 ln 2‬‬
‫‪2‬‬
‫‪ .9‬חשב את המרחק הסטטיסטי בין שתי התפלגויות פואסוניות‪.‬‬
‫‪ .10‬חשב את המרחק הסטטיסטי בין שתי התפלגויות אקספוננציאליות‪.‬‬
‫‪55‬‬
‫תרגיל מחשב‬
‫כתבו תכנית להכרעה סדרתית בין טקסט הכתוב באנגלית לטקסט כתוב בצרפתית‪,‬‬
‫על סמך פילוגי האותיות הבודדות בשתי השפות )כולל רווח(‪ .‬הקלט לתכנית יהיה‬
‫הפילוגים‪ ,‬טקסט ארוך והסתברויות השגיאה מסוג ראשון ושני ) ‪. (α , β‬‬
‫א‪ .‬צייר גרף של הציון המצטבר )לוג הנראות( כפונקציה של אורך הטקסט‪ .‬סמן‬
‫את החסמים )'‪.(A', B‬‬
‫ב‪ .‬מהו אורך הטקסט הנדרש להכרעה ומהן תוצאות המבחן‪.‬‬
‫ג‪ .‬צור גרפים של אורך הטקסט כפונקציה של ‪ α‬עבור ‪ β‬קבוע ולהיפך‪.‬‬
‫ד‪ .‬השוו את התוצאה המתקבלת לאורך הצפוי על‪-‬פי המרחק הסטטיסטי בין‬
‫הפילוגים‪.‬‬
‫ה‪ .‬מצאו טקסט בשפה )לטינית( שלישית‪ ,‬וחזרו על החישובים מהסעיפים‬
‫הקודמים עבור השפה החדשה עם אחת משתי השפות הקודמות‪.‬‬
56