שיטות סטטיסטיות

‫שיטות סטטיסטיות‬
‫‪Statistical Methods‬‬
‫ד"ר אבי רוזנפלד‬
‫שיעור חזרה על סטטיסטיקה‬
‫• יש קופסה של כדורים– ‪ 3‬מהם הם כחול ו‪ 2‬ירוק‬
‫• מה ההסתברות שמישהו יבחר בא' כחול ()‪)P(A‬‬
‫– ‪3/5‬‬
‫• מה ההסתברות שמישהו ייקח שני ירוקים ברצוף‬
‫)‪P(AB) = P(A)* P(B‬‬
‫– ‪2/5*1/4‬‬
‫• אבל מה יקרה אם הירוקים קצת יותר גדולים‬
‫ואנשים יכולים להרגיש את ההבדל???‬
‫– הסתברות עם תלויות ‪Conditional Probability -‬‬
‫עוד דוגמא‬
‫• אתה זורק קוביה‪ ...‬מה ההסתברות שהמספר = ‪?1‬‬
‫– ‪1/6‬‬
‫• אבל מה ההסתברות אם אני אומר לך המספר הוא‬
‫אי‪-‬זוגי?‬
‫– ‪1/3‬‬
‫• פורמאלית‪ ,‬אני קורא לאירוע שאני רוצה לנחש‬
‫בשם ‪ ,E‬ההסתברות שלו הוא )‪ ,P(A‬ויש לי ידיעה‬
‫על אירוע (או אירועים) נוסף ‪.B‬‬
‫• פה‪: P(A|B) = 1/3 :‬‬
Conditional Probability
P( A  B)
P( A B) 
P( B)
A
S
B
‫חוק בייס ‪Bayes‬‬
‫• ההסתברות ששני דברים יקראו ביחד‪:‬‬
‫במילים פשוטות‪...‬‬
‫=‬
‫דוגמא‬
‫• מישהו אמר לך שהוא דיבר ‪“with someone with‬‬
‫”‪long hair‬‬
‫– מה ההסתברות שזאת אישה?‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫)‪ =P(W‬ההסתברות לאישה‪ = P(M) ,‬לאיש‬
‫)‪ =P(L|M‬לכמה אנשים יש שיעור ארוך‬
‫)‪ =P(L|W‬לכמה נשים יש שיעור ארוך‬
‫)‪ = P(L‬לכמה בני אדם באופן כללי יש שיעור ארוך‬
‫)‪ = P(W|L‬ההסתברות לאישה בהינתן שיעור ארוך‬
‫מספרים‬
‫• מישהו אמר לך שהוא דיבר ‪“with someone with‬‬
‫”‪long hair‬‬
‫– מה ההסתברות שזאת אישה?‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫)‪ =P(W‬ההסתברות לאישה‪ = P(M) ,‬לאיש = ‪0.5‬‬
‫)‪ =P(L|M‬לכמה אנשים יש שער ארוך = ‪0.15‬‬
‫)‪ =P(L|W‬לכמה נשים יש שער ארוך = ‪0.75‬‬
‫)‪0.5*0.15+0.5*0.75 = P(L‬‬
‫)‪ = P(W|L‬ההסתברות לאישה בהינתן שער ארוך‬
‫אז‪...‬‬
Lift ‫הסתברותי‬
Lift long_hair(Woman) = 0.83/0.5 = 1.66
‫‪Bayes Factor‬‬
‫)‪P(L|W‬‬
‫‪---------‬‬‫)‪P(L|M‬‬
‫אז אם ההסתברות שיהיה לאיש שיעור ארוך = ‪ ,0.15‬ולאישה ‪ 0.75,‬היחס‬
‫היינו ‪5/1 = 0.75/ 0.15‬‬
‫דוגמא מהספר‪ -‬כמה אתה חכם?‬
‫באופן מעשי זה קשה לעשות‪...‬‬
‫• אם יש כמה מאפיינים ‪ ,X1, X2, Xn‬אז אני צריך‬
‫לחשב ביחד את הנוסחה‪P( X , X ,, X | Y ) :‬‬
‫‪n‬‬
‫‪2‬‬
‫‪1‬‬
‫• לדוגמא‪ :‬אני רוצה לזהות מה ההסתברות שיש‬
‫למישהו סרטן‪ .‬המאפיינים של אנשים בריאים‬
‫קשורים א' לשני‪ ,‬וגם הפוך‪.‬‬
‫הפתרון‪Naïve Bayes :‬‬
‫‪.1‬‬
‫= ה‪ = Posterior‬מה שאתה רוצה‬
‫ללמוד (סיוג)‬
‫= ‪ Prior‬של הקטגוריה‪ .‬בד"כ כמה הוא‬
‫‪.2‬‬
‫נמצא‬
‫= ההסתברות בהינתן המאפיינים‬
‫‪.3‬‬
‫שזה שייך ל‪.c‬‬
The Naïve Bayes Algorithm
• For each value yk
– Estimate P(Y = yk) from the data.
– For each value xij of each attribute Xi
• Estimate P(Xi=xij | Y = yk)
• Classify a new point via:
Ynew 
 arg max P(Y  yk ) P( X i | Y  yk )
yk
i
• In practice, the independence assumption
doesn’t often hold true, but Naïve Bayes
performs very well despite it.
15
‫במילים אחרות‪...‬‬
‫• לכל קטגוריה יש התפלגות של מאפיינים‬
‫• כדי לקטלג מופע חדש‪ ,‬יש להכפיל כל מאפיין‪,‬‬
‫בפני עצמו‪ ,‬לפי ההסברות שהמאפיין קיים‬
‫בקטגוריה הזאת‬
‫• יוצא ‪ +2‬מספרים (תלוי לפי מספר הקטגוריות)‪,‬‬
‫ומסווגים את המופע לפי המספר הגדול‬
‫עבוד מצויין בכמה תחומים‬
‫• רפואה‬
‫ לא ספאם‬/ ‫• ספאם‬
)‫ לא התקפה (באבטחת מידע‬/ ‫• התקפה‬
‫• סיווג טקסטים‬
http://blog.datumbox.com/machine-learningtutorial-the-naive-bayes-text-classifier/
‫דוגמא לטקסטים‬
‫• כל בנאדם מדבר בשפה שלו‬
‫– יש לכל א' שימוש במילים לפי הסגנון שלו‬
‫– אפשר לסווג אותי בתור עולה ותיק לפי הטעיות שלי ‪‬‬
‫• מי כתב את ספר הזוהר?‬
‫– יש לנו מסמכים מהרב משה די ליאון‬
‫– האם הזוהר כתוב עם אותו התפלגות של מילים (כן)‬
‫• קוראים לשיטה הזאת "‪"Bag of Words‬‬
‫נאום של הנשיא בוש‬
‫נאום של הנשיא קנדי‬
‫נאום של הנשיא רוזוולט‬
‫שאלות‪ :‬מה הם מילות המפתח?‬
‫• מילים עם ‪ LIFT‬גבוה‬
‫– ‪ SOVIET‬אצל קנדי‬
‫– ‪ JAPANESE‬אצל רוזוולט‬
‫– ‪ IRAQ / TERRORIST‬אצל בוש‬
‫• אפשר לחשב את ההסתברות לכל אחד ואז לקבוע‬
‫עוד שיפור‪Laplace Smoothing :‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫כמובן‪ ,‬ברגע שיש מכפלה של הרבה מספרים עם‬
‫‪ 0‬באמצע‪ ,‬אז הכל ‪0‬‬
‫אצלנו אם ההתפלגות של מופע אחד הוא ‪ ,0‬ואפילו‬
‫השאר ‪ ,1‬אז הכל יהיה ‪0‬‬
‫פתרון אפשרי‪ ,‬תוסיף אחד כאשר סופרים את‬
‫התדירות‬
‫עובד טוב‬
‫פתרון נוסף‬
‫•‬
‫•‬
‫•‬
‫•‬
‫קח את הסכום לא את המכפלה‬
‫זה ממש רחוק מ‪BAYES‬‬
‫אבל גם עובד מצויין‬
‫נעשה את זה בתרגיל שלנו‬