האם ניתן ליישם את גישת Nate Silverלחיזוי תוצאות הבחירות בישראל? אפרים גולדין מנכ"ל Gstat [email protected] סדנא בנושא חיזוי תוצאות הבחירות של האיגוד הישראלי לסטטיסטיקה 13במרץ 2015 אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה תוכנית המצגת • הצגת המתודולוגיה של Nate Silverלחיזוי תוצאות הבחירות בארה"ב • אתגרים ביישום הגישה בישראל • סקירת מגמות בתוצאות הבחירות בישראל ,לפי גושים פוליטיים • הדגמה לחיזוי התוצאות בבחירות ,2015ברוח גישת ,Nate Silverלפי גושים פוליטיים עיקריים אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה Nate Silver אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה Nate Silver approach • Sample size of typical election pool is between 500 to 1500 • Usually, in each elections campaign, there are number of pools results, for each pollster involved • So, its natural to think about pooling and averaging those polls, and by that, may be improving forecasts • Off course, that idea is not Nate Silver idea, but he have implemented it in a very successful way אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה Pooling Benefits and challenges • Main benefits: Expected reduction in prediction errors • Problems: • Pollsters different abilities • Pollsters predictive correlation • Polls conducted usually 10 – 90 days before the election date. Voters may change their decisions to participate and/or their preferred party/candidate at the last minute • Different types of biases in polls – different response rates, different survey channels, different methods for bias correction ….. אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה Nate Silver Methodology • Data base of many pollsters polls results, for all types of elections in the USA, since 1998 • Rejection from the analysis of unreliable pollsters and polls and partisan pollsters • Using all the others, to predict election results, using statistical methods (no big data, no data mining, no machine learning, just smart use of usual statistical methods….) • Target variable to predict (at states level): The difference in number of voters between the two leading candidates (in percentages) אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה Nate Silver principals for good modeling • Principle 1: A good model should be probabilistic, not deterministic • Principle 2: A good model ought to be empirical • Principle 3: A good model ought to respond sensibly to changes in inputs • Principle 4: A good model ought to avoid changing its rules in midstream אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה Nate Silver 7 steps for forecasting elections results Step 1: Weighted polling average. A poll is weighted based on three factors: • How recently it was conducted. Older polls are penalized through an exponential decay formula • The poll’s sample size. Polls that sample more voters receive a larger weight, although there are diminishing returns • The pollster rating אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה The pollster rating Based on estimate of Pollster poll Total Error=Sampling Error+Temporal Error+Pollster-Induced Error • Step 1: Collect and classify polls • Step 2: Calculate simple average error • Step 3: Calculate Simple Plus-Minus: regression analysis that predicts polling error based on the type of election surveyed, a poll’s sample size, and the number of days separating the poll from the election • Step 4: Calculate Advanced Plus-Minus • Step 5: Calculate Predictive Plus-Minus: accounts for a polling firm’s methodological standards — whether a polling firm was a member of the National Council on Public Polls (NCPP) or a supporter of the American Association for Public Opinion Research (AAPOR) Transparency Initiative אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה The pollster rating אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה Nate Silver 7 steps for forecasting elections results • Step 2: Adjustments to the polling average: • likely voter adjustment • house effects adjustment • trend line adjustment • Step 3: Calculate state fundamentals – regression analysis used for states specific results • Step 4: Now-cast/snapshot: The adjusted polling average (Step 2) and the state fundamentals estimate (Step 3) are combined into a single number that projects what would happen in an election held today • Step 5: Election Day forecast – Taking into consideration current events effect which might decay until election data אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה Nate Silver 7 steps for forecasting elections results Step 6: Estimate margin of error – Regression model (?) with the following explanatory variables: • Days to go until the election date • Number of polls • Polls disagreement • Number of undecided or third-party voters in the polls • Race lopsided אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה Nate Silver 7 steps for forecasting elections results Step 7: Simulate outcomes and estimate the probability of success אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה תוכנית המצגת • הצגת המתודולוגיה של Nate Silverלחיזוי תוצאות הבחירות בארה"ב • אתגרים ביישום הגישה בישראל • סקירת מגמות בתוצאות הבחירות בישראל ,לפי גושים פוליטיים • הדגמה לחיזוי התוצאות בבחירות בשבוע הבא ,ברוח גישת ,Nate Silverלפי גושים פוליטיים עיקריים אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה מידת הישימות לחיזוי הבחירות בארץ נושא ארהב ישראל השלכות מספר מתמודדים/מפלגות בד"כ 2 קבועות בדרך כלל הרבה יותר ומשתנות..... בישראל ,המורכבות סטטיסטית רבה ,בפרט במפלגות קטנות מספר מדינות בכל מערכה 51 1 בארה"ב מידע סטטיסטי רב מכל מערכת בחירות כמות מערכות בחירות ברמת מדינה מ1998 - אלפים 3עד 4בלבד בישראל אין מספיק מידע לאמידת חלק גדול מהפרמטרים המהווים בסיס לגישת Nate Silver כמות מכוני סקרים מאות פחות מעשרה כנ"ל מכונים המחוייבים לשקיפות וסטנדרטים מקצועיים רבים ? בישראל לא ברורה איכות הנתונים והאם סקרים ספציפיים נעשים על ידי "סוקרים להשכיר" – סוקרים שמטרתם השפעה על התוצאות. למרות שהחוק מחייב ,אין דיווח על פרמטרים מרכזיים של הסקר מסקנות :גישת Nate Silverמבוססת על ניתוח היסטורי של מאות מערכות בחירות ועשרות אלפי סקרים .אלו מאפשרים כיול ודרוג של איכות הסוקרים ,השפעת הזמן ,אירועים חד פעמיים, אומדנים אמינים של טעויות החיזוי ועוד .מה בכל זאת ניתן לעשות בישראל? תוכנית המצגת • הצגת המתודולוגיה של Nate Silverלחיזוי תוצאות הבחירות בארה"ב • אתגרים ביישום הגישה בישראל • סקירת מגמות בתוצאות הבחירות בישראל ,לפי גושים פוליטיים משנת 2000 • הדגמה לחיזוי התוצאות בבחירות בשבוע הבא ,ברוח גישת ,Nate Silverלפי גושים פוליטיים עיקריים אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה הדגמת עקרונות גישת Nate Silverלחיזוי תוצאות הבחירות הבחירות ,לפי גושים • גושים פוליטיים מרכזיים בישראל • ימין • שמאל • מרכז • חרדים • ערבים • חלוקה אפשרית גסה יותר • ימין +חרדים • שמאל +מרכז • ערבים • החלוקה השנייה מפשטת את הבעייה ומאפשרת ,כמו בארה"ב, להתמקד בחיזוי של משתנה אחד – הפער בין שני הגושים המובילים אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה היסטוריה פוליטית בישראל מ ,2003 -לפי גושים עיקריים (ימין ,מרכז, שמאל ,חרדים ושס ,וערבים) במספרי מנדטים לגוש לאורך השנים ,ישנה מגמה של ירידה במספר המנדטים של מפלגות הימין (ליכוד ,מפדל ,הבית היהודי ,ישראל ביתנו ,האיחוד הלאומי) ,ירידה במספר המנדטים של מפלגות שמאל (העבודה ,מרץ ,התנועה) ועליה במפלגות המרכז (כל השאר ללא החרדים ,שס והמפלגות הערביות). האם המרכז הוא מפלגות זמנייות או שינוי מתמשך בדפוסי ההצבעה של הציבור? מקור הנתונים – פרוייקט 61 https://www.facebook.com/Project.61.IL אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה תוצאות הבחירות מ 2003 -לפי גושים עיקריים :ימין וחרדים ,מרכז ושמאל וערבים (בראש כל עמודה מספר המנדטים) מקור הנתונים – פרוייקט 61 https://www.facebook.com/Project.61.IL אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה השוואת התפלגות ההצבעה לגושים העיקריים ב 2009 -וב ,2013 -לפי המדד הסוציו אקונומי של הלשכה המרכזית לסטטיסטיקה (ברמת ישובים) גובה העמודה – פרופוציונלי לכמות המצביעים בקבוצה הסוציו דמוגרפית והצבעים משקפים את אחוז המצביעים לגוש בצבע הנתון. … – 1,2,3מדד סוציו איקונומי של הישוב לפי הלמס -1הערך הנמוך של המדד ו 10 -הערך הגבוה מקורות – נתוני תוצאות הבחירות לפי קלפיות של משרד הפנים. המדד הסוציו איקונומי לפי ישובים ,מועצות מקומיות ואיזוריות – מנתוני הלמס אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה תוכנית המצגת • הצגת המתודולוגיה של Nate Silverלחיזוי תוצאות הבחירות בארה"ב • אתגרים ביישום הגישה בישראל • סקירת מגמות בתוצאות הבחירות בישראל ,לפי גושים פוליטיים • הדגמה לחיזוי הפרש המנדטים בין שני הגושים המרכזיים בבחירות בשבוע הבא ,ברוח גישת Nate Silver אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה תהליך החישוב שנעשה ב 13.3.2015 -לחיזוי הפרשי המנדטים בין גוש ימין חרדים לגוש שמאל מרכז בבחירות 2015 המשתנה שניסינו לחזות את התפלגותו על בסיס מיצוע הסקרים – ההפרש במספר המנדטים בבחירות מרץ 2015בין שני הגושים העיקריים – שמאל מרכז לעומת ימין חרדים • שלבי החישוב: • בחירת המכונים • בחירת טווחי הזמן למיצוע • מיצוע סקרי המכונים בטווח הזמן שנקבע • חישוב ההסתברות לכל ערך של פער המנדטים בבחירות ב- 17.5.2015באמצעות התפלגות נורמלית ,על בסיס ממוצע התחזיות של המכונים וטעויות החיזוי הממוצעות בארבעת מערכות הבחירות האחרונות. אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה בחירת סוקרים שישתתפו במיצוע טעויות החיזוי במערכות הבחירות האחרונות ,לפי סוקרים בצד שמאל סכום הערך המוחלט של טעויות החיזוי בצד ימין ערך הטעויות • ב 2003 -הסוקרים טעו בממוצע בכעשרה מנדטים לטובת מפלגות השמאל מרכז (בפועל המרכז שמאל ירדו) • ב 2006 -וב 2009 -טעויות החיזוי היו קטנות יחסית • ב 2013 -טעויות החיזוי חזרו שוב ל 10 -מנדטים והפעם לטובת ימין חרדים (בפועל המרכז שמאל עלו) אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה טעות החיזוי במערכות הבחירות הקודמות ,של המכונים שנבחרו לחיזוי פערי המנדטים בבחירות מאי ,2015על בסיס הסקרים בתקופה שקדמה לבחירות מספר סקרים טעות חיזוי במנדטים אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה אומדני טעויות החיזוי של מכוני הסקרים בעבר -טעות החיזוי הממוצעת וסטיית התקן (במנדטים) של מיצוע הסקרים של המכונים שנבחרו ,בארבעת השבועות האחרונים שלפני הבחירות ובשבוע האחרון ,במערכות הבחירות האחרונות ארבעה שבועות לפני הבחירות שבוע אחרון לפני הבחירות Year Year 8 19 9.58 6 6.67 10 6 STD(AVERAGES) = 6.72 STD(AVERAGES) =5.36 8 4 6 4 2 7 0.00 GrandTotal 2013 2006 2009 2003 Avg. Error 7 -8.43 סטיית התקן חושבה על בסיס ארבע תצפיות -מספר קטן מאוד. אולם חשוב לציין כי ארבעת הנתונים כוללים מידע רב שכן שתי תצפיות נמצאות בערכים קיצוניים -פעם חיובי ופעם שלילי ופעמיים בסביבת ה.0- זוהי אינדקציה ראשונית לכך שייתכן ולא מדובר בהתפלגות נורמלית Nate Silver .אכן משתמש בחיזוי בהתפלגות בעלות זנבות עבים שנותנת סבירות גדולה יותר ל"הפתעות" מאשר מהתפלגות נורמלית 0 80 0.04 0 -2 -2 -4 -4 -6 -6 -8 -8 24 -9.38 GrandTotal 2013 אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה -10 2009 2006 2003 Avg. Error 25 -0.68 5 0.40 18 1.17 19 1.32 2 סקר הסקרים – מיצוע תחזיות הסקרים ל ,2015 -ארבעה שבועות לפני הבחירות ובשבוע האחרון –הפער במנדטים בין הגושים שבוע אחרון לפני הבחירות ארבעה שבועות לפני הבחירות בראש כל עמודה כמות הסקרים ומעל תחזית הפער החזוי במספר המנדטים בין הגושים. העמודה הימנית היא המיצוע של כל הסקרים אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה ההסתברות המצטברת להפרש המנדטים בין גוש ימין-חרדים לבין גוש שמאל מרכז ,בבחירות לכנסת ה( 20 -בהנחת התפלגות נורמלית ולפי ממוצע הסקרים בשבוע האחרון לפני הבחירות ,החוזה הפרש של 5.3לטובת גוש הימין חרדים ,וסטיית תקן של 5.4 – על בסיס טעות המכונים בארבעת מערכות הבחירות הקודמות) 1 0.9 0.8 0.7 הסיכוי של גוש שמאל מרכז להגיע לנקודת השיוויון – כלומר לצמצם את הפער ב- 13מנדטים הוא כ- 15% מצב בכנסת - 19פער של 13מנדטים .לפי ההתפלגות הצפויה ,הסיכוי של גוש ימין חרדים לשמור על כוחו או להגדילו קטן מ ,10% -כלומר הסיכוי של גוש שמאל מרכז להגדיל את כוחו הוא כ90% - 0.6 0.5 0.4 0.3 0.2 0.1 0 20 18 16 14 12 10 8 6 4 2 0 -2 -4 -6 סיכום • הוצגה מתודולוגיית חיזוי תוצאות הבחירות של Nate Silver • הראנו שישנו קושי רב לישמה בישראל שכן כמות המידע ההיסטורי שניתן ללמוד ממנו בישראל ,הינו קטן ביותר. • על ידי צמצום בעיית החיזוי בבחירות ,2015לחיזוי של פערי המנדטים בין גוש ימין חרדים לגוש שמאל מרכז, הצלחנו להדגים את עקרונות השיטה לנתוני בחירות 2015בישראל. אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה
© Copyright 2024