Gstat – ephraim goldin presentation. isa elections 202015 workshop

‫האם ניתן ליישם את גישת‬
‫‪Nate‬‬
‫‪ Silver‬לחיזוי תוצאות הבחירות‬
‫בישראל?‬
‫אפרים גולדין‬
‫מנכ"ל ‪Gstat‬‬
‫‪[email protected]‬‬
‫סדנא בנושא חיזוי‬
‫תוצאות הבחירות של‬
‫האיגוד הישראלי‬
‫לסטטיסטיקה‬
‫‪ 13‬במרץ ‪2015‬‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫תוכנית המצגת‬
‫• הצגת המתודולוגיה של ‪ Nate Silver‬לחיזוי תוצאות‬
‫הבחירות בארה"ב‬
‫• אתגרים ביישום הגישה בישראל‬
‫• סקירת מגמות בתוצאות הבחירות בישראל‪ ,‬לפי גושים‬
‫פוליטיים‬
‫• הדגמה לחיזוי התוצאות בבחירות ‪ ,2015‬ברוח גישת‬
‫‪ ,Nate Silver‬לפי גושים פוליטיים עיקריים‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫‪Nate Silver‬‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
Nate Silver approach
• Sample size of typical election pool is between 500
to 1500
• Usually, in each elections campaign, there are
number of pools results, for each pollster involved
• So, its natural to think about pooling and averaging
those polls, and by that, may be improving
forecasts
• Off course, that idea is not Nate Silver idea, but he
have implemented it in a very successful way
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
Pooling Benefits and challenges
• Main benefits: Expected reduction in prediction
errors
• Problems:
• Pollsters different abilities
• Pollsters predictive correlation
• Polls conducted usually 10 – 90 days before the election
date. Voters may change their decisions to participate
and/or their preferred party/candidate at the last
minute
• Different types of biases in polls – different response
rates, different survey channels, different methods for
bias correction …..
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
Nate Silver Methodology
• Data base of many pollsters polls results, for all types of
elections in the USA, since 1998
• Rejection from the analysis of unreliable pollsters and
polls and partisan pollsters
• Using all the others, to predict election results, using
statistical methods (no big data, no data mining, no
machine learning, just smart use of usual statistical
methods….)
• Target variable to predict (at states level): The
difference in number of voters between the two leading
candidates (in percentages)
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
Nate Silver principals for good modeling
• Principle 1: A good model should be probabilistic, not
deterministic
• Principle 2: A good model ought to be empirical
• Principle 3: A good model ought to respond sensibly to
changes in inputs
• Principle 4: A good model ought to avoid changing its
rules in midstream
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
Nate Silver 7 steps for forecasting elections results
Step 1: Weighted polling average. A poll is weighted
based on three factors:
• How recently it was conducted. Older polls are
penalized through an exponential decay formula
• The poll’s sample size. Polls that sample more
voters receive a larger weight, although there are
diminishing returns
• The pollster rating
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
The pollster rating
Based on estimate of Pollster poll
Total Error=Sampling Error+Temporal Error+Pollster-Induced Error
• Step 1: Collect and classify polls
• Step 2: Calculate simple average error
• Step 3: Calculate Simple Plus-Minus: regression analysis that
predicts polling error based on the type of election surveyed, a poll’s sample
size, and the number of days separating the poll from the election
• Step 4: Calculate Advanced Plus-Minus
• Step 5: Calculate Predictive Plus-Minus: accounts for a
polling firm’s methodological standards — whether a polling firm
was a member of the National Council on Public Polls (NCPP) or a supporter of
the American Association for Public Opinion Research (AAPOR) Transparency
Initiative
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫‪The pollster rating‬‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
Nate Silver 7 steps for forecasting elections results
• Step 2: Adjustments to the polling average:
• likely voter adjustment
• house effects adjustment
• trend line adjustment
• Step 3: Calculate state fundamentals – regression
analysis used for states specific results
• Step 4: Now-cast/snapshot: The adjusted polling
average (Step 2) and the state fundamentals estimate
(Step 3) are combined into a single number that
projects what would happen in an election held today
• Step 5: Election Day forecast – Taking into
consideration current events effect which might decay
until election data
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
Nate Silver 7 steps for forecasting elections results
Step 6: Estimate margin of error – Regression
model (?) with the following explanatory
variables:
• Days to go until the election date
• Number of polls
• Polls disagreement
• Number of undecided or third-party voters in
the polls
• Race lopsided
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
Nate Silver 7 steps for forecasting elections results
Step 7: Simulate outcomes and estimate the probability of
success
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫תוכנית המצגת‬
‫• הצגת המתודולוגיה של ‪ Nate Silver‬לחיזוי תוצאות‬
‫הבחירות בארה"ב‬
‫• אתגרים ביישום הגישה בישראל‬
‫• סקירת מגמות בתוצאות הבחירות בישראל‪ ,‬לפי גושים‬
‫פוליטיים‬
‫• הדגמה לחיזוי התוצאות בבחירות בשבוע הבא‪ ,‬ברוח‬
‫גישת ‪ ,Nate Silver‬לפי גושים פוליטיים עיקריים‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫מידת הישימות לחיזוי הבחירות בארץ‬
‫נושא‬
‫ארהב‬
‫ישראל‬
‫השלכות‬
‫מספר‬
‫מתמודדים‪/‬מפלגות‬
‫בד"כ ‪2‬‬
‫קבועות‬
‫בדרך כלל הרבה‬
‫יותר ומשתנות‪.....‬‬
‫בישראל‪ ,‬המורכבות סטטיסטית‬
‫רבה‪ ,‬בפרט במפלגות קטנות‬
‫מספר מדינות בכל‬
‫מערכה‬
‫‪51‬‬
‫‪1‬‬
‫בארה"ב מידע סטטיסטי רב מכל‬
‫מערכת בחירות‬
‫כמות מערכות בחירות‬
‫ברמת מדינה מ‪1998 -‬‬
‫אלפים‬
‫‪ 3‬עד ‪ 4‬בלבד‬
‫בישראל אין מספיק מידע לאמידת‬
‫חלק גדול מהפרמטרים המהווים‬
‫בסיס לגישת ‪Nate Silver‬‬
‫כמות מכוני סקרים‬
‫מאות‬
‫פחות מעשרה‬
‫כנ"ל‬
‫מכונים המחוייבים‬
‫לשקיפות וסטנדרטים‬
‫מקצועיים‬
‫רבים‬
‫?‬
‫בישראל לא ברורה איכות הנתונים‬
‫והאם סקרים ספציפיים נעשים על‬
‫ידי "סוקרים להשכיר" – סוקרים‬
‫שמטרתם השפעה על התוצאות‪.‬‬
‫למרות שהחוק מחייב‪ ,‬אין דיווח על‬
‫פרמטרים מרכזיים של הסקר‬
‫מסקנות‪ :‬גישת ‪ Nate Silver‬מבוססת על ניתוח היסטורי של מאות מערכות בחירות ועשרות‬
‫אלפי סקרים‪ .‬אלו מאפשרים כיול ודרוג של איכות הסוקרים‪ ,‬השפעת הזמן‪ ,‬אירועים חד פעמיים‪,‬‬
‫אומדנים אמינים של טעויות החיזוי ועוד‪ .‬מה בכל זאת ניתן לעשות בישראל?‬
‫תוכנית המצגת‬
‫• הצגת המתודולוגיה של ‪ Nate Silver‬לחיזוי תוצאות‬
‫הבחירות בארה"ב‬
‫• אתגרים ביישום הגישה בישראל‬
‫• סקירת מגמות בתוצאות הבחירות בישראל‪ ,‬לפי גושים‬
‫פוליטיים משנת ‪2000‬‬
‫• הדגמה לחיזוי התוצאות בבחירות בשבוע הבא‪ ,‬ברוח‬
‫גישת ‪ ,Nate Silver‬לפי גושים פוליטיים עיקריים‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫הדגמת עקרונות גישת ‪ Nate Silver‬לחיזוי תוצאות הבחירות‬
‫הבחירות‪ ,‬לפי גושים‬
‫• גושים פוליטיים מרכזיים בישראל‬
‫• ימין‬
‫• שמאל‬
‫• מרכז‬
‫• חרדים‬
‫• ערבים‬
‫• חלוקה אפשרית גסה יותר‬
‫• ימין ‪ +‬חרדים‬
‫• שמאל ‪ +‬מרכז‬
‫• ערבים‬
‫• החלוקה השנייה מפשטת את הבעייה ומאפשרת‪ ,‬כמו בארה"ב‪,‬‬
‫להתמקד בחיזוי של משתנה אחד – הפער בין שני הגושים‬
‫המובילים‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫היסטוריה פוליטית בישראל מ ‪ ,2003 -‬לפי גושים עיקריים (ימין‪ ,‬מרכז‪,‬‬
‫שמאל‪ ,‬חרדים ושס‪ ,‬וערבים) במספרי מנדטים לגוש‬
‫לאורך השנים‪ ,‬ישנה מגמה של ירידה במספר המנדטים‬
‫של מפלגות הימין (ליכוד‪ ,‬מפדל‪ ,‬הבית היהודי‪ ,‬ישראל‬
‫ביתנו‪ ,‬האיחוד הלאומי)‪ ,‬ירידה במספר המנדטים של‬
‫מפלגות שמאל (העבודה‪ ,‬מרץ‪ ,‬התנועה) ועליה‬
‫במפלגות המרכז (כל השאר ללא החרדים‪ ,‬שס‬
‫והמפלגות הערביות)‪.‬‬
‫האם המרכז הוא מפלגות זמנייות או שינוי מתמשך‬
‫בדפוסי ההצבעה של הציבור?‬
‫מקור הנתונים – פרוייקט ‪61‬‬
‫‪https://www.facebook.com/Project.61.IL‬‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫תוצאות הבחירות מ‪ 2003 -‬לפי גושים עיקריים‪ :‬ימין וחרדים‪ ,‬מרכז ושמאל‬
‫וערבים (בראש כל עמודה מספר המנדטים)‬
‫מקור הנתונים – פרוייקט ‪61‬‬
‫‪https://www.facebook.com/Project.61.IL‬‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫השוואת התפלגות ההצבעה לגושים העיקריים ב‪ 2009 -‬וב‪ ,2013 -‬לפי‬
‫המדד הסוציו אקונומי של הלשכה המרכזית לסטטיסטיקה (ברמת ישובים)‬
‫גובה העמודה – פרופוציונלי לכמות המצביעים בקבוצה הסוציו דמוגרפית‬
‫והצבעים משקפים את אחוז המצביעים לגוש בצבע הנתון‪.‬‬
‫…‪ – 1,2,3‬מדד סוציו איקונומי של הישוב לפי הלמס‬
‫‪ -1‬הערך הנמוך של המדד ו‪ 10 -‬הערך הגבוה‬
‫מקורות – נתוני תוצאות הבחירות לפי קלפיות של משרד הפנים‪.‬‬
‫המדד הסוציו איקונומי לפי ישובים‪ ,‬מועצות מקומיות ואיזוריות –‬
‫מנתוני הלמס‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫תוכנית המצגת‬
‫• הצגת המתודולוגיה של ‪ Nate Silver‬לחיזוי תוצאות‬
‫הבחירות בארה"ב‬
‫• אתגרים ביישום הגישה בישראל‬
‫• סקירת מגמות בתוצאות הבחירות בישראל‪ ,‬לפי גושים‬
‫פוליטיים‬
‫• הדגמה לחיזוי הפרש המנדטים בין שני הגושים‬
‫המרכזיים בבחירות בשבוע הבא‪ ,‬ברוח גישת ‪Nate‬‬
‫‪Silver‬‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫תהליך החישוב שנעשה ב‪ 13.3.2015 -‬לחיזוי הפרשי המנדטים‬
‫בין גוש ימין חרדים לגוש שמאל מרכז בבחירות ‪2015‬‬
‫המשתנה שניסינו לחזות את התפלגותו על בסיס מיצוע הסקרים –‬
‫ההפרש במספר המנדטים בבחירות מרץ ‪ 2015‬בין שני הגושים‬
‫העיקריים – שמאל מרכז לעומת ימין חרדים‬
‫• שלבי החישוב‪:‬‬
‫• בחירת המכונים‬
‫• בחירת טווחי הזמן למיצוע‬
‫• מיצוע סקרי המכונים בטווח הזמן שנקבע‬
‫• חישוב ההסתברות לכל ערך של פער המנדטים בבחירות ב‪-‬‬
‫‪ 17.5.2015‬באמצעות התפלגות נורמלית‪ ,‬על בסיס ממוצע‬
‫התחזיות של המכונים וטעויות החיזוי הממוצעות בארבעת‬
‫מערכות הבחירות האחרונות‪.‬‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫בחירת סוקרים שישתתפו במיצוע‬
‫טעויות החיזוי במערכות הבחירות האחרונות‪ ,‬לפי סוקרים‬
‫בצד שמאל סכום הערך המוחלט של טעויות החיזוי‬
‫בצד ימין ערך הטעויות‬
‫• ב‪ 2003 -‬הסוקרים טעו בממוצע בכעשרה מנדטים‬
‫לטובת מפלגות השמאל מרכז (בפועל המרכז שמאל‬
‫ירדו)‬
‫• ב‪ 2006 -‬וב‪ 2009 -‬טעויות החיזוי היו קטנות יחסית‬
‫• ב‪ 2013 -‬טעויות החיזוי חזרו שוב ל‪ 10 -‬מנדטים‬
‫והפעם לטובת ימין חרדים (בפועל המרכז שמאל עלו)‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫טעות החיזוי במערכות הבחירות הקודמות‪ ,‬של המכונים שנבחרו לחיזוי‬
‫פערי המנדטים בבחירות מאי ‪ ,2015‬על בסיס הסקרים בתקופה שקדמה‬
‫לבחירות‬
‫מספר‬
‫סקרים‬
‫טעות‬
‫חיזוי‬
‫במנדטים‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫אומדני טעויות החיזוי של מכוני הסקרים בעבר ‪ -‬טעות החיזוי הממוצעת וסטיית התקן‬
‫(במנדטים) של מיצוע הסקרים של המכונים שנבחרו‪ ,‬בארבעת השבועות האחרונים שלפני‬
‫הבחירות ובשבוע האחרון‪ ,‬במערכות הבחירות האחרונות‬
‫ארבעה שבועות לפני הבחירות‬
‫שבוע אחרון לפני הבחירות‬
‫‪Year‬‬
‫‪Year‬‬
‫‪8‬‬
‫‪19‬‬
‫‪9.58‬‬
‫‪6‬‬
‫‪6.67‬‬
‫‪10‬‬
‫‪6‬‬
‫‪STD(AVERAGES) = 6.72‬‬
‫‪STD(AVERAGES) =5.36‬‬
‫‪8‬‬
‫‪4‬‬
‫‪6‬‬
‫‪4‬‬
‫‪2‬‬
‫‪7‬‬
‫‪0.00‬‬
‫‪GrandTotal‬‬
‫‪2013‬‬
‫‪2006‬‬
‫‪2009‬‬
‫‪2003‬‬
‫‪Avg. Error‬‬
‫‪7‬‬
‫‪-8.43‬‬
‫סטיית התקן חושבה על בסיס‬
‫ארבע תצפיות ‪ -‬מספר קטן מאוד‪.‬‬
‫אולם חשוב לציין כי ארבעת‬
‫הנתונים כוללים מידע רב שכן‬
‫שתי תצפיות נמצאות בערכים‬
‫קיצוניים‪ -‬פעם חיובי ופעם שלילי‬
‫ופעמיים בסביבת ה‪.0-‬‬
‫זוהי אינדקציה ראשונית לכך‬
‫שייתכן ולא מדובר בהתפלגות‬
‫נורמלית‪ Nate Silver .‬אכן‬
‫משתמש בחיזוי בהתפלגות‬
‫בעלות זנבות עבים שנותנת‬
‫סבירות גדולה יותר ל"הפתעות"‬
‫מאשר מהתפלגות נורמלית‬
‫‪0‬‬
‫‪80‬‬
‫‪0.04‬‬
‫‪0‬‬
‫‪-2‬‬
‫‪-2‬‬
‫‪-4‬‬
‫‪-4‬‬
‫‪-6‬‬
‫‪-6‬‬
‫‪-8‬‬
‫‪-8‬‬
‫‪24‬‬
‫‪-9.38‬‬
‫‪GrandTotal‬‬
‫‪2013‬‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫‪-10‬‬
‫‪2009‬‬
‫‪2006‬‬
‫‪2003‬‬
‫‪Avg. Error‬‬
‫‪25‬‬
‫‪-0.68‬‬
‫‪5‬‬
‫‪0.40‬‬
‫‪18‬‬
‫‪1.17‬‬
‫‪19‬‬
‫‪1.32‬‬
‫‪2‬‬
‫סקר הסקרים – מיצוע תחזיות הסקרים ל‪ ,2015 -‬ארבעה שבועות לפני‬
‫הבחירות ובשבוע האחרון –הפער במנדטים בין הגושים‬
‫שבוע אחרון לפני הבחירות‬
‫ארבעה שבועות לפני הבחירות‬
‫בראש כל עמודה כמות הסקרים ומעל תחזית‬
‫הפער החזוי במספר המנדטים בין הגושים‪.‬‬
‫העמודה הימנית היא המיצוע של כל הסקרים‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬
‫ההסתברות המצטברת להפרש המנדטים בין גוש ימין‪-‬חרדים לבין גוש‬
‫שמאל מרכז‪ ,‬בבחירות לכנסת ה‪( 20 -‬בהנחת התפלגות נורמלית ולפי ממוצע הסקרים‬
‫בשבוע האחרון לפני הבחירות‪ ,‬החוזה הפרש של ‪ 5.3‬לטובת גוש הימין חרדים‪ ,‬וסטיית תקן של ‪5.4‬‬
‫– על בסיס טעות המכונים בארבעת מערכות הבחירות הקודמות)‬
‫‪1‬‬
‫‪0.9‬‬
‫‪0.8‬‬
‫‪0.7‬‬
‫הסיכוי של גוש שמאל‬
‫מרכז להגיע לנקודת‬
‫השיוויון – כלומר‬
‫לצמצם את הפער ב‪-‬‬
‫‪ 13‬מנדטים הוא כ‪-‬‬
‫‪15%‬‬
‫מצב בכנסת ‪ - 19‬פער של‬
‫‪ 13‬מנדטים‪ .‬לפי ההתפלגות‬
‫הצפויה‪ ,‬הסיכוי של גוש ימין‬
‫חרדים לשמור על כוחו או‬
‫להגדילו קטן מ‪ ,10% -‬כלומר‬
‫הסיכוי של גוש שמאל מרכז‬
‫להגדיל את כוחו הוא כ‪90% -‬‬
‫‪0.6‬‬
‫‪0.5‬‬
‫‪0.4‬‬
‫‪0.3‬‬
‫‪0.2‬‬
‫‪0.1‬‬
‫‪0‬‬
‫‪20‬‬
‫‪18‬‬
‫‪16‬‬
‫‪14‬‬
‫‪12‬‬
‫‪10‬‬
‫‪8‬‬
‫‪6‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪-2‬‬
‫‪-4‬‬
‫‪-6‬‬
‫סיכום‬
‫• הוצגה מתודולוגיית חיזוי תוצאות הבחירות של ‪Nate‬‬
‫‪Silver‬‬
‫• הראנו שישנו קושי רב לישמה בישראל שכן כמות‬
‫המידע ההיסטורי שניתן ללמוד ממנו בישראל‪ ,‬הינו קטן‬
‫ביותר‪.‬‬
‫• על ידי צמצום בעיית החיזוי בבחירות ‪ ,2015‬לחיזוי של‬
‫פערי המנדטים בין גוש ימין חרדים לגוש שמאל מרכז‪,‬‬
‫הצלחנו להדגים את עקרונות השיטה לנתוני בחירות‬
‫‪ 2015‬בישראל‪.‬‬
‫אין לפרסם ולצטט בלי ציון שם המחבר ושם החברה‬