Quantitative10-InferenceIntro

‫קורס חשיבה כמותית – סמסטר א' תשע''ו (‪)2015-2016‬‬
‫הסקה סטטיסטית‬
‫הסקה סטטיסטית‬
‫מהי הסקה סטטיסטית ?‬
‫‪‬‬
‫הסקה סטטיסטית עוסקת בשיטות להסקה על כל האוכלוסייה מתוצאות‬
‫של מדגם מייצג‬
‫‪‬‬
‫רוב המחקרים מבוססים על מדגמים‪ ,‬לא על כל האוכלוסייה בה מעוניינים‬
‫‪‬‬
‫על כן היכולת להכליל את תוצאות המדגם היא חשובה ביותר‬
‫הסקה סטטיסטית‬
‫מהי הסקה סטטיסטית ?‬
‫‪‬‬
‫ההסקה הסטטיסטית איננה בוודאות אלא בהסתברות‬
‫‪‬‬
‫ניתן להסיק מהמדגם בהסתברות גבוהה ביותר לגבי האוכלוסייה אבל‪... ,‬‬
‫‪‬‬
‫תמיד קיים סיכוי מסוים לטעות‬
‫‪‬‬
‫לכן‪ ,‬לצד כל מסקנה מחקרית יש לציין את ההסתברות לטעות במסקנה‬
‫הסקה סטטיסטית‬
‫סימונים‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫ערכי המשתנה הנחקר המתארים את כל האוכלוסייה‪:‬‬
‫‪‬‬
‫ממוצע האוכלוסייה –‬
‫סטיית תקן של האוכלוסייה –‬
‫‪‬‬
‫‪‬‬
‫ערכי המשתנה הנחקר המתארים את המדגם‪:‬‬
‫‪‬‬
‫ממוצע המדגם – ‪x‬‬
‫‪‬‬
‫סטיית תקן של המדגם – ‪s‬‬
‫הסקה סטטיסטית‬
‫התפלגות הדגימה של הממוצע‬
‫‪‬‬
‫מדובר על התפלגות ממוצעי כל המדגמים האפשריים בגודל מסוים‪ ,‬מתוך‬
‫האוכלוסייה‪.‬‬
‫‪‬‬
‫נניח שיש לנו אוכלוסיה של ‪ 1000‬סטודנטים שלומדו חדו''א בישראל השנה‪.‬‬
‫על מנת לחקור את הציונים שלהם‪ ,‬נבחר מדגם מייצג של ‪ 50‬סטודנטים‪.‬‬
‫‪‬‬
‫כאשר יש מדגם‪ ,‬אפשר לחשב את הממוצע ואת סטיית התקן שלו‪x1 , s1 :‬‬
‫‪‬‬
‫מה יקרה עם נבחר מדגם אחר ? סביר להניח שנקבל תוצאות קצת שונות‪:‬‬
‫‪x2 , s2‬‬
‫הסקה סטטיסטית‬
‫התפלגות הדגימה של הממוצע‬
‫‪‬‬
‫כמה מדגמים שונים של ‪ 50‬סטודנטים ניתן להרכיב מאוכלוסייה של ‪1000‬‬
‫לומדי חדו''א ?‬
‫‪1000  1000! 1000  999  998  ...  952  951‬‬
‫‪‬‬
‫‪ ‬‬
‫‪‬‬
‫‪K‬‬
‫‪50  49  48  ...  3  2‬‬
‫!‪ 50  950!50‬‬
‫הסקה סטטיסטית‬
‫התפלגות הדגימה של הממוצע‬
‫‪‬‬
‫‪‬‬
‫‪ K‬הוא מספר גדול מאוד ‪...‬‬
‫לכן‪ ,‬אם היינו יכולים לבדוק את כל ‪ K‬המדגמים האפשריים‪ ,‬היינו מקבלים‬
‫סדרה ארוכה מאוד של ממוצעים ושל סטיות תקן‪:‬‬
‫‪x1 , x2 , x3 , x4 ,..., xK‬‬
‫‪s1 , s2 , s3 , s4 ,..., sK‬‬
‫הסקה סטטיסטית‬
‫התפלגות הדגימה של הממוצע‬
‫‪‬‬
‫נניח שהיינו יכולים לבדוק באמת את כל האוכלוסייה (‪ 1000‬סטודנטים)‬
‫והיינו יכולים לחשב את הממוצע ואת סטיית התקן שלה‪ ,  :‬‬
‫‪‬‬
‫האם יש קשר בין כל הערכים הללו ואם כן מהו ?‬
‫‪ ,‬‬
‫‪x1 , x2 , x3 , x4 ,..., xK‬‬
‫‪s1 , s2 , s3 , s4 ,..., sK‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫אם מתוך אוכלוסייה בעלת ממוצע ‪ ‬וסטיית תקן ‪ ‬היינו מוציאים את כל‬
‫המדגמים האפשריים באותו גודל ‪ ,n‬ובכל מדגם מחשבים את הממוצע שלו‪,‬‬
‫אזי‪ ,‬עבור ‪ n‬מספיק גדול‪ ,‬סדרת ממוצעי כל המדגמים‪:‬‬
‫‪‬‬
‫שואפת להתפלגות נורמאלית‬
‫‪‬‬
‫ממוצע ההתפלגות הזו היא ‪‬‬
‫‪‬‬
‫סטיית התקן של ההתפלגות היא‬
‫‪‬‬
‫סטיית תקן זו נקראת טעות התקן‬
‫‪‬‬
‫‪n‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫שימו לב ! זה שסדרת ממוצעי כל המדגמים מתפלגת נורמאלית‪ ,‬עדיין לא‬
‫אומר שההתפלגות של המשתנה באוכלוסייה היא נורמאלית‪.‬‬
‫‪‬‬
‫המשפט לא אומר שום דבר לגבי ההתפלגות באוכלוסייה ‪ ...‬גם אם‬
‫המשתנה הנחקר איננו מתפלג נורמאלית באוכלוסייה‪ ,‬המשפט עדיין תופס‬
‫(סדרת ממוצעי כל המדגמים מתפלגת נורמאלית)‪...‬‬
‫‪‬‬
‫‪...‬אבל תופס בתנאי ש‪ n-‬מספיק גדול (כאשר ‪ n‬הוא גודל המדגם)‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫אם ההתפלגות של המשתנה באוכלוסייה היא גם נורמאלית‪ ,‬אז גם עבור‬
‫מדגמים קטנים מאוד‪ ,‬סדרת ממוצעי כל המדגמים מתפלגת נורמאלית‪.‬‬
‫‪‬‬
‫לכן נבחין בין שני מצבים כדי לעבוד עם משפט הגבול המרכזי‪:‬‬
‫‪‬‬
‫‪‬‬
‫אם ‪ ,n < 100‬יש להניח התפלגות נורמאלית באוכלוסיה‬
‫אם ‪ ,n > 100‬אין צורך להניח התפלגות נורמאלית באוכלוסיה‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫אז כמה פרמטרים יש לנו עד עכשיו ?‬
‫‪‬‬
‫התפלגות האוכלוסייה המקורית‪ :‬ממוצע ‪ , ‬סטיית תקן ‪‬‬
‫‪‬‬
‫‪‬‬
‫התפלגות ממוצעי המדגמים‪ :‬ממוצע ‪ ,‬סטיית תקן‬
‫‪‬‬
‫התפלגות התצפיות במדגם הנחקר‪ :‬ממוצע ‪ , x‬סטיית תקן ‪s‬‬
‫‪n‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫דוגמא אמפירית‪:‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫דוגמא אמפירית‪:‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫דוגמא אמפירית‪:‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫דוגמא אמפירית‪:‬‬
‫ועל פי התיאוריה‪ ,‬להתפלגות‬
‫ממוצעי המדגמים יש‪:‬‬
‫‪  X  76‬‬
‫ממוצע‪:‬‬
‫טעות התקן‪:‬‬
‫‪‬‬
‫‪4.86‬‬
‫‪‬‬
‫‪ 1.98‬‬
‫‪n‬‬
‫‪10‬‬
‫‪1.98‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫דוגמא‪ :‬אוכלוסיית המחקר ‪ -‬השכירים בישראל בשנת ‪ .1988‬משתנה‬
‫המחקר – שכר חודשי‬
‫‪‬‬
‫התפלגות השכר היא אסימטרית חיובית‪ ,‬כלומר‪,‬‬
‫ריכוז גדול של משכורות נמוכות ובינוניות‪ ,‬עם‬
‫"זנב" לכוון הערכים הגבוהים של השכר‪.‬‬
‫‪‬‬
‫הממוצע וסטיית התקן של האוכלוסייה הם‪  1500,   300 :‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫‪‬‬
‫מהי התפלגות ממוצעי כל המדגמים האפשריים בגודל ‪? n = 400‬‬
‫מכוון שהמדגם גדול (‪ )n > 100‬אין צורך להניח התפלגות נורמאלית (ואכן‬
‫אין כזאת)‬
‫‪‬‬
‫הממוצע יהיה ‪1500‬‬
‫‪‬‬
‫‪300‬‬
‫‪‬‬
‫סטיית התקן תהיה‪ 15 :‬‬
‫‪n‬‬
‫‪400‬‬
‫‪‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫‪‬‬
‫מהו התחום הסימטרי סביב ‪ ‬בו מרוכזים ‪ 95%‬ממוצעי כל המדגמים‬
‫האפשריים בגודל ‪? n = 400‬‬
‫אנחנו מחפשים טווח בין זנב של ‪ 2.5%‬משמאל‪ ,‬לזנב של ‪ 2.5%‬מימין‬
‫התפלגות נורמאלית מתוקננת (תזכורת)‬
‫סימונים מקובלים‪:‬‬
‫‪P( Z  0.5)  0.691‬‬
‫‪Z 0.5  0.691‬‬
‫המשמעות היא שבהתפלגות נורמלית‬
‫מתוקננת‪:‬‬
‫‪ -1‬הסיכוי של המשתנה להיות קטן‬
‫מ‪ 0.5-‬היא ‪0.691‬‬
‫‪ -2‬השטח מתחת לפונקציה ממינוס‬
‫אינסוף עד ‪ 0.5‬הוא ‪0.691‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫‪‬‬
‫מהו התחום הסימטרי סביב ‪ ‬בו מרוכזים ‪ 95%‬ממוצעי כל המדגמים‬
‫האפשריים בגודל ‪? n = 400‬‬
‫מכוון שממוצעי המדגמים מתפלגים נורמאלית‪ ,‬אפשר להשתמש בלוח‪:‬‬
‫‪a1   a1  1500‬‬
‫‪Z 0.025  1.96 ‬‬
‫‪‬‬
‫‪ a1  1470.6‬‬
‫‪15‬‬
‫‪  ‬‬
‫‪‬‬
‫‪‬‬
‫‪ n‬‬
‫‪a1   a1  1500‬‬
‫‪Z 0.975  1.96 ‬‬
‫‪‬‬
‫‪ a1  1529.4‬‬
‫‪15‬‬
‫‪  ‬‬
‫‪‬‬
‫‪‬‬
‫‪ n‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫המשפט לא אומר שום דבר לגבי ההתפלגות באוכלוסייה ‪ ...‬גם אם‬
‫המשתנה הנחקר איננו מתפלג נורמאלית באוכלוסייה‪ ,‬המשפט עדיין תופס‬
‫(סדרת ממוצעי כל המדגמים מתפלגת נורמאלית)‪...‬‬
‫דוגמא להתפלגות "לא נורמאלית"‪ :‬התפלגות ברנולי (‪)Bernoulli‬‬
‫הסיכוי שהדרך לטכניון פנויה הוא ‪( 78%‬זהו האירוע המעניין אותנו)‬
‫הסיכוי לפקק בדרך הוא‪ ,‬לכן‪.22% ,‬‬
‫‪P (Y  1)  p‬‬
‫‪P (Y  0)  1  p‬‬
‫הממוצע הוא ‪1 p  0  (1  p)  0.78‬‬
‫‪P (Y  1)  0.78‬‬
‫‪P (Y  0)  0.22‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫נניח שדוגמים מתוך האוכלוסייה את כל המדגמים האפשריים בגודל ‪n=2‬‬
‫המשמעות היא שמנתחים את כל האפשרויות הקיימות לדגימת ‪ 2‬נסיעות‬
‫לטכניון‪ .‬מה יכול לקרות?‬
‫למשל‪ ,‬שביומיים הנדגמים‪ ,‬הדרך פנויה‪ .‬מה ההסתברות לכך?‬
‫מכוון שכל יום הוא בלתי‪-‬תלוי‪P(Y1  1, Y2  1)  0.78  0.78  0.6084 :‬‬
‫‪P(Y1  0, Y2  0)  0.22  0.22  0.0484‬‬
‫מה ההסתברות שיום אחד הדרך פנויה והאחר הדרך פקוקה?‬
‫כאן יש ‪ 2‬אופציות‪ :‬היום הראשון הדרך פנויה והשני לא‪ ,‬ולהפך‪:‬‬
‫‪P(Y1  0, Y2  1‬‬
‫‪P(Y1  1, Y2  0)  0.78  0.22  0.1716‬‬
‫‪or‬‬
‫‪P(Y1  0, Y2  1)  0.22  0.78  0.1716‬‬
‫‪Y1  1, Y2  0)  0.3432‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫נניח שדוגמים מתוך האוכלוסייה את כל המדגמים האפשריים בגודל ‪n=2‬‬
‫עוברים לקובץ אקסל ‪...‬‬
‫והתוצאה למדגמים בגודל ‪ n=2‬היא‪:‬‬
‫‪0.7‬‬
‫‪0.6‬‬
‫‪0.4‬‬
‫‪0.3‬‬
‫‪0.2‬‬
‫‪0.1‬‬
‫‪0‬‬
‫‪1.0‬‬
‫‪0.5‬‬
‫‪0.0‬‬
‫‪Value of sample average‬‬
‫‪Probability‬‬
‫‪0.5‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫נניח שדוגמים מתוך האוכלוסייה את כל המדגמים האפשריים בגודל ‪n=5‬‬
‫עוברים לקובץ אקסל ‪...‬‬
‫והתוצאה למדגמים בגודל ‪ n=5‬היא‪:‬‬
‫‪1.0‬‬
‫‪0.8‬‬
‫‪0.6‬‬
‫‪0.4‬‬
‫‪0.2‬‬
‫‪Value of sample average‬‬
‫‪0.0‬‬
‫‪Probability‬‬
‫‪0.45‬‬
‫‪0.4‬‬
‫‪0.35‬‬
‫‪0.3‬‬
‫‪0.25‬‬
‫‪0.2‬‬
‫‪0.15‬‬
‫‪0.1‬‬
‫‪0.05‬‬
‫‪0‬‬
‫הסקה סטטיסטית‬
‫משפט הגבול‬
‫המרכזי לממוצע‬
‫ומה קורה עם‬
‫התפלגות המשתנה‬
‫"נסיעה חלקה‬
‫לטכניון" כאשר‬
‫המדגם הולך וגדל ?‬
‫הסקה סטטיסטית‬
‫משפט הגבול המרכזי לממוצע‬
‫‪‬‬
‫מסקנה‪ :‬גם כאשר המשתנה הנחקר איננו מתפלג נורמאלית באוכלוסייה‪,‬‬
‫המשפט עדיין תופס (סדרת ממוצעי כל המדגמים שואפת להתפלגות‬
‫נורמאלית‪ ,‬ממוצע ההתפלגות הזו שואף לממוצע האוכלוסייה וניתן לחשב‬
‫את טעות התקן לפי הנוסחה שלמדנו)‪.‬‬
‫‪‬‬
‫כהמחשה למשפט ניתחנו התפלגות ברנולי (לא נורמאלית) ובדקנו את‬
‫התכנסות הממוצעים‬
‫ביבליוגרפיה‬
‫החומר למצגת זו נלקח מהמקורות הבאים‪:‬‬
‫‪‬‬
‫"סטטיסטיקה ללא סטטיסיקאים"‪ ,‬רונית איזנבך‪ ,‬אקדמון‬
‫‪Introduction to econometrics, Stock-Watson, Pearson editors‬‬
‫‪‬‬