מבוא לאקונומטריקה ־ 57322

‫מבוא לאקונומטריקה ־ ‪57322‬‬
‫חיים שחור ־ סיכומי הרצאות של פרופ' שאול לאך‬
‫‪ 21‬ביוני ‪2012‬‬
‫‪5‬‬
‫תכונות אסימפטוטיות של ‪OLS‬‬
‫ז' סיון תשע"ב )שעור ‪(1‬‬
‫נרצה לעשות ניתוח כאשר ∞ → ‪ .n‬יש שתי תכונות עיקריות של ‪:OLS‬‬
‫‪ ,M LR1‬בעיקר ‪ ,M LR4 : E [u | x1 . . . xk ] = 0‬שהובילה לכך‬
‫‪h −i M LR4 .1‬‬
‫ש־ ‪.E βˆj = βj‬‬
‫‪σ2‬‬
‫‪M LR5 .2‬־ הומוסקדסטיות‪ ,‬שהובילה לכך ש־ ‬
‫‪SSTj 1 − Rj2‬‬
‫‪Pn‬‬
‫‪2‬‬
‫= ‪ ,SSTj‬ו־ ‪ Rj2‬הוא ‪ R2‬מרגרסיה של ‪ xj‬על כל‬
‫כאשר ) ‪i=1 (xij − xj‬‬
‫המשתנים האחרים‪.‬‬
‫ ‬
‫= ‪,V ar βˆj‬‬
‫בעזרת הנחות ‪ ,1 − 5‬יש לנו משפט גאוס מרקוב כי ‪ OLS‬הוא ‪.BLU E‬‬
‫‬
‫ ‬
‫‪ M LR6 : y | x ∼ N‬גררה כי‬
‫‪ .βˆj ∼ N βj , var βˆj‬מכאן ניתן להשתמש במבחני‬
‫‪ t, f‬לבדיקת השערות‪.‬‬
‫למה חשוב ניתוח אסימפטוטי? משתנה נורמלי הוא רציף‪ ,‬יכול לקבל כל ערך אפשרי‪.‬‬
‫משתנים בכלכלה הם לפעמים בדידים‪ ,‬ולפעמים חיוביים ומוגבלים בטווח מסויים‪ .‬נרצה‬
‫להראות שבמדגם מאוד גדול הנחה ‪ M LR6‬לא חשובה‪ ,‬וניתן עדיין להשתמש במבחנים‬
‫הנ"ל‪.‬‬
‫אם מגדילים את גודל המדגם‪ ,‬למה האומד ישאף? האם ‪ βˆj‬שואף ל־ ‪ ?βj‬בשביל‬
‫זה נצטרך לפתח את המונח גבול של אומדים‪ ,‬ואם כן‪ ,‬נאמר שהאומד הוא עקיב‬
‫)קונסיסטנטי(‪ .‬מה ההבדל בין עקביות לחוסר הטיה?‬
‫‪1‬‬
‫חוסר הטיה של אומד משמעותו שעל פני מספר גדול של מדגמים‪ ,‬הממוצע של האומד‬
‫הוא האומד האמיתי‪.‬‬
‫נשתמש בסימולציה לבנות מודל פשוט ‪ .y = β0 + β1 x1 + u‬נניח ‪.β0 = 1, β1 = 2‬‬
‫שולפים עבור ‪ ,n = 150‬תצפיות מסוג )‪ .{xi1 , ui }ni=1 ∼ χ2 (1‬מתוך זה בונים את‬
‫‪ .yP= 1 + 2xi + ui‬מריצים רגרסיה של ‪ y‬על ‪ ,x‬ומקבלים אומדים ‪ .βˆ0 , βˆ1‬הנוסחא היא‬
‫‪(x1i − x1 ) yi‬‬
‫‪ .βˆ1 = P‬בהרצה של ‪ 1000‬מדגמים של ‪ 150‬תצפיות‪ ,‬הממוצע הוא מאוד‬
‫‪(x1i − x1 )2‬‬
‫קרוב ל־‪ ,2‬והחותך מאוד קרוב ל־‪ .1‬מספר המדגמים הוא סופי‪ ,‬ולכן זה רק כמעט‪ .‬אם‬
‫עושים היסטוגרמה מגלים שרוב הערכים הם סביב ‪ ,2‬אבל יש גם ‪.2.4‬‬
‫)‪(n‬‬
‫‪ βˆ1‬את האומד עבור ‪ n‬תצפיות‪ .‬נרצה‬
‫האומד תלוי בגודל המדגם ‪ ,n‬ולכן נסמן‬
‫)‪(k+1‬‬
‫)‪(k+2‬‬
‫)‪(n‬‬
‫ˆ‬
‫ˆ‬
‫‪ .βj‬נרצה למצוא גבול‬
‫‪, βj‬‬
‫‪ .βˆ1‬נסתכל על הסדרה ‪, . . .‬‬
‫לשאול ?→‪−−−‬‬
‫∞→‪n‬‬
‫לסדרה הזו‪.‬‬
‫יש כאן בעיה מהותית בהגדרה‪ .‬עד כה היו לנו סדרות של מספרים‪ .‬כעת יש לנו סדרות‬
‫של משתנים מקריים‪ .‬כל אומד הוא מקרי ותלוי במדגם‪ ,‬ולכן עבור ערכים גדולים של‬
‫‪ ,n‬אולי נקבל ערכים רחוקים מהגבול במדגם מסויים‪.‬‬
‫‬
‫‪o‬‬
‫)‪n (n‬‬
‫‬
‫‬
‫יהי ‪ .ε > 0‬נגדיר ‪ .pn = P r βˆj − c < ε‬נגדיר התכנסות בהסתברות‬
‫‪p‬‬
‫‪ βˆj −−−→ c‬אם ‪ pn −−−→ 1‬לכל ‪.ε > 0‬‬
‫∞→‪n‬‬
‫∞→‪n‬‬
‫בעמ' ‪ 4‬יש דוגמא של התפלגויות‬
‫)‪ˆ(n‬‬
‫‪ βj‬עבור ‪.n = 1, 2, 3‬‬
‫אם האומד מתכנס בהסתברות לפרמטר האמיתי‪ ,‬נאמר ש ‪ βˆj‬עקיב ל־ ‪ .βj‬נרצה להראות‬
‫אלו הנחות צריך כדי לומר שאומד הוא עקיב‪.‬‬
‫‪ n‬‬
‫‪h (n) i‬‬
‫טענה ‪ 5.1‬אם ‪= βj‬‬
‫‪ E βˆj‬לכל ‪ ,n‬ו־‪ ,limn→∞ V ar βˆj = 0‬אזי ‪ βˆj‬עקיב ל־ ‪.βj‬‬
‫האם ‪ OLS‬עקיב?‬
‫‪h i‬‬
‫‪ M LR1 − M LR4 .1‬מבטיח כי ‪E βˆj = βj‬‬
‫‪σ2‬‬
‫‪ .2‬בעזרת ‪ M LR5‬נקבל ‬
‫‪2‬‬
‫‪2‬‬
‫‪(x‬‬
‫‪−‬‬
‫‪x‬‬
‫)‬
‫‪1‬‬
‫‪−‬‬
‫‪R‬‬
‫‪ij‬‬
‫‪j‬‬
‫‪j‬‬
‫‪i=1‬‬
‫השלישית אנחנו שוללים את העובדה ש־‪ ,Rj2 → 1‬ולכן ככל ש־∞ → ‪ ,n‬המונה‬
‫עולה‪ ,‬והשונות שואפת לאפס‪.‬‬
‫ )‪ (n‬‬
‫‪ .V ar βˆj‬בהנחה‬
‫‪= Pn‬‬
‫בהמשך נראה כי ההנחות הדרושות הן ‪ .M LR1 − M LR4‬ההנחה החמישית אינה‬
‫נצרכת‪.‬‬
‫‪2‬‬
‫סימולציה במחשב‪ :‬עבור ‪ ,n = 2 . . . 10, 000‬מגרילים )‪ .xi , ui ∼ χ2 (1‬מחשבים‬
‫‪ .y = 1 + 3x + u‬אם בודקים‪ ,‬בהתחלה יש שונות גדולה‪ ,‬אבל ככל ש־‪ n‬גדל‪ ,‬אנחנו‬
‫מתכנסים ל‪ .3‬אם מסתכלים על הענן בזנב‪ ,‬מקבלים שמעבר ל‪ ,9000‬הטווחים הם בתוך‬
‫]‪ .[2.97, 3.03‬למרות שיש לנו התכנסות‪ ,‬עדיין יש פה ושם נקודות שסוטות יותר‪ .‬ניתן‬
‫להמשיך עוד ועוד‪.‬‬
‫‪P‬‬
‫‪P‬‬
‫‪x‬‬
‫)‬
‫‪y‬‬
‫‪x‬‬
‫‪(x‬‬
‫‪−‬‬
‫‪(x‬‬
‫‪−‬‬
‫‪1‬‬
‫‪i‬‬
‫‪1 ) ui‬‬
‫‪i1‬‬
‫‪i1‬‬
‫‪ ,βˆ1 = P‬לכן‬
‫‪2 = β1 + P‬‬
‫באופן כללי ‪2‬‬
‫) ‪(x1i − xi‬‬
‫‪(x1i −‬‬
‫‪x‬‬
‫)‬
‫‪i‬‬
‫‬
‫‪P‬‬
‫‪(xi1 − x1 ) ui‬‬
‫ˆ‬
‫‪.p lim β1 = β1 + p lim P‬‬
‫‪(x1i − xi )2‬‬
‫∞} ‪ {zi‬ב"ת הבאים מאותה התפלגות ‪ ,i.i.d.‬ותוחלת‬
‫לפי חוק המספרים הגדולים‪ ,‬עבור ‪i=1‬‬
‫‪1 Pn‬‬
‫= ‪ ,zn‬יש לנו סדרת ממוצעים ‪.z1 , z2 , . . .‬‬
‫∞ < ]‪ .E [z‬אזי בחישוב הממוצע ‪zi‬‬
‫‪n i=1‬‬
‫לפי חוק המספרים הגדולים‪.p lim zn = E [z] ,‬‬
‫כעת נחשב את הגבול של המנה‪ ,‬אזי‬
‫‪P‬‬
‫‪P‬‬
‫‬
‫‪p lim n1 ni=1 (xi1 − x1 ) ui‬‬
‫‪(xi1 − x1 ) ui‬‬
‫)‪cov (x1 , u‬‬
‫‪p lim P‬‬
‫=‬
‫‪Pn‬‬
‫‪2‬‬
‫= ‪2‬‬
‫‪1‬‬
‫) ‪V ar (x1‬‬
‫) ‪p lim n i=1 (xi1 − x1‬‬
‫) ‪(x1i − xi‬‬
‫לכן האומד ‪ βˆ1‬עקיב אם ‪ .cov (x1 , u) = 0‬זה נובע מהנחת ‪) M LR4‬ואפילו חלש‬
‫ממנה(‪.‬‬
‫‪1P‬‬
‫איך נחשב את ‪(xi1 − x1 ) ui‬‬
‫‪?p lim‬‬
‫‪n‬‬
‫])]‪ .cov (x1 , u) = E (x1 u) − E (x1 ) E (u) = E [(x1 − E [x1 ]) (u − E [u‬לפי חוק‬
‫‪1P‬‬
‫‪1P‬‬
‫= ‪(xi1 − x1 ) ui‬‬
‫המספרים הגדולים‪(xi1 ui ) − x1 u ,‬‬
‫‪ ,‬לכן‬
‫‪n‬‬
‫‪n‬‬
‫‪1X‬‬
‫‪1X‬‬
‫‪(xi1 − x1 ) ui = p lim‬‬
‫= ¯‪xi1 ui − p lim x1 u‬‬
‫‪p lim‬‬
‫‪n‬‬
‫‪n‬‬
‫‪1X‬‬
‫‪= p lim‬‬
‫= ‪xi1 ui − p lim x1 lim u‬‬
‫‪n‬‬
‫)‪= E [x1 u] − E [x1 ] E [u] = cov (x1 , u‬‬
‫‪P‬‬
‫‪P‬‬
‫‪ n1‬לפי טריק מס' ‪ ,1‬ומכאן להמשיך אותו‬
‫‪(xi − x)2 = n1‬‬
‫את המכנה ‪(xi − x) xi‬‬
‫‪P 2‬‬
‫‪1‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫דבר‪ .‬בעזרת ‪ p lim x = (p lim x ) = E [X]2‬ו־] ‪.p lim n x = p lim x2 = E [x‬‬
‫י' סיון תשע"ב )שעור ‪(2‬‬
‫הוכחנו שאם האומד חסר הטיה‪ ,‬הוא יהיה עקיב‪ ,‬וזה מתקיים תחת הנחות ‪4‬־‪ .1‬נתנו‬
‫‪ ,y =P‬והראינו כי‬
‫הוכחה למודל הפשוט ‪β0 + β1 x1 + u‬‬
‫)‪cov (x1 , u‬‬
‫‪(xi1 − x¯1 ) yi p‬‬
‫‪.βˆ1 = P‬‬
‫‪− β1 +‬‬
‫→ ‪2‬‬
‫) ‪V ar (x1‬‬
‫) ‪(xi1 − x¯1‬‬
‫‪3‬‬
‫נרצה לדעת האם השאיפה היא עם סטייה חיובית או שלילית‪ .‬המכנה הוא שונות‪ ,‬ולכן‬
‫תמיד חיובי‪ .‬נרצה לתת "ניחוש מלומד" על )‪ .cov (x1 , u‬קשה לדעת מה זה ‪ u‬בדיוק‪,‬‬
‫לכן ניתן דוגמא ספציפית‪.‬‬
‫‪P‬‬
‫אפשר לקבל את הרושם המוטעה שבמודל כללי יותר ‪ ,y = β0 + βi xi + u‬התנאי‬
‫ל־ ‪ p lim βˆj = βj‬הוא גם כן )‪ ,cov (xj , u‬אבל זה לא מספיק‪ .‬דרוש שלכל ‪ i‬יתקיים‬
‫)‪ .cov (xi , u‬זה עדיין נגרר ע"י הנחה ‪ E [u | x1 , . . . xk ] = 0 ,M LR4‬שהיא אפילו‬
‫חזקה יותר )אי תלות בתוחלת חזקה מחוסר מתאם(‪.‬‬
‫הדוגמא שלנו תהיה השמטת משתנה‪ .‬נניח ‪ ,y = β0 + β1 x1 + β2 x2 + v‬תחת ‪M LR4‬‬
‫כי ‪ .E [v | x1 , x2 ] = 0‬אם נריץ רגרסיה נקבל ‪ βˆ0 , βˆ1 , βˆ2‬עקיבים‪ .‬אם אין נתונים על‬
‫‪ ,x2‬נריץ רק על ‪ x1‬ונקבל ∗‪ .βˆ1‬בשלב זה ‪ x2‬הופך להיות חלק מהטעות‪ .‬נשים לב כי‬
‫) ‪cov (x1 , u) = cov (x1 , β2 x2 + v) = β2 cov (x1 , x2 )+cov (x1 , v) = (by M RL4 :) β2 cov (x1 , x2‬‬
‫) ‪β2 cov (x1 , x2‬‬
‫)‪cov (x1 , u‬‬
‫‪= β1 +‬‬
‫לכן‬
‫‪ .p lim βˆ1∗ = β1 +‬כעת אני יכול לדבר על‬
‫) ‪V ar (x1‬‬
‫) ‪V ar (x1‬‬
‫הנחות על המקדם של ‪ ,β2‬ועל המתאם ) ‪ cov (x1 , x2‬כדי לדעת האם האומדן נוטה‬
‫כלפי מעלה או כלפי מטה‪.‬‬
‫גם אם ‪ β2‬לא מעניין אותי‪ ,‬הוא מעניין כדי לא לקלקל את האומדן של ‪ .β1‬נשים לב‬
‫שהנוסחה מתאימה להשמטת משתנה‪ ,‬לא למקרה הכללי‪.‬‬
‫הנחת ‪) M LR6‬נורמליות( היא בעייתית כי לא תמיד הערכים המתקבלים חוקיים‪.‬‬
‫הרווחנו מההנחה את היכולת להשתמש בסטטיסטי ‪ t‬או ‪ .f‬אם ) ‪ ,u ∼ N (0, σ 2‬אזי‬
‫‪ y = β0 + β1 x1 + u‬יהיה בעל התפלגות שתלויה ב־‪ x‬וב־‪ .y‬אבל‬
‫]‪E [y] = β0 + β1 E [x] + E [u‬‬
‫)‪V ar (y) = β12 V ar (x1 ) + V ar (u) + 2β1 cov (x1 , u‬‬
‫] ‪E [y | x1 = xo1 ] = β0 + β1 xo1 + E [u | x1 = xo1‬‬
‫) ‪V ar (y | x1 ) = V ar (u | x1‬‬
‫לכן )) ‪ ,y | x1 ∼ N (β0 + β1 x1 , V ar (u | x1‬ובמקרה של ‪ M LR5‬אנחנו מקבלים‬
‫) ‪.y | x1 ∼ N (β0 + β1 x1 , σ 2‬‬
‫אם לא מניחים את ‪ ,M LR6‬אזי בבדיקת השערה של ‪ ,H0 : β1 = β1o‬אנחנו מקבלים‬
‫‪βˆ1 − β1o‬‬
‫‪ t = r‬ובאופן דומה לא ניתן להשתמש בסטטיסטי ‪.f‬‬
‫‪ 6∼ tn−k−1‬‬
‫‪d‬‬
‫‪V ar βˆ1‬‬
‫‪4‬‬
‫ניתוח אסימפטוטי בא לפתור את הבעיה הזו‪ .‬הניתוח אומר שתחת ההנחות ‪M LR1 −‬‬
‫‪βˆ1 − β1o‬‬
‫‪a‬‬
‫‪ . r‬לכן ניתן להמשיך‬
‫‪ ,M LR4‬כאשר ∞ → ‪ n‬אנו מקבלים )‪ ∼ N (0, 1‬‬
‫‪Vd‬‬
‫‪ar βˆ1‬‬
‫לומר כי )‪ t ∼ N (0, 1‬כשמשתמשים ב־‪ n‬גדול‪ ,‬ובאופן דומה לסטטיסטי ‪ .f‬היום‬
‫בעזרת מהפכת המחשוב יש לנו הרבה נתונים במקרים גדולים‪.‬‬
‫‪6‬‬
‫‪6.1‬‬
‫פונקציית המודל הליניארי‬
‫שינוי ביחידות המדידה של ‪ x‬ו־‪y‬‬
‫לפעמים אנחנו משנים את היחידות‪ ,‬למשל מעבר מסיגריות לחפיסות וכד'‪ .‬זה לא משנה‬
‫את המודל‪ ,‬אבל נראה שזה משפיע על האומדים והשונויות שלהם‪.‬‬
‫דוגמא‪ :‬מחיר דירה ביחס לרמת השכונה ומספר החדרים‪ .‬אם מריצים רגרסיה מקבלים‬
‫שכל חדר מוסיף ‪ $ 8200‬למחיר‪ .‬מה יקרה אם מחשבים את המחיר באלפי דולרים?‬
‫האומד צריך להשתנות ל־‪) 8.2‬וכל המקדמים מתחלקים באלף(‪ .‬סטיית התקן מתחלקת‬
‫גם היא‪ ,‬והסטטיסטי ‪ ,t‬ו ‪ R2‬לא השתנו‪ .‬גם המשמעות של המודל לא השתנתה‪.‬‬
‫˜‪,‬‬
‫נניח כי המודל המקורי הוא ‪ .y = β0 + β1 x1 + u‬אנו רוצים לעבור ל־‪y = d · y‬‬
‫ו־ ‪ x˜1 = cx1‬עבור ‪ .c, d > 0‬אם נריץ רגרסיה של ˜‪ y‬על ‪ ,x˜1‬נקבל‬
‫‪y = β0 + β1 x1 + u‬‬
‫˜‪y‬‬
‫‪x˜1‬‬
‫‪= β0 + β1 + u‬‬
‫‪d‬‬
‫‪c‬‬
‫‪dβ1‬‬
‫‪y˜ = dβ0 +‬‬
‫˜‪x˜1 + u‬‬
‫‪c‬‬
‫˜‪= β˜0 + β˜1 x˜1 + u‬‬
‫˜‪.‬‬
‫המטרה היא לבצע טרנספורמציות של המשוואה המקורית כדי לקבל את ˜‪ y‬ו־‪x‬‬
‫אם רק ‪ y‬משתנה )‪ ,(c = 1‬כל המקדמים מוכפלים ב־‪.d‬‬
‫אם ‪ x1‬משתנה )‪ ,(d = 1‬רק המקדם ‪ β1‬מוכפל ב־‪.c‬‬
‫‪P‬‬
‫‪x˜1i − x˜1 y˜1‬‬
‫‪cd (x1i − x¯1 ) y1‬‬
‫‪d‬‬
‫ˆ‬
‫˜‬
‫‪.β1 = P‬‬
‫נסתכל על האומדים‪= βˆ1 :‬‬
‫‪P‬‬
‫= ‪2‬‬
‫‪2‬‬
‫‪c‬‬
‫) ‪c2 (x1i − x1‬‬
‫‪x˜1i − x˜1‬‬
‫˜ˆ‬
‫ˆ ‪d‬‬
‫ ‬
‫‪ d 2‬‬
‫‪β‬‬
‫‪β‬‬
‫‪1‬‬
‫‪1‬‬
‫ˆ‬
‫‪c‬‬
‫˜‬
‫˜‬
‫= ‪ ,V ar β1‬לכן הסטטיסטי ‪t = r = r = t‬‬
‫‪V ar βˆ1‬‬
‫‪c‬‬
‫‪d‬‬
‫‪V βˆ1‬‬
‫‪V βˆ˜1‬‬
‫‪c‬‬
‫‬
‫‪5‬‬
‫‪P‬‬
‫לא השתנה‪ .‬רווח הסמך משתנה גם הוא בהתאם לשינוי בסטיית התקן‪ R2 .‬לא משתנה‬
‫)להוכיח בבית מהנוסחא לחישוב השאריות(‪ .‬לכן‬
‫ˆ‪uˆ˜ = d‬‬
‫˜‪P,‬לכן גם ‪u‬‬
‫כי ‪u = du‬‬
‫‪P‬‬
‫‪2‬‬
‫ˆ‬
‫‪uˆi‬‬
‫‪u˜i‬‬
‫‪d‬‬
‫‪.R˜2 = 1 − P‬‬
‫‪=1− P‬‬
‫‪= R2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪d‬‬
‫‪(yi − y¯)2‬‬
‫)¯˜‪(y˜i − y‬‬
‫˜‪ ,‬נקבל‬
‫מה קורה במודל ‪ ?ln y = β0 + β1 x1 + u‬אם נשנה ‪y = dy‬‬
‫‪ln y˜ = ln y + ln d = d + β0 + β1 x1 + u‬‬
‫כלומר החותך השתנה‪ ,‬אבל לא שאר האומדים‪ .‬לכן אם משתנה מופיע בלוג במשוואה‪,‬‬
‫הכפלתו משפיעה רק על החותך‪.‬‬
‫אם יש לי משוואה של ‪ ,ln y = β0 + β1 ln x1 + u‬שינוי של יחידות ‪ x1‬לא ישנה את‬
‫האומד )גמישות לא תלויה ביחידות(‪.‬‬
‫נניח שאנו רוצים להוסיף את אחוז האנשים באוכלוסיה עם מצב סוציו־אקונומי נמוך‪.‬‬
‫אפשר למדוד ‪ 12%‬כ־‪ ,12‬או כ־‪ .0.12‬למשל אם מעלים את האחוז בנקודה אחת‪,‬‬
‫המחיר יורד ב‪ .583$‬אם נבדוק כמספר‪ ,‬נקבל מקדם של ‪ .58, 300‬המשמעות אותה‬
‫משמעות‪ ,‬אבל צריך להיזהר בהבנה שלה‪.‬‬
‫‪6.2‬‬
‫מדד ‪ R2‬מתוקן‬
‫י"ד סיון תשע"ב )שעור ‪(3‬‬
‫‪P 2‬‬
‫ˆ‪u‬‬
‫‪2‬‬
‫‪≤1‬‬
‫‪ .0 ≤ R = 1 − P‬זהו מדד מטעה‪ .‬בעבר השתמשו יותר מדי במדד‬
‫‪(yi − y¯)2‬‬
‫הזה‪ ,‬ושאפו לקבל ‪ R2‬גבוה ככל הניתן‪ .‬בעיקרון ‪ R2‬מסביר עד כמה ה־‪ x‬מסבירים‬
‫את השונות של ‪ .y‬בקורס שלנו‪ ,‬המטרה שלנו היא למדוד את האפקט של ‪ x‬על ‪.y‬‬
‫בעיקר אם מדובר במשתנים מסבירים שניתן לשנות אותם כדי לקבל תוצאה שונה‪.‬‬
‫בד"כ מעניינת אותי המטרה של משתנה ספציפי‪ .‬והדגש של ‪ R2‬הוא לא כ"כ חשוב‪.‬‬
‫כיום הרבה עבודות מציגות רגרסיות עם ‪ R2‬נמוך )של ‪.(2 − 5%‬‬
‫אם היינו רוצים למקסם את ‪ ,R2‬היינו רוצים להוסיף עוד ועוד משתנים מסבירים‪ .‬זה‬
‫תועלת מלבד העלאת ‪ .R2‬בשביל זה המציאו‬
‫מפתה להכניס כל מיני דברים שאין בהם ‪P 2‬‬
‫‪uˆ /n − k − 1‬‬
‫את מדד ‪ .R2‬המדד הוא‬
‫‪ .1 − P‬במצב זה‪ ,‬אם מגדילים את ‪,k‬‬
‫‪(yi − y¯)2 /n − 1‬‬
‫המונה עולה‪ ,‬והסך הכל יורד‪ .‬במצב כזה המדד אומר לי יותר ־ הצלחתי להגיע ל־ ‪R2‬‬
‫גבוה בלי להוסיף מלא משתנים‪.‬‬
‫טענה ‪ R2 6.1‬הוא ריבוע של )ˆ‪.corr (y, y‬‬
‫‪6‬‬
‫בכל אופן‪ ,‬כיום פחות מסתכלים על ה־ ‪ ,R2‬ומתמקדים בשאלה האם הפרמטרים נאמדו‬
‫בצורה נכונה‪.‬‬
‫‪6.3‬‬
‫צורה פונקציונלית של המודל‬
‫אנחנו מזכירים את המילה "ליניארי" בכמה מקומות‪:‬‬
‫‪ .1‬מודל הרגרסיה הלינארית‪ .‬משוואה מסוג ‪.(1) y = β0 + β1 x1 + u‬‬
‫‪ .2‬קשר לינארי בין ‪ x‬ל־‪.y‬‬
‫‪ OLS .3‬הוא אומד לינארי ב־‪.y‬‬
‫גם אם יש לנו מודל של ‪ ,y = eβ0 +β1 x1 +u‬אנחנו יכולים להשתמש במודל הלינארי עבור‬
‫‪.(2) ln y = β0 + β1 x1 + u‬‬
‫את המודל ‪ y = eβ0 xβ1 1 eu‬ניתן לכתוב כ־‪.(3)ln y = β0 + β1 ln x1 + u‬‬
‫מה המשמעות של כל אחד מהמקדמים‪.‬‬
‫במודל הליניארי‪ ,‬אנחנו מניחים כי התוספת השולית של כל משתנה היא קבועה‪,‬‬
‫והמשמעות של המקדם הוא שיעור התוספת השולית‪.‬‬
‫במודל השני‪ ,‬המשמעות הכלכלית של המקדם הוא בכמה אחוזים המשתנה המוסבר‬
‫יעלה‪ ,‬כשהמשתנה המסביר עולה ביחידה‪.‬‬
‫במודל השלישי‪ ,‬אנו מודדים את הגמישות ־ תוספת של אחוז למשתנה המסביר‪ ,‬בכמה‬
‫אחוזים היא תעלה את המשתנה המוסבר‪.‬‬
‫‪d ln y‬‬
‫‪ ,‬כשנריץ את מודל )‪ ,(2‬ונרצה לתת את התוספת האבסולוטית‪ ,‬נקבל‬
‫אם ‪= β1‬‬
‫‪dx1‬‬
‫‪∆y‬‬
‫‪∆y‬‬
‫≈ ‪ d ln y‬כי ‪= β1 y‬‬
‫מ־‬
‫‪ .‬נהוג לבחור את הממוצע של ‪ y‬או את הממוצע של‬
‫‪∆x1‬‬
‫‪y‬‬
‫‪.x‬‬
‫בדוגמאות יש לנו רגרסיה של השכר לעומת ההשכלה בשלושת המודלים‪.‬‬
‫באופן דומה אם רוצים לתרגם את הגמישות לתוספת אבסולוטית‪.‬‬
‫הרבה פעמים‪ ,‬משתנים בני־מניה‪ ,‬לא מומלץ להמיר אותם עם ‪ .log‬בד"כ אנחנו לא‬
‫נדבר על כמה מוסיף לי עוד ‪ 10%‬של שנות לימוד‪ .‬באופן דומה‪ ,‬כשמדובר על אחוזים‬
‫באוכלוסיה זה עשוי להיות מאוד מבלבל‪.‬‬
‫דרך אחרת לחמוק מהמודל הליניארי הנוקשה )תוספת שולית קבועה(‪ ,‬היא להשתמש‬
‫בפולינום ־ ‪ ,y = β0 + β1 x1 + β2 x21 + u‬או אינטראקציות של המשתנים המסבירים‬
‫‪.y = β0 + β1 x1 + β2 x2 + β3 x1 x2 + u‬‬
‫‪7‬‬
‫השאלה הקשה היא מהו המודל הנכון לבחור‪ .‬הדרך הכי נכונה היא להתבסס על מודל‬
‫כלכלי שמבוסס בתיאוריה‪ .‬הבעיה היא שהרבה פעמים אנחנו קופצים לאמצע‪ ,‬והמטרה‬
‫היא לאפשר כמה שיותר גמישות למודל‪.‬‬
‫דוגמא‪ :‬פונקציית ייצור קוב־דאגלס ־ ‪ .y = Ak β1 Lβ2 eu‬אם נוציא ‪ log‬נקבל‬
‫‪ .ln y = ln A + β1 ln K + β2 ln L + u‬התפוקות השוליות אינן קבועות‪ ,‬אבל הגמישויות‬
‫‪d ln y‬‬
‫= ‪ .β1‬איך נאפשר גמישות לא קבועה? ניתן להכניס משתנים נוספים‬
‫קבועות‬
‫‪d ln k‬‬
‫‪d ln y‬‬
‫כמו ‪ .ln y = β0 + β1 ln k + β2 ln l + β3 (ln k)2 + u‬עכשיו ‪= β1 + 2β3 ln k‬‬
‫‪.‬‬
‫‪d ln k‬‬
‫אפשר גם להוסיף ‪ ln k ln l‬ולקבל גמישות שהיא פונקציה של ‪ .l‬אח"כ ניתן לבצע בדיקת‬
‫השערות של מבחן ‪ t‬איזה מקדם כנראה שווה לאפס‪.‬‬
‫‪8‬‬
‫הטרוסקדסטיות‬
‫הנחת הומוסקדסטיות ‪ M LR5‬נתנה לנו נוסחא לחישוב השונות‪:‬‬
‫‪σ2‬‬
‫‬
‫‪(xij − xj ) 1 − Rj2‬‬
‫ ‬
‫‪V ar βˆj = P‬‬
‫הדבר השני‪ ,‬הוא הוכחה של משפט גאוס מרקוב‪.‬‬
‫אם ההנחה ‪ M LR5‬לא מתקיימת‪) V ar (ui | xi1 , . . . , xik ) = σi2 ,‬אין כאן הנחה‪.‬‬
‫נסמן ב־ ‪ σi2‬את השונות של ‪ u‬בהינתן ערכי ‪ x‬של תצפית ‪ .i‬בשיעור קודם הראינו‬
‫שההנחה חזקה ואומרת ש־ ‪.V ar (y | x) = σ 2‬‬
‫הרעיון האינטואטיבי ־ השונות בד"כ תלויה בגודל של היחידה‪ .‬למשפחה עם יותר‬
‫נפשות‪ ,‬השונות של סך הצריכה תהיה גבוהה יותר‪.‬‬
‫‪ W LS‬־ אומד חסר הטיה שהוא יותר טוב מ־‪ OLS‬אם ‪ M LR5‬לא ידוע‪ .‬כדי להשתמש‬
‫בו צריך לדעת את כל ‪ .σi2‬לא נשתמש בו בקורס‪.‬‬
‫‪‬‬
‫‪0 1 − p‬‬
‫= ‪ ,y‬במקרה של המודל‪,‬‬
‫דוגמא‪ :‬עבור משתנה מוסבר בינארי‪,‬‬
‫‪1 p‬‬
‫‪ ,E [y | x] = p (x) = β0 +β1 x1‬ו־) ‪ V ar (y | x) = (β0 + β1 x1 ) (1 − β0 − β1 x1‬והוא‬
‫תלוי ב־‪.x‬‬
‫זה פוגע בתכונה של ‪ ,BLU E‬ובנוסחא של השונות‪.‬‬
‫‪8‬‬
‫‪P‬‬
‫ ‬
‫‪(xi − x) yi‬‬
‫ˆ‬
‫‪ ,β1 = P‬אנו נחשב את‬
‫כי‬
‫נזכור‬
‫‪.V‬‬
‫‪ar‬‬
‫נפתח את הנוסחא ‪βˆj‬‬
‫‪(xi − x)2‬‬
‫!‬
‫!‬
‫‪n‬‬
‫‪n‬‬
‫‬
‫‬
‫‪X‬‬
‫‪X‬‬
‫¯‪xi − x‬‬
‫)¯‪(xi − x‬‬
‫=‬
‫‪V ar P‬‬
‫= ‪ui | x‬‬
‫‪V ar βˆ1 | x = V ar‬‬
‫‪P‬‬
‫‪2 ui | x‬‬
‫‪¯)2‬‬
‫)‪j (xj − x‬‬
‫‪j (xj − x‬‬
‫‪i=1‬‬
‫‪i=1‬‬
‫‪Pn‬‬
‫‪n‬‬
‫‪X‬‬
‫‪¯)2 2‬‬
‫‪(xi − x¯)2‬‬
‫‪i=1 (xi − x‬‬
‫=‬
‫‪V‬‬
‫‪ar‬‬
‫‪(u‬‬
‫|‬
‫)‪x‬‬
‫=‬
‫‪P‬‬
‫‪2‬‬
‫‪P‬‬
‫‪2 σi‬‬
‫‪i‬‬
‫‪2‬‬
‫‪2‬‬
‫‪i=1‬‬
‫)¯‬
‫)¯‬
‫‪j (xj − x‬‬
‫‪j (xj − x‬‬
‫)החלפתי את האינדקס במכנה ל־‪ ,j‬כדי למנוע בלבול(‪.‬‬
‫‪P‬‬
‫‬
‫‬
‫‪(xi − x¯)2 uˆi‬‬
‫האומד‬
‫‪ Vd‬הוא אומד עקיב )לא הוכיחו שהוא חסר‬
‫‪ar βˆ1 | x = P‬‬
‫‪(xi − x¯)2‬‬
‫הטיה‪ ,‬וכנראה שהוא מוטה(‪ .‬הוא מכונה כשונות רובוסטית‪.‬‬
‫התוכנה ‪ stata‬מחשבת אותו באופן אוטומטי אם מוסיפים את המילה ‪ robust‬לפקודה‪.‬‬
‫בדוגמא ־ האם נשים בכוח העבודה כפונקציה של מספר הילדים ועוד משתנים‪.‬‬
‫האומדים לא משתנים‪ .‬סטיות התקן וערכי ‪ t‬משתנים‪ .‬הנורמה היום היא להשתמש‬
‫ברובוסטיות‪ ,‬כיון שבד"כ המדגמים גדולים מספיק‪ .‬בעבר היו בודקים באיזה מבחן‬
‫כדאי להשתמש‪ .‬המבחנים גם הם מותאמים לפי הרגרסיה האחרונה‪.‬‬
‫למדנו לחשב את ‪ f‬תחת הרצות של שתי רגרסיות ־ החישוב לא נכון עבור הטרוסקדסטיות‪.‬‬
‫ניתן להשתמש ב־‪.test‬‬
‫‪15‬‬
‫‪15.1‬‬
‫אנדוגניות ושימוש במשתני עזר‬
‫סיבות לאנדוגניות של משתנה‬
‫י"ז סיון תשע"ב )שעור ‪(4‬‬
‫‪h i‬‬
‫הנחות ‪ M LR1−M LR4‬גוררות אומד ‪ OLS‬חסרת הטיה ־ ‪ .∀j, E βˆj = βj‬ההנחה‬
‫‬
‫‬
‫הרביעית היא הקריטית‪ .E [u | x0 s] = 0 :‬מכאן קיבלנו גם עקיבות ‪, p lim βˆj = βj‬‬
‫אבל לצורך כך מספיק להניח ‪ .cov (xj , u) = 0‬נרצה לדון מה קורה כשההנחה לא‬
‫מתקיימת‪.‬‬
‫הגדרה ‪ xj 15.1‬יוגדר כמשתנה אנדוגני אם ‪.cov (xj , u) 6= 0‬‬
‫‪ xj‬יוגדר כמשתנה אקסוגני אם ‪.cov (xj , u) = 0‬‬
‫‪9‬‬
‫בכל שימוש ברגרסיה‪ ,‬צריך לשכנע )את עצמנו‪ ,‬ואת השומעים( למה המשתנה המסביר‬
‫הוא אקסוגני‪.‬‬
‫האם ניתן לבדוק האם משתנה הוא אנדוגני? לכאורה לא‪ .‬הרי אין לנו נתונים על ‪,u‬‬
‫ולכן לא ניתן לבדוק את המדגם‪ .‬האם ניתן להשתמש בשאריות ˆ‪ u‬במקום הטעות?‬
‫השאריות תמיד לא מתואמות ‪ ,cov (xj , uˆ) = 0‬גם אם המשתנה אנדוגני‪ ,‬ולכן ברור‬
‫שלא ניתן להשתמש בהם‪.‬‬
‫צעד מאוד גדול לקראת השכנוע‪ ,‬הוא הרחבת המודל ע"י הוספת משתנים נוספים‪ .‬עדיין‬
‫יכולים להיות דברים ב־‪ u‬שהינם מתואמים‪ .‬מאחר ואין לנו נתונים סטטיסטיים‪ ,‬מאוד‬
‫חשוב להבין את הסיבות לאנדוגניות‪ .‬נדבר על שלוש סיבות מרכזיות‪.‬‬
‫‪15.1.1‬‬
‫השמטת משתנה‬
‫ברגע שמשמיטים משתנה הוא אוטומטית מתווסף לטעות‪ ,‬ואם הוא מתואם‪ ,‬גם הטעות‬
‫תהיה מתואמת‪ .‬אם במודל ‪ y = β0 + β1 x1 + β2 x2 + v‬מתקיים ‪.E [v | x1 , x2 ] = 0‬‬
‫אבל אם אין לנו נתונים על ‪ ,x2‬או שאפילו לא חשבנו על קיומו‪ ,‬והרצנו את ‪ y‬רק על‬
‫) ‪cov (x1 , x2‬‬
‫‪ ,x1‬אז‬
‫‪.p lim βˆ1∗ = β1 + β2‬‬
‫) ‪V ar (x1‬‬
‫‪15.1.2‬‬
‫סימולטניות )פרק ‪(16‬‬
‫נתבונן במודל ‪ ,y = β0 + β1 x1 + u‬לפעמים יש סימולטניות שבה ‪ y‬משפיע על ‪.x1‬‬
‫למשל ‪ x1‬מספר השוטרים באוכלוסיה‪ ,‬ו־‪ y‬שיעור הפשע‪ .‬קיימת משוואה גם של‬
‫‪ .x1 = α0 + α1 y + v‬משתי המשוואות נובע כי ‪ .cov (x1 , u) 6= 0‬אם ‪ u‬משתנה‪ ,‬זה‬
‫משנה את ‪ ,y‬ואז משנה גם את ‪ .x1‬ניתן גם לפתור את זה אלגברית ע"י הצבת ‪y‬‬
‫במשוואה השנייה‪ ,‬וחילוץ ‪ .x1‬אם ‪ x1 ,α1 6= 0‬משתנה עם ‪.u‬‬
‫]‪cov (x1 , u) = E [x1 u] − E [x] E [u] = E [x1 u‬‬
‫‪x1 = α0 + α1 (β0 + β1 x1 + u) + v‬‬
‫‪= α0 + α1 β0 + α1 β1 x1 + α1 u + v‬‬
‫‪α0 + α1 β0‬‬
‫‪α1‬‬
‫‪1‬‬
‫‪+‬‬
‫‪u+‬‬
‫‪v‬‬
‫= ‪x1‬‬
‫‪1 − α1 β1‬‬
‫‪1 − α1 β1‬‬
‫‪1 − α1 β1‬‬
‫ ‬
‫‪α1‬‬
‫‪1‬‬
‫= ]‪cov (x1 , u) = E [x1 u‬‬
‫‪E u2 +‬‬
‫]‪E [uv‬‬
‫‪1 − α 1 β1‬‬
‫‪1 − α1 β1‬‬
‫‪α1‬‬
‫‪1‬‬
‫=‬
‫‪σ2 +‬‬
‫‪E [uv] 6= 0‬‬
‫‪1 − α1 β1‬‬
‫‪1 − α 1 β1‬‬
‫‪10‬‬
‫אם ‪) E [uv] = 0‬או שונה מהערך שיאפס את המשוואה(‪.‬‬
‫סטיב לויט רצה לפתור את הבעיה שתמיד יש קשר חיובי בין מספר השוטרים למספר‬
‫הפשעים‪ .‬הוא פתר את הבעיה ע"י שימוש באומד אחר שנלמד עוד מעט‪ ,‬ואז מוצאים‬
‫שהאומד של ‪ β1‬שלילי מובהק‪.‬‬
‫אם משתמשים ברגרסיה לינארית‪ ,‬אנו יודעים כי ‪ ,cov (x1 , u) > 0‬ואז אנחנו מקבלים‬
‫הטיה כלפי מעלה של האומד‪ ,‬ולכן למרות ש־‪ ,β1 < 0‬קבלנו ‪.βˆ1 > 0‬‬
‫ניתן לחשוב גם על קשר בין רמת הכנסה לצריכת אלכוהול‪.‬‬
‫‪15.1.3‬‬
‫טעויות במדידה של המשתנים המסבירים )פותח ע"י מילטון פרידמן(‬
‫לא תמיד אנחנו מודדים כמו שצריך‪ .‬אם בעוד ‪ 20‬שנה נישאל על מספר שנות לימוד‪ ,‬זה‬
‫לא פשוט לדעת‪ .‬כששואלים על תואר‪ ,‬זה הרבה יותר פשוט‪ .‬שאלו זוגות של תאומים‬
‫על כמה שנים הם והתאומים שלהם למדו‪ ,‬וגילו שיש הבדלים של ‪ 10 − 20%‬במספר‬
‫השנים‪ .‬יש טעויות מדידה קלאסיות‪ .‬יש גם בעיות שהמשתנה שנבחר הוא לא ברור‪.‬‬
‫איך משפיע שער הריבית על השקעות של פירמה ־ איזה שער ריבית למדוד‪ .‬את זה‬
‫שהפירמה משלמת בפועל לבנק? אין לנו נתונים עליו‪ .‬יש לנו ריבית בנק ישראל‪ ,‬ריבית‬
‫ממוצעת של פירמות‪ ,‬וכד'‪.‬‬
‫נשתמש בסימון של ‪ x∗1‬עבור המשתנה האמיתי‪ ,‬ו־ ‪ x1‬עבור המשתנה הנצפה‪ .‬נניח‬
‫שמתקיים ‪ ,x1 = x∗1 + ε‬ו־‪ .E [ε] = 0‬המודל שלנו מקיים ‪ y = β0 + β1 x∗1 + v‬ו־‬
‫‪ .E [v | x∗1 ] = 0‬מה יגרום המעבר לשימוש ב־ ‪ ?x1‬במשוואה ‪.y = β0 + β1 x1 + v − β1 ε‬‬
‫נסמן את הטעות ‪ .u = v − β1 ε‬ודאי ש־‪ ε‬מתואם עם ‪ ,x1‬כי הוא חלק מהמרכיבים של‬
‫‪.x1‬‬
‫מה אם ‪ .E [ε] = a‬אזי‬
‫)‪x1 = x∗! + ε = a + x∗1 + (ε − a‬‬
‫‪y = β0 + β1 (x1 − a = ε˜) + v‬‬
‫˜‪= β0 − β1 a + β1 x1 + v − β1 ε‬‬
‫ועדיין יש לנו תיאום של ‪ x1‬עם ˜‪ .v − β1 ε‬באופן כללי‬
‫)‪cov (x1 , u) = cov (x∗1 + ε, v − β1 ε) = cov (x∗1 , v) − β1 cov (x∗1 , ε) + cov (ε, v) − β1 cov (ε, ε‬‬
‫)‪= −β1 cov (x1 , ε) + cov (ε, v) − β1 V ar (ε‬‬
‫‪11‬‬
‫"מקובל" להניח כי ‪ E [ε | x∗1 ] = 0‬וכן ‪ ,cov (ε, v) = 0‬ואז אנחנו מקבלים‬
‫)‪cov (x1 , u) = −β1 V ar (ε‬‬
‫‬
‫‬
‫)‪cov (x1 , u‬‬
‫)‪V ar (ε‬‬
‫ˆ‬
‫‪p lim β1 = β1 +‬‬
‫‪= β1 1 −‬‬
‫) ‪V ar (x1‬‬
‫) ‪V ar (x1‬‬
‫לכן כשיש טעות במדידה‪ ,‬האומד המתקבל מוטה כלפי אפס‪.‬‬
‫מילטון דן האם ההכנסה הפרמננטית היא המודל הנכון או המודל הקיינסיאני )נש"צ(‪.‬‬
‫כשהריצו רגרסיה של תצרוכת כנגד הכנסה גילו שיש קשר‪ .‬פרידמן אמר שצריך למדוד‬
‫את ההכנסה הפרמננטית‪ ,‬לא את הנוכחית‪ .‬אם הנוכחית היא שונה קצת מהקבועה‪ ,‬זה‬
‫תלוי עד כמה השונות של ‪ ε‬גדולה‪.‬‬
‫‪15.2‬‬
‫הטיפול במשתנה אנדוגני‬
‫‪15.2.1‬‬
‫שימוש במשתנה העזר‬
‫נניח כי אנו רוצים למדוד את האפקט ‪ .x1 → y‬אם היתה לנו מעבדה‪ ,‬היינו מודדים‬
‫את ‪ y‬על ‪ x1‬במעבדה‪ .‬מאחר שיש לנו גם ‪ ,u‬שהם גורמים חיצוניים‪ ,‬שמשפיע על ‪,y‬‬
‫ובנוסף מושפע דרך ‪ .x1‬אין לנו דרך להבדיל בין ההשפעה של ‪ x1‬דרך ‪ u‬לזו הישירה‪.‬‬
‫= |)‪ .|corr (x1 , u‬יש ל־ ‪ x1‬מרכיבים שמתואמים עם ‪ ,u‬ומרכיבים שאינם‬
‫נניח כי ‪6 1‬‬
‫מתואמים‪ .‬נניח שקיים ‪ z1‬שמשפיע על ‪ x1‬ללא קשר ל־‪ .u‬נקרא לו ‪instrumental‬‬
‫‪ variable‬או ‪ .I.V.‬הזזה של ‪ z‬תזיז את ‪ ,x1‬ותזיז את ‪ y‬באופן שלא מושפע מ־‪.u‬‬
‫יש לזה מחיר ־ אנחנו צריכים למצוא את ‪ z1‬הזה‪ ,‬ולקבל נתונים עליו‪ .‬במצב זה‬
‫‪ cov (z1 , u) = 0‬אבל ‪.cov (z1 , x1 ) 6= 0‬‬
‫דוגמא ראשונה שאנשים השתמשו בה‪ ,‬אבל לא טובה‪ .‬במודל של הכנסה והשכלה‪,‬‬
‫משתנה עזר צריך להיות מתואם עם ההשכלה‪ ,‬אבל לא עם היכולת‪ .‬אנשים נטו להסתכל‬
‫על הקשר החזק בין השכלת האב להשכלה‪ .‬אבל קשה להגן על ההנחה שהשכלת האב‬
‫לא מתואמת עם היכולת‪ .‬כאן בא חלק גדול של אמונה ושכנוע‪.‬‬
‫דוגמא נוספת ־ מספר ת‪.‬ז‪ .‬של הפרט סביר להניח שאינה מתואמת עם היכולת‪ ,‬אבל‬
‫גם לא מתואמת עם ההשכלה‪.‬‬
‫‪‬‬
‫‪1 born in Q1‬‬
‫= ‪) z1‬האם הפרט נולד ברבעון‬
‫דוגמא קלאסית היא המשתנה הבא‪:‬‬
‫‪0 o.w.‬‬
‫הראשון של השנה(‪ .‬זה לא אמור להשפיע על היכולת של האדם‪ .‬האם זה מתואם עם‬
‫שנות השכלה? אפשר לבדוק את זה סטטיסטית‪ ,‬ויש גרף יפה שמראה את זה‪ .‬חוק‬
‫‪12‬‬
‫חינוך חובה מחייב ללמוד עד גיל ‪ 16‬ויום‪ .‬אנשים שרוצים לעזוב את בית הספר יעזבו‬
‫בגיל ‪ 16‬ויום‪ .‬רוב האנשים ממשיכים ומסיימים‪ ,‬אבל יש קבוצה שנושרת‪ .‬ככל שנולדים‬
‫מאוחר יותר בשנה‪ ,‬לומדים כמה חודשים יותר‪ .‬זה יוצר מתאם שלילי בין אלו שנולדים‬
‫בתחילת השנה לרמת ההשכלה שלהם‪ .‬הבעיה היא שהקשר הוא מאוד חלש‪ .‬מסתבר‬
‫שע"מ שלאומד תהיה תכונות סטטיסטיות טובות‪ ,‬דרוש קשר מאוד חזק‪ .‬התפתח נושא‬
‫שדן מה קורה כשמשתני העזר חלשים‪.‬‬
‫נגדיר אומד ‪ ,IV‬ונאמוד אותו בשיטת המומנטים‪ y = β0 + β1 x1 + u .‬כאשר‬
‫‪ .cov (x1 , u) 6= 0, E [u] = 0‬נניח שקיים ‪ z1‬כך ש־‪ ,cov (z1 , x1 ) 6= 0‬ו־‪cov (z1 , u) = 0‬‬
‫אזי ‪ OLS .E [z1 u] = 0‬בוסס על ‪ E [x1 u] = 0‬שלא היה נכון‪ .‬אבל אם ‪E [z1 u] = 0‬‬
‫מאפשר לי להשתמש בשיטת המומנטים‪:‬‬
‫‪E [z (y − β0 − β1 x1 )] = 0‬‬
‫‪i‬‬
‫‪IV‬‬
‫‪IV‬‬
‫ ‪1 Xh‬‬
‫ˆ‬
‫ˆ‬
‫‪zi1 y1 − β0 − β1 xi1‬‬
‫‪= 0‬‬
‫‪n‬‬
‫‬
‫‬
‫‪IV‬‬
‫‪IV‬‬
‫‪1X‬‬
‫‪y1 − βˆ0 − βˆ1 xi1‬‬
‫‪= 0‬‬
‫‪n‬‬
‫⇓‬
‫‪IV‬‬
‫‪IV‬‬
‫‪βˆ0‬‬
‫‪= y¯ − βˆ1 x1‬‬
‫‪P‬‬
‫‪IV‬‬
‫‪(zi1 − z1 ) yi‬‬
‫‪p‬‬
‫ˆ‬
‫‪β1‬‬
‫‪= P‬‬
‫‪−−−→ β1‬‬
‫∞→‪(zi1 − z1 ) (xi1 − x1 ) n‬‬
‫כשהאומד עקיב אפילו כאשר ‪ .cov (x1 , u) 6= 0‬בשיעור הבא נראה כי האומד אכן‬
‫עקיב‪.‬‬
‫כ"א סיון תשע"ב )שעור ‪(5‬‬
‫נראה היום בנוסחאות פורמליות את האינטואיציה בשימוש במשתנה עזר‪ .‬אח"כ ניתן‬
‫כמה הערות על האומד‪.‬‬
‫‪P‬‬
‫‪1‬‬
‫‪(zi1 − z1 ) ui‬‬
‫‪(z‬‬
‫‪−‬‬
‫‪z‬‬
‫)‬
‫‪y‬‬
‫‪1‬‬
‫‪i‬‬
‫‪i1‬‬
‫‪n‬‬
‫‪βˆ1‬‬
‫‪= P‬‬
‫‪= β1 + 1 P‬‬
‫) ‪(zi1 − z1 ) (xi1 − x1‬‬
‫) ‪(zi1 − z1 ) (xi1 − x1‬‬
‫‪n‬‬
‫‪IV‬‬
‫)‪cov (z1 , u‬‬
‫‪p lim βˆ1‬‬
‫‪= β1 +‬‬
‫)‪= β1 (cov (z1 , u) = 0, cov (z1 , x1 ) 6= 0‬‬
‫) ‪cov (z1 , x1‬‬
‫‪1X‬‬
‫‪1X‬‬
‫‪p‬‬
‫= ‪(zi − z) ui‬‬
‫]‪zi ui − zu −−−→ E [zi ui ] − E [z] E [u‬‬
‫∞→‪n‬‬
‫‪n‬‬
‫‪n‬‬
‫לכן האומד שלנו הוא עקיב‪ .‬מה לגבי הטיה?‬
‫‪P‬‬
‫‪h IV‬‬
‫‪i‬‬
‫] ‪(zi1 − z1 ) E [ui | x1 , z1‬‬
‫ˆ‬
‫‪E β1 | x1 , z1 = β1 + P‬‬
‫) ‪(zi1 − z1 ) (xi1 − x1‬‬
‫‪P‬‬
‫‪13‬‬
‫‪IV‬‬
‫לכן השאלה הגדולה היא האם ‪ .E [ui | x1 , z1 ] = 0‬האם ניתן להניח זאת? לא‪ .‬מאחר‬
‫ו־‪ ,E [u | x1 ] 6= 0‬לכן האומד ‪ IV‬הוא מוטה‪.‬‬
‫לכן אם רוצים להשתמש באומד הזה‪ ,‬צריך להשתמש במספרים גדולים )לא כמה עשרות‬
‫תצפיות(‪.‬‬
‫‪IV‬‬
‫‪ βˆ1‬לא מתקבל מלהחליף את ‪ x1‬ב־ ‪.z1‬‬
‫הערה ‪15.2‬‬
‫הערה ‪ 15.3‬אומד ‪ IV‬עקיב גם כאשר ‪ x1‬אקסוגני‪ OLS .‬גם הוא עקיב במצב זה‪.‬‬
‫במה נבחר במצב זה? אם ‪ x1‬אקסוגני‪ ,‬אז ‪ OLS‬הוא מקרה פרטי של ‪ ,IV‬ע"י בחירת‬
‫‪.z1 = x1‬‬
‫הערה ‪ 15.4‬התנאי ‪ cov (z1 , x1 ) 6= 0‬ניתן לבדיקה‪ ,‬ורצוי לבצע זאת‪ .‬ניתן ע"י הרצת‬
‫הרגרסיה ‪.x1 = π0 + π1 z1 + v1‬‬
‫נשים לב שתמיד ניתן להריץ רגרסיה כזו‪ ,‬ולקבל טעות המקיימת ‪ .cov (z1 , v1 ) = 0‬כך‬
‫גם נוכל לדעת עד כמה יש קשר ביניהם‪ ,‬ולבדוק את ההשערה ‪ .H0 : π1 = 0‬הקשר לא‬
‫יכול להיות חזק מדי‪ ,‬כי אז לא נוכל לקבל ‪.cov (z1 , u) = 0‬‬
‫‪IV‬‬
‫מה הקשר בין הנוסחא של ‪ βˆ1‬והאינטואיציה של הזזה ב־ ‪ x1‬דרך ‪ z1‬כדי לאמוד את‬
‫‪?β1‬‬
‫נחשוב על ‪ x1‬כמתואם בחלקו עם ‪ ,u‬ובחלק לא‪ .‬ניתן גם לחשוב עליו כעל‬
‫‪x1 = π0 + π1 z1 + v1‬‬
‫החלק ‪ π0 +π1 z1‬אינו מתואם עם ‪ ,u‬ולכן החלק המתואם הוא דרך ‪ .v1‬לפי האינטואיציה‬
‫צריך להסתכל על החלק של ‪ x1‬שמתואם עם ‪ .u‬אם הייתי יודע את ‪ ,π0 , π1‬הייתי יכול‬
‫ˆ‪.‬‬
‫להשתמש בהם‪ .‬אני לא יודע‪ ,‬אבל אני יכול לאמוד אותם‪ ,‬ולקבל את ‪x = πˆ0 + πˆ1 z1‬‬
‫האומד הזה הוא החלק של ‪ x1‬שלא מתואם עם ‪.u‬‬
‫טענה ‪ 15.5‬רגרסית ‪ OLS‬של ‪ y‬על ‪ xˆ1‬נותן את אומד ‪IV‬‬
‫‪14‬‬
‫הוכחה‪:‬‬
‫‬
‫‪P‬‬
‫‪xˆi − xˆ yi‬‬
‫‪2‬‬
‫ˆ‪xˆi − x‬‬
‫‪= πˆ0 + πˆ1 zi1 + vˆi1‬‬
‫‪P‬‬
‫= ‪γˆ1 OLS‬‬
‫‪xi1‬‬
‫‪x1 = πˆ0 + πˆ1 z1 + 0‬‬
‫‪xi1 − x1 = πˆ1 (zi1 − z1 ) + vˆi1‬‬
‫‪X‬‬
‫‪X‬‬
‫‪X‬‬
‫‪(zi1 − z1 ) (xi1 − x1 ) = πˆ1‬‬
‫‪(zi1 − z1 )2 +‬‬
‫‪(zi1 − z1 ) vˆi1 = πˆ1‬‬
‫‪(zi1 − z1 )2‬‬
‫‪i‬‬
‫‪i‬‬
‫‪X‬‬
‫‪i‬‬
‫‪xˆi = πˆ0 + πˆ1 zi1‬‬
‫‪xˆ = πˆ0 + πˆ1 z 1 = x1‬‬
‫‬
‫) ‪xˆi − xˆ = πˆ1 (zi1 − z1‬‬
‫‪P‬‬
‫‪P‬‬
‫‪IV‬‬
‫‪(zi1 − z1 ) yi‬‬
‫‪πˆ1 (zi1 − z1 ) yi‬‬
‫ˆ‬
‫‪β1‬‬
‫‪= P‬‬
‫‪= 2P‬‬
‫=‬
‫) ‪(zi1 − z1 ) (xi1 − x1‬‬
‫‪πˆ1‬‬
‫‪(zi1 − z1 )2‬‬
‫‬
‫‪P‬‬
‫‪xˆi − xˆ yi‬‬
‫‪OLS‬‬
‫‪= P‬‬
‫ˆ‪2 = βy,ˆ x‬‬
‫ˆ‪xˆi − x‬‬
‫בדוגמא אנו רואים כיצד ניתן לקבל את אותו אומד‪ ,‬אבל סטיות התקן שונות‪ .‬זו אחת‬
‫הסיבות שבעבר קראו לזה רגרסיה דו־שלבית‪.‬‬
‫עבודה מלפני ‪ 20‬שנה דנה בקשר בין רבעון לידה להשכלה‪ .‬לקחו נתונים מבוססים על‬
‫מפקדים‪ ,‬ובדקו ממוצע שנות לימוד לכל רבעון‪ .‬בשנות ה‪ 30‬יש מגמת עלייה בהשכלה‬
‫על פני עשור‪ .‬חוץ מזה‪ ,‬מי שנולד בתחילת השנה תמיד לומד קצת פחות‪ .‬הפער הוא‬
‫בכמה חודשים‪ .‬הסבה להבדלים המובהקים הוא מתופעת הנשירה בתום חוק חינוך‬
‫חובה‪ .‬מתברר שהאומד הזה תופס בדיוק את החלק הזה של האוכלוסיה‪ ,‬ולא ניתן‬
‫להשתמש בו למדידה כללית‪.‬‬
‫הממצאים‪ :‬האומד טיפה יותר קטן‪ ,‬וטעות התקן הרבה יותר גדולה‪ .‬נחזור לזה בהמשך‪.‬‬
‫דוגמא נוספת‪ :‬פשיעה ומשטרה‪ .‬הראינו איך מנגנון הסימולטניות מטה את האומד‪.‬‬
‫סטיב לויט חיפש משתנה עזר שישפיע על מספר השוטרים‪ ,‬אבל לא על רמת הפשע‪ .‬הוא‬
‫השתמש בשאלה האם באותה שנה יש בחירות‪ .‬מסתבר שכאשר יש כלכלת בחירות‪,‬‬
‫המושלים מוציאים עוד כסף על שוטרים‪ ,‬כאשר מצד שני אנשים לא בוחרים בפשע בגלל‬
‫בחירות‪.‬‬
‫הממצאים‪ :‬בשנות בחירות השינויים במספר השוטרים גדולים יותר‪ .‬כשמריצים את‬
‫‪15‬‬
‫המודל ריבועים פחותים מקבלים קשר חיובי מובהק‪ ,‬אבל קטן‪ .‬כשמתקנים את זה עם‬
‫משתנה עזר‪ ,‬מקבלים אומד שלילי ומובהק‪ ,‬אבל עם סטיית תקן הרבה יותר גדולה‪.‬‬
‫דוגמא‪ grade = β0 + β1 skipped + u :‬־ האם החסרת שיעורים משפיעה על הציון‪.‬‬
‫הבעיה‪ skipped :‬אנדוגני‪ ,‬כי יש הרבה דברים שמשפיעים על הציון‪ ,‬ומתואמים עם‬
‫‪ .skipped‬למשל‪ ,‬יכולת‪ ,‬רקע בחומר הלימוד )יכול להשפיע בשני הכיוונים ־ מי שמבין‬
‫בלי השיעור‪ ,‬לא יבוא לשיעור‪ ,‬ומי שלא מבין גם אתו ־ גם לא יבוא(‪.‬‬
‫נשתמש במשתנה עזר ‪ z1‬של המרחק מהר הצופים )גיאוגרפי \ זמן הגעה(‪ .‬סביר להניח‬
‫שיש קשר בין ‪ z1‬ל‪ .skipped‬האם יש ל־ ‪ z1‬תיאום עם ‪ ?u‬זה יכול להיות מתואם עם‬
‫הכנסה או הכנסת הורים‪ .‬יש מחקרים שהכנסה משפיעה על הציונים‪ .‬לכן אם יש לנו‬
‫נתונים על הכנסה‪ ,‬והיינו מוסיפים אותם למשוואה‪ z1 ,‬הוא כבר משתנה עזר סביר יותר‪.‬‬
‫הכל תלוי בקונטקסט הספציפי‪ ,‬ולא תמיד נדע אם הוא אכן כזה‪ ,‬אלא נצטרך לקוות‪.‬‬
‫דוגמא נוספת‪ :‬איך משפיעה השתתפות במלחמת ויאטנם על השכר‪ .‬חלק מהמשרתים‬
‫התנדבו‪ ,‬והיתה סלקציה בגיוס‪ .‬לכן השתמשו במספרי ההגרלה )‪ (draft‬של האנשים‪.‬‬
‫יש קשר בין ההגרלה לשירות‪ ,‬אבל לא באופן מלא‪ ,‬וההגרלה היא אקראית‪ ,‬ולכן לא‬
‫מתואמת לפי ההגדרה‪.‬‬
‫כדי לבדוק השערות נשתמש באותם מושגים של מבחני ‪ .t, f‬נשאר רק לחשב את‬
‫השונות‪:‬‬
‫‪P‬‬
‫ ‪ IV‬‬
‫) ‪(zi1 − z1 ) V ar (ui | x1 , z1‬‬
‫‪= P‬‬
‫‪V ar βˆ1‬‬
‫‪( (zi1 − z1 ) (xi1 − x1 ))2‬‬
‫ואם מניחים שונות קבועה ‪ V ar (ui | x1 , z1 ) = σ 2‬נקבל‬
‫‪P‬‬
‫ ‬
‫‪(zi1 − z1 ) σ 2‬‬
‫‪V ar βˆ1 = P‬‬
‫‪( (zi1 − z1 ) (xi1 − x1 ))2‬‬
‫‪P ˆIV 2‬‬
‫‪1‬‬
‫כאשר משתמשים ב־ ‪ui‬‬
‫‪n−k−1‬‬
‫למה סטיית התקן ברגרסיה דו־שלבית נותנת תוצאה שונה? כי לא משתמשים באותה‬
‫ˆ(‪ .‬לכן חשוב להשתמש ב־‪ ivreg‬במקום רגרסיה דו־שלבית‪.‬‬
‫הגדרה )משתמשים ב־‪x‬‬
‫‪2‬‬
‫‪σ‬‬
‫ניתן לראות במקרה של הטרוסטדסטיות כי סטיית התקן שווה ל־‬
‫‪.P‬‬
‫‪(xi1 − x1 )2 Rx2 1 z1‬‬
‫נניח ו־‪ x‬הוא אקסוגני‪ ,‬יש משמעות להשוואת השונויות‪ .‬למה ‪ OLS‬יותר טוב? כי ה ‪R2‬‬
‫של ‪ x‬עם עצמו הוא ‪ ,1‬לכן השונות תהיה קטנה יותר‪.‬‬
‫= ‪ σˆ2‬ו־= ‪xi1‬‬
‫‪IV‬‬
‫‪− βˆ1‬‬
‫‪IV‬‬
‫‪.uˆi IV = yi − βˆ0‬‬
‫ברוב המקרים לאומדי ‪ IV‬יש שונות גדולה יותר‪ ,‬וזה מאוד בולט בעבודות אמפיריות‪,‬‬
‫וזה משקף את עוצמת הקשר בין ‪ x1‬ל־ ‪.z1‬‬
‫‪16‬‬
‫כ"ד סיון תשע"ב )שעור ‪(6‬‬
‫ראינו כי עבור ‪ ,y = β0 + β1 x1 + u‬אם ‪ cov (x1 , u) 6= 0‬אז ‪ OLS‬מוטה ולא עקיב‪.‬‬
‫אבל אם קיים ‪ z1‬כך ש־‪ ,cov (z1 , u) = 0‬ו־‪ cov (z1 , x1 ) 6= 0‬אומד ‪ IV‬עקיב ל־ ‪β1‬‬
‫)אבל מוטה(‪.‬‬
‫את החלק ‪ cov (z1 , x) 6= 0‬ניתן לבדוק ע"י בדיקת ההשערה ‪ π1 = 0‬ברגרסיה‬
‫‪ .x1 = π0 + π1 z1 + v1‬את ההנחה ‪ cov (z1 , u) = 0‬אי אפשר לבדוק‪ ,‬צריך לשכנע‪.‬‬
‫ ‪ IV‬‬
‫‪ V ar βˆ1‬תחת הומוסקדסטיות והטרוסקדסטיות‪ ,‬מומלץ‬
‫ניתן לאמוד את השונות‬
‫ישירות דרך הפקודה ‪.ivreg‬‬
‫כדי לדחות את ‪ ,H0 : π1 = 0‬צריך מתאם בין ‪ z1‬ל־ ‪.x1‬‬
‫‪σ2‬‬
‫במקרה של הומוסקדסטיות‪ ,‬אנו מקבלים‬
‫‪(xi1 − x1 )2 Rx2 1 z1‬‬
‫יהיה לנו ‪ R2‬חלש בקשר בין ‪ ,z1 , x1‬נקבל שונות גבוהה יותר‪ .‬זה גם גורם לכך שלאומדי‬
‫‪ IV‬יש שונות גבוהה יותר‪ .‬ניתן לחלץ מתוך הפער בשונות את עוצמת הקשר‪ .‬במחקר‬
‫שהשתמש ברבעון הלידה‪ ,‬יש ‪ R2‬של פחות מ־‪ .0.001‬עדיין הצליחו להגיע לתוצאות‬
‫מובהקות‪.‬‬
‫‪IV‬‬
‫‪cov‬‬
‫‪(z‬‬
‫‪,‬‬
‫)‪u‬‬
‫‪1‬‬
‫אבל זו לא הבעיה העיקרית‪ .‬הבעיה המרכזית היא‬
‫‪.p lim βˆ1 = β1 +‬‬
‫) ‪cov (z1 , x1‬‬
‫אין לנו בטחון כי ‪ .cov (z1 , u) = 0‬אנחנו יכולים לומר כי הוא מאוד נמוך‪ ,‬אבל אם גם‬
‫) ‪ cov (z1 , x1‬נמוך‪ ,‬שוב אנו עשויים להגיע להטיה‪.‬‬
‫ ‪ IV‬‬
‫‪ .V ar βˆ1‬אם‬
‫‪=P‬‬
‫לא נוח לדבר על ‪ cov‬שהוא משתנה לפי היחידות‪ ,‬לכן נדבר על מתאם‪:‬‬
‫‪s‬‬
‫‪IV‬‬
‫‪ρ‬‬
‫)‪V ar (u‬‬
‫‪z‬‬
‫‪u‬‬
‫‪p lim βˆ1 = β1 + 1‬‬
‫) ‪ρz1 x1 V ar (x1‬‬
‫הסטייה לא תהיה קטנה אם המתאם ‪ ρz1 x1‬קטן באותו סדר גודל של ‪.ρz1 u‬‬
‫‪15.3‬‬
‫יציאה מהמודל הבסיסי‬
‫‪15.3.1‬‬
‫הוספת משתנים מסבירים‬
‫נסתכל על המודל ‪.y1 = β0 + β1 y2 + β2 z1 + . . . + βk zk−1 + u1‬‬
‫נניח כי ‪ y1 , y2‬אנדוגנים ‪ ,cov (y1 , u1 ) , cov (y2 , u1 ) 6= 0‬וכי ‪ z1 , . . . , zk‬אקסוגניים‪.‬‬
‫‪.∀i ∈ [k − 1] , cov (zi , u1 ) = 0‬‬
‫השאלה המעניינת היא‪ :‬אם אנו מניחים ש ‪ zi‬אקסוגניים‪ ,‬האם הם עצמם יכולים לשמש‬
‫כמשתני עזר?‬
‫‪17‬‬
‫התשובה היא לא‪ .‬ל־ ‪ z1‬יש אפקט ישיר על ‪ ,y1‬גם לא דרך ‪ .y2‬יש לנו בעצם‬
‫מולטיקוליניאריות מושלמת‪ .‬לא ניתן לאמוד את ‪ β1 , β2‬ביחד‪ .‬נראה בצורה יותר‬
‫מדויקת בהמשך‪.‬‬
‫אנחנו צריכים ‪ zk‬שיקיים ‪ ,cov (zk , u) = 0‬וגם ‪.cov (zk , y2 | z1 , . . . , zk−1 ) 6= 0‬‬
‫כעת בשלב ראשון נבצע רגרסיה ‪ .y2 = π0 + π1 z1 + . . . + πk zk + v‬נוודא שאנו דוחים‬
‫את ‪.H0 : πk = 0‬‬
‫במקרה של משתנים מרובים יש נוסחא מתאימה לאומד ‪ .IV‬בסטאטה רושמים ‪ivreg‬‬
‫‪.y1 (y2 = zk) z1 z2 ... zk-1‬‬
‫גם במקרה הזה לאומד ‪ IV‬תהיה שונות גבוהה יותר‪.‬‬
‫‪15.3.2‬‬
‫הוספת משתני עזר‬
‫נסתכל במודל ‪ .y1 = β0 + β1 y2 + β2 z1 + u‬כאשר ‪ y2‬אנדוגני‪ z1 ,‬אקסוגני‪.‬‬
‫נניח שיש לנו שני משתני עזר ‪ z2 , z3‬שיקיימו ‪ ,cov (z2 , y2 ) , cov (z3 , y2 ) 6= 0‬וגם‬
‫‪.cov (z2 , u1 ) , cov (z3 , u1 ) = 0‬‬
‫גם כל צירוף לינארי של ‪ z2 , z3‬יכולים להיות טובים‪ .‬במה נבחר?‬
‫הפתרון הוא להשתמש ב ‪ yˆ2 = πˆ0 + πˆ1 z1 + πˆ2 z2 + πˆ3 z3‬מתוך הרגרסיה‬
‫‪.y2 = π0 + π1 z1 + π2 z2 + π3 z3‬‬
‫כאשר אנחנו משתמשים גם במשתנים המסבירים החיצוניים‪.‬‬
‫בצורה הזו אנחנו מצמצמים את הבעיה מריבוי משתני עזר שאיננו יודעים להחליט‬
‫ביניהם‪ ,‬למשתנה יחיד להשתמש בו‪ .‬זה גם סבה נוספת לשם ‪.T SLS‬‬
‫בשלב שני מריצים ‪ OLS‬של ‪ y1‬על ‪ yˆ2‬ו ‪.z1‬‬
‫הוכחנו אלגברית שבצורה הפשוטה אנחנו מקבלים בדיוק את ‪ .IV‬כאן לא נוכיח‬
‫אלגברית‪ ,‬אבל נראה שזו אותו אומדן‪.‬‬
‫מה המשמעות של הרגרסיה הזו? מה קורה כשאנחנו מחליפים את ‪ y2‬ב־ ‪?yˆ2‬‬
‫‪y1 = β0 + β1 y2 + β2 z1 + u = β0 + β1 yˆ2 + β2 z1 + u1 + β1 vˆ2‬‬
‫נרצה לדעת האם האומד הזה עקיב‪ ,‬ואם הוא זהה לאומד ‪.IV‬‬
‫למה האומד עקיב‪ .‬כדי שהאומד יהיה עקיב אנחנו דורשים שכל אחד מהמשתנים‬
‫המסבירים ברגרסיה החדשה לא מתואם עם הטעות החדשה‪ z1 .‬לא מתואם עם ‪u1‬‬
‫מההנחה‪ ,‬ולא עם ‪ vˆ2‬כי הוא השתתף בחיזוי של ‪ yˆ2 .yˆ2‬לא מתואם עם ‪ u1‬כי הוא צ"ל‬
‫של ‪ .zi‬הוא לא מתואם עם ‪ vˆ2‬כי הערך החזוי לא מתואם עם השארית‪.‬‬
‫‪18‬‬
‫לכן האומד יהיה עקיב‪ ,‬אבל זה לא אומר שהוא זהה לאומד ‪ .IV‬לא נוכיח את זה‪,‬‬
‫אבל נראה דוגמא‪.‬‬
‫יש פער בשאריות‪ :‬כשמחשבים את השאריות בצורה הידנית‪ β2 vˆ2 ,‬נכנסים לשאריות‪,‬‬
‫ולכן חישוב השונות משתנה‪ .‬לכן עדיף להשתמש ב־‪.ivreg‬‬
‫‪ R2‬שונה גם הוא‪ .‬כאשר מניחים שאין מתאם בין ‪ ,x, u‬ניתן לחשב ‪ ,R2‬אבל כאשר יש‬
‫מתאם‪ ,‬אין טעם לחשב את ‪ ,R2‬ולכן למרות שהוא מדווח‪ ,‬לא מסתכלים עליו‪.‬‬
‫‪15.4‬‬
‫סיכום‬
‫כ"ח סיון תשע"ב )שעור ‪ 7‬־ קבוצה אחרת(‬
‫‪15.4.1‬‬
‫המודל הפשוט‬
‫‪ y2 .y1 = β0 + β1 y2 + w1‬אנדוגני‪ .‬קיים ‪ z1‬כך ש־‪ cov (z1 , w1 ) = 0‬אבל‬
‫‪ .cov (z1 , y2 ) 6= 0‬במקרה זה‬
‫‪P‬‬
‫‪IV‬‬
‫‪(zi1 − z1 ) yi1‬‬
‫‪p‬‬
‫‪βˆ1 = P‬‬
‫‪−−−→ β1‬‬
‫∞→‪n‬‬
‫) ‪(zi1 − z1 ) (yi2 − y2‬‬
‫הוכחנו כי ‪ IV‬שקול ל־‪ OLS‬של ‪ y1‬על ‪ ,yˆ2‬כאשר ‪) yˆ2 = πˆ0 + πˆ1 z1‬החלק הלא־מתואם‬
‫של ‪.(y2‬‬
‫‪15.4.2‬‬
‫הוספת משתני עזר‬
‫אותו מודל‪ ,y1 = β0 + β1 y2 + w1 ,‬אבל ‪ z1 , z2‬משתני עזר‪ .‬הקומבינציה האופטימלית‬
‫לאומד ‪ IV‬עם השונות הקטנה ביותר הוא ‪ .yˆ2 = πˆ0 + πˆ1 z1 + πˆ2 z2‬בעצם‬
‫‬
‫‪P‬‬
‫‪y‬‬
‫ˆ‬
‫‪y‬‬
‫ˆ‬
‫‪−‬‬
‫‪yi1‬‬
‫‪IV‬‬
‫‪2‬‬
‫‪i2‬‬
‫‬
‫‪βˆ1 = P‬‬
‫) ‪yˆi2 − yˆ2 (yi2 − y2‬‬
‫‪15.4.3‬‬
‫הוספת משתנים מסבירים אקסוגניים‬
‫המודל ‪ .y1 = β0 + β1 y2 + β2 z1 + . . . + βk zk−1 + u1‬אי אפשר להשתמש ב־‬
‫‪ z1 . . . zk−1‬כמשתני עזר‪ ,‬כי זה יוצר מולטיקולינאריות מושלמת‪ .‬צריך משתנה עזר‬
‫חיצוני‪ .y2 = π0 + π1 z1 + . . . + πk−1 zk−1 + πk zk + v2 .‬אם לא היינו משתמשים‬
‫‪19‬‬
‫ב ‪ ,zk‬השלב הראשון היה נותן לנו ‪ yˆ2‬שהוא צירוף ליניארי של ‪ ,z1 . . . , zk−1‬ובשלב השני‬
‫של הרגרסיה‪ ,‬היה לנו מולטיקוליניאריות‪ .‬כדי להשתמש ב ‪ zk‬אנחנו צריכים לדחות את‬
‫‪) H0 : πk = 0‬אם משתמשים בכמה‪ ,‬צריך לשער על כולם(‪ .‬עכשיו אנו משתמשים‬
‫ב‪ T SLS‬ומקבלים‪:‬‬
‫) ‪y1 = β0 + β1 yˆ2 + β2 z1 + . . . + βk zk−1 + (u1 + β1 vˆ2‬‬
‫‪yˆ2 = πˆ0 + πˆ1 z1 + . . . + πk−1‬‬
‫‪ˆ zk−1 + πˆk zk‬‬
‫הערה ‪ zk 15.6‬שובר את המולטיקוליניאריות בהנחה סטנדרטית ש־ ‪ zk‬לא מולטיקוליניארי‬
‫עם ‪.z1 , . . . , zk−1‬‬
‫‪15.4.4‬‬
‫הוספת משתנים מסבירים אנדוגניים‬
‫‪ .y1 = β0 + β1 y2 + β2 y3 + β3 z1 (+ . . . + βk zk−1 ) + u1‬זה לא קורה הרבה‪ ,‬אבל יכול‬
‫לקרות‪ ,‬ויותר מזה לא עושים )משקרים לעצמנו ואומרים ש"אנחנו מתעניינים בתוצאה‬
‫של ‪ β1‬בלבד‪ ,‬כל השאר הם לצורך ביקורת"(‪ .‬זו לא ההנחה הכי סבירה‪ ,‬אבל זה מה‬
‫שעושים במציאות‪.‬‬
‫נניח כי ‪ z2‬משתנה עזר )מתואם עם ‪ y2 , y3‬אבל לא עם ‪ .(u1‬כעת ניתן לחשב את‬
‫‪yˆ2 = πˆ0 + πˆ1 z1 + πˆ2 z2‬‬
‫‪yˆ3 = δˆ0 + δˆ1 z1 + δˆ2 z2‬‬
‫‪y1 = β0 + β1 yˆ2 + β2 yˆ3 + β3 z1 + u1 + β1 vˆ2 + β2 vˆ3‬‬
‫אבל במשוואה יש מולטיקוליניאריות מושלמת‪ ,‬אפשר לחלץ את ‪ z2‬כפונקציה של ‪,z1 , yˆ3‬‬
‫ואז ‪ yˆ2‬הוא גם פונקציה של ‪ .z1 , yˆ3‬לכן חייבים משתנה עזר נוסף‪ .‬נקבל‬
‫‪yˆ2 = πˆ0 + πˆ1 z1 + πˆ2 z2 + πˆ3 z3‬‬
‫‪yˆ3 = δˆ0 + δˆ1 z1 + δˆ2 z2 + δˆ3 z3‬‬
‫‪y1 = β0 + β1 yˆ2 + β2 yˆ3 + β3 z1 + u1 + β1 vˆ2 + β2 vˆ3‬‬
‫וכעת נפטרנו מהמולטיקולינאריות‪.‬‬
‫‪20‬‬
‫‪16‬‬
‫‪16.1‬‬
‫סימולטניות‬
‫משוואות ביקוש והיצע‬
‫המסגרת הטבעית לדבר על סימולטניות היא כשאנו עוסקים באמידת פונקציות ביקוש‬
‫והיצע‪ .‬זה די דומה למה שעשינו על שוטרים וגנבים‪.‬‬
‫נדבר על ביקוש לשעות עבודה ע"י פירמות‪ z1 .hd = β0 + β1 w + β2 z1 + u1 .‬יכול‬
‫להיות גודל הפירמה \ שטח חקלאי למשל‪ .‬אנחנו נצפה ל ‪ β1‬שלילי‪ ,‬כאשר לפירמות‬
‫שונות יש תזוזה בעקומת הביקוש לפי ‪ .z1‬נניח כי ‪ z1‬אקסוגני‪ .‬נניח שיש לנו מדגם‬
‫‪ i.i.d.‬של ‪ .hi , wi , zi1‬האם ניתן להריץ רגרסית ‪ OLS‬ולקבל אומדים עקיבים? זה‬
‫ייתכן רק תחת ההנחה ‪ .cov (w, u) = 0‬נניח כי ‪ u1‬הם גורמים אקראיים )מזג אויר‪,‬‬
‫מכונות מתקלקלות(‪ ,‬שמשפיעים על הביקוש לשעות עבודה‪ .‬ממה שאנחנו יודעים על‬
‫שיווי משקל‪ ,‬אנחנו נקבל כי גם ‪ w‬יעלה‪.‬‬
‫אנחנו מניחים שאנו עוסקים בתצפיות של שיווי משקל‪ ,‬וכי היצע העבודה אינו גמיש‬
‫לחלוטין‪.‬‬
‫אנחנו צריכים למצוא משתנה עזר‪ ,‬שיזיז את השכר‪ ,‬אבל לא את הביקוש‪ .‬לכן נחשוב‬
‫על היצע שעות העבודה ע"י הפרטים‪ .‬עקומת היצע הפוכה ‪inverse supply function‬‬
‫של ‪ .w = α0 + α1 hs + α2 z2 + u2‬ההיצע מורכב מהשכר‪ ,‬ועוד גורמים נוספים‪ ,‬וניתן‬
‫לחלץ משם את השכר‪ .‬תנאי לשיווי משקל הוא ‪ .h = hs = hd‬נניח ‪,Eu2 = 0‬‬
‫ו־‪ .E (z2 u2 ) = 0‬על מנת להשתמש ב ‪ z2‬כמשתנה עזר ל־‪ w‬בפונקצית הביקוש‪ ,‬צריך‬
‫להניח ‪ ,cov (z2 , u1 ) = 0‬כלומר שינויים ב־ ‪ ,z2‬לא מזיזים את עקומת הביקוש‪.‬‬
‫ניתן לחשב את ) ‪ ,E (wu1‬ולחשב ע"י הצבות )לראות בסיכומים( כי‬
‫) ‪E (u1 u2‬‬
‫‪α1‬‬
‫‪V ar (u1 ) +‬‬
‫= ) ‪ ,E (wu1‬וזה חיובי‪.‬‬
‫‪1 − α 1 β1‬‬
‫‪1 − α1 β1‬‬
‫גם בדוגמא של לויט אפשר לחשוב על זה כעל שתי משוואות עם קשר סימולטני‪ .‬בתור‬
‫כלכלן הוא הבין שיש כאן קשר סימולטני כמו ביקוש והיצע‪.‬‬
‫זיהוי‪:‬‬
‫אמרנו קודם שעבור משתנה אנדוגני יחיד צריך משתנה עזר נוסף‪ ,‬ולשנים צריך שנים‪.‬‬
‫הגדרה ‪ 16.1‬נאמר שיש לנו זיהוי מדויק )‪ (just-identication‬כאשר מספר משתני‬
‫העזר החיצוניים שווה למספר המשתנים האנדוגניים‪.‬‬
‫נגדיר זיהוי יתר )‪ (over-identication‬כאשר יש יותר משתני עזר‪ ,‬וזיהוי חסר )‪under-‬‬
‫‪ (identication‬כאשר יש קצת מדי משתני עזר‪.‬‬
‫‪21‬‬
‫למשל עבור דוגמא אחת )עמ' ‪ (9‬יש זיהוי חסר‪ ,‬לדוגמא ‪ 2‬זיהוי מדויק‪ ,‬ודוגמא ‪ 3‬זיהוי‬
‫יתר‪.‬‬
‫כאשר יש לי זיהוי יתר‪ ,‬עקרונית כאשר משתמשים בשני המשתנים‪ ,‬מקבלים שהשאריות‬
‫לא מתואמות עם ‪ ,u1‬אבל אם נשתמש בחלק‪ ,‬ניתן אח"כ לבדוק את השאריות כדי‬
‫לבחון )הנסן( האם השאריות מתואמות עם המשתנה השני או לא‪ .‬זה לא מספיק כדי‬
‫להצדיק את השימוש במשתנה‪ ,‬אלא להסביר למה אין מנגנון שיוצר מתאם בין הטעויות‪.‬‬
‫ר"ח תמוז תשע"ב )שעור ‪(8‬‬
‫סיכום‬
‫‪17‬‬
‫ראינו את מודל הרגרסיה הליניארית‪ ,‬שהתבסס על אוסף הנחות‪ ,‬ואיך לאמוד אותו על‬
‫סמך נתונים‪ .‬אח"כ דברנו על הסקה סטטיסטית ובדיקת השערות‪ ,‬ואז עברנו להתרת‬
‫ההנחות של המודל‪ .‬מה עושים כשהנחה ספציפית לא מתקיימת?‬
‫‪17.1‬‬
‫מודל הרגרסיה הלינארית‬
‫המודל מבוסס על ההנחות הבאות‪:‬‬
‫‪.y = β0 + β1 x1 + . . . + βn xn + u .1‬‬
‫‪ .2‬מדגם מקרי‪.‬‬
‫‪ .3‬חוסר מולטיקוליניאריות מושלמת בין ה־‪x‬ים )הנחה טכנית(‪ .‬הדגש הוא על קשר‬
‫מושלם‪ .‬אם הקשר לא מושלם ניתן לטפל בו‪.‬‬
‫‪ .4‬אקסוגניות ‪.E [u | x] = 0‬‬
‫‪) .5‬מכאן הנחות ניתנות להסרה בקלות( הומוסקדסטיות‪.‬‬
‫‪ .6‬נורמליות של ‪.y | x‬‬
‫‪17.2‬‬
‫שיטות אמידה‬
‫כאשר יש לנו נוסחא‪ ,‬יש לנו כמה שיטות לאמוד‪ .‬ראינו את האומדים‪:‬‬
‫‪OLS .1‬‬
‫‪22‬‬
‫‪IV .2‬‬
‫יש גם אומדים אחרים כמו מהירות מקסימלית‪ .‬דרך אחת היא להסביר את העקרון‬
‫בבחירת המודל )מומנטים‪ ,‬מזעור ריבועים(‪ ,‬אבל מה שמעניין אותנו אלו התכונות‪.‬‬
‫התמקדנו גם במה מוביל אותנו אל האומד‪.‬‬
‫‪17.2.1‬‬
‫תכונות האומדים‬
‫יש כמה סוגים של תכונות‪.‬‬
‫• תכונות סטטיסטיות‪ :‬חוסר הטיה )‪ ,(1 − 4‬עקיבות )‪,(1 − 4 or 1-3 and cov (xj , u) = 0‬‬
‫יעילות )"שונות קטנה"‪ ,‬גאוס מרקוב()‪ ,(1 − 5‬התפלגות )נותן לנו את בדיקת‬
‫ההשערות יחד עם הקודמים(‪ .‬התכונות תלויות בהנחות‪.‬‬
‫• תכונות אלגבריות‪) :‬תמיד מתקיימות ב־‪(OLS‬‬
‫‪X‬‬
‫‪uˆi = 0‬‬
‫‪X‬‬
‫‪xij uˆi = 0‬‬
‫‪X‬‬
‫‪yˆi uˆi = 0‬‬
‫מה לגבי אומד ‪ ?IV‬אי אפשר להוכיח חוסר הטיה‪ IV .‬עקיב תחת הנחות ‪ 1 − 3‬וזה‬
‫שמשתני העזר לא מתואמים עם ‪ ,u‬אבל מתואמים עם המשתנים האנדוגניים‪ .‬עקיבות‬
‫היא התכונה המרכזית שאנו מחפשים‪.‬‬
‫מהי השונות של ‪ ?IV‬האם יש טענה דומה לגאוס־מרקוב? יש רמז לכך‪ :‬בין כל‬
‫האומדים העקיבים שמשתשמשים באותם משתני עזר‪ ,‬אומד ‪ IV‬שהוצג הוא הטוב‬
‫ביותר‪.‬‬
‫קל לחשוב על אומדים עם שונות קטנה יותר‪ ,‬אבל הם עשויים להיות מוטים‪ .‬למשל‬
‫האומד ‪ β˜1 = 0.17‬הוא אומד עם שונות אפס‪.‬‬
‫בהינתן ‪ ,x, z‬ייתכן ו־‪ y‬יתנהג בצורה נורמלית‪.‬‬
‫‪17.3‬‬
‫בדיקת השערות‬
‫גם הבדיקה מתבצעת על ידי האומדים‪ ,‬אבל יש שני דברים בבדיקת השערות‪:‬‬
‫‪23‬‬
‫‪ .1‬צריך לעבור מהשערה מילולית להשערה מתמטית שנכתבת למחשב‪.‬‬
‫‪ .2‬איך בודקים‪.‬‬
‫הדבר הקריטי לצורך בדיקת השערות הוא לדעת מה ההתפלגות של האומד‪ .‬בלי זה‬
‫אי אפשר להתקדם‪ .‬איך נדע האם ‪ 0.69‬קרוב ל־‪ ,0.7‬או ‪ ?0.6‬אם ידועה השונות‪ ,‬ניתן‬
‫לחשב את הסטטיסטי‪ ,‬ולהשוות אותו מול טבלת ההתפלגות‪ .‬זה מה ש‪ M LR6‬נותנת‬
‫לנו‪.‬‬
‫בד"כ נרצה לדעת עד כמה הסטטיסטי שונה מאפס‪ ,‬לפי ההתפלגות של ‪) t‬כי לסטטיסטי‬
‫יש התפלגות ‪ .(t‬תמיד אפשר לבנות את הסטטיסטי‪ ,‬אבל הם לא יתפלגו לפי ההתפלגות‬
‫בלי ההנחות‪.‬‬
‫‪17.4‬‬
‫התרת ההנחות‬
‫כל מה שדברנו על הוספת ‪ x2‬או ‪ ,log x‬זה קשור להנחה ‪ ,1‬הפונקציונלית של המודל‪.‬‬
‫ככה אנחנו מאפשרים קשרים לא־ליניאריים במשוואה‪ .‬שימוש במשתני דמי מאפשר‬
‫למודל להבדיל בין קבוצות שונות באוכלוסיה‪ .‬אם מריצים על המדגמים בנפרד‪ ,‬אנחנו‬
‫כופים את זה שכל המקדמים יהיו שונים‪ .‬במשתנה דמי אנחנו בוחרים אלו מקדמים‬
‫יכולים להיות שונים‪ ,‬ולבדוק האם ההפרש מובהק‪.‬‬
‫במחצית השניה של הקורס התחלנו להסיר את ההנחות‪.‬‬
‫‪17.4.1‬‬
‫הנחת הנורמליות‬
‫הנחת הנורמליות נחוצה לצורך בדיקת השערות‪ ,‬אבל הראינו שאם המדגם מספיק גדול‪,‬‬
‫לפי משפט הגבול המרכזי עדיין הסטטיסטי ‪ t‬יתפלג ‪ .tn−k‬האומד לא מתפלג נורמלית‪,‬‬
‫אלא ההתפלגות הנורמלית היא קירוב טוב להתפלגות האמיתית של האומד )התפלגות‬
‫אסימפטוטית(‪.‬‬
‫‪17.4.2‬‬
‫הומוסקדסטיות‬
‫ההנחה לא מאוד נחוצה‪ ,‬והיא לא מציאותית‪ .‬זה עוזר לחישוב הנוסחא של השונות‪ ,‬אבל‬
‫השונות קיימת גם כשאין הומוסקדסטיות‪ .‬נכון שהנוסחא קצת מסובכת‪ ,‬אבל עדיין‬
‫ניתנת לחישוב‪ .‬הדבר היחיד שנעלם עם ההנחה זה ‪ .BLUE‬שתי ההנחות לא משפיעות‬
‫על חוסר ההטיה והעקיבות של האומדים‪ .‬כש‪ M LR5‬לא מתקיים‪ ,‬צריך לחשב את ‪s.e.‬‬
‫ע"י נוסחת אמידה הטרוסקדסטית‪ .‬ב‪ stata‬ע"י ‪.robust‬‬
‫‪24‬‬
‫‪17.4.3‬‬
‫אקסוגניות‬
‫מאוד קשה להסביר את ההנחה‪ ,‬והיא קריטית לעקיבות‪ .‬מה שעשינו זה עקפנו את‬
‫הבעיה‪ .‬הראינו ‪ 3‬סיבות‪:‬‬
‫‪ .1‬השמטת משתנה רלוונטי‬
‫‪ .2‬סימולטניות‬
‫‪ .3‬טעויות במדידת המשתנים‬
‫למה לא להריץ רגרסיה של צריכת דלק לפי מיסים בלבד? אנחנו נשים משתנים נוספים‬
‫כדי להקטין את הטעות‪ ,‬ואז הסיכוי לתיאום הולך וקטן‪.‬‬
‫גם כשנוסיף משתנים‪ ,‬זה לא פותר את שתי הבעיות האחרות‪ .‬אבל יש לנו פתרון בצורת‬
‫משתנה עזר שמתואם עם ‪ x‬ולא עם ‪ .u‬אבל צריך להניח שהוא עצמו לא מתואם עם ‪.u‬‬
‫לפעמים זה פשוט‪ ,‬אבל לא באמת עוזר )רבעון לידה למשל(‪ .‬מאז משתמשים במספרי‬
‫הגרלות‪ .‬בארה"ב‪ ,‬האם אנשים בוחרים ללכת לבי"ס פרטי‪ .‬האם זה ישפיע על ציוני‬
‫התלמידים? הבעיה היא כלכלית‪ .‬המציאו משתנה של האם יש נהר בעיר‪ .‬לא משפיע‬
‫על הציונים‪ ,‬אבל משפיע על ההחלטה‪ .‬לפעמים המציאו את המשתנה‪ ,‬ואח"כ סביבו את‬
‫הבעיה‪.‬‬
‫אם משתנה העזר הוא חלש‪ ,‬עשויה להיות הטיה‪.‬‬
‫‪18‬‬
‫שימוש בנתוני פאנל‬
‫)לא למבחן( משתנה העזר צורך שכנוע שהוא מתאים‪ .‬נרצה לראות דרך אחרת לעקוף‬
‫את האנדוגניות‪.‬‬
‫המודל בנתוני פאנל הוא ‪ ,yit = β0 + β1 xit + uit‬כאשר ‪ i‬הוא אינדקס הפרט‪ ,‬ו־‪ t‬הוא‬
‫אינדקס השנה‪.‬‬
‫נניח שאנו רוצים לבדוק את התגובה לשינויים במחירי הדלק‪ .‬לא נוכל לתפוס את זה‬
‫בתצפית בודדת‪ .‬אבל אם יש לנו נתונים עד ‪ ,2015‬נוכל לראות האם יש לנו נתונים‪.‬‬
‫הכל תלוי באופק השנים‪ .‬קיום של נתוני פאנל פותרת את בעיית האנדוגניות‪ .‬יש לנו‬
‫בעיה אם ‪ u‬מתואם עם ‪.x‬‬
‫אם מבצעים )‪ ,OLS (pooled‬הוא לא יהיה עקיב אם ‪ x‬מתואם עם ‪.u‬‬
‫‪25‬‬
‫נניח שניתן לכתוב ‪ .uit = vi + εit‬הטעות מפורקת לטעות קבועה על פני הפרט )אפקט‬
‫אינדיבידואלי ־ למשל מרכיב היכולת בשכר(‪ ,‬ולתנודה זמנית‪ .‬אם מניחים שהמתאם בין‬
‫‪ u‬ל־‪ x‬נובע מ־‪) v‬כלומר ‪ ε, x‬לא מתואמים(‪ ,‬ניתן לפתור את הבעיה‪ .‬אפשר להשתמש‬
‫במודל‬
‫‪yit − yi(t−1) = β1 (xit − xit−1 ) + εit − εit−1‬‬
‫כדי שהמודל יהיה עקיב‪ ,‬צריך ש‪ x‬לא יהיה מתואם עם ‪ ε‬משנה ליד‪ .‬לאומד הזה נקרא‬
‫‪ .F.D.‬אומד מפורסם יותר הוא‬
‫‪yit − y = β1 (xit − xi ) + εit − εi‬‬
‫ריבועים פחותים ייתן אומד עקיב אם ‪ x‬לא מתואם עם ‪ .εit , ε‬נקרא אומד ‪.F ixed Ef f ect est.‬‬
‫היום עם התפתחות הנתונים עוברים להשתמש בנתוני פאנל‪.‬‬
‫הרבה פעמים השימוש הוא אנדוגני‪ ,‬אבל החוק הוא אקסוגני )?(‬
‫ניתן להראות שאף שנומרית יש הבדל בין שני האומדים‪ ,‬אין צורך לחשב את הסטיות‬
‫‪ ,xit − xi‬אלא להוסיף משתני דמי לכל פרט למודל המקורי‪ ,‬וזה נותן תוצאות כמו‬
‫‪.F.E.‬‬
‫הרבה פעמים ‪ x, y‬הם בלוגריתם‪ .‬זה נקרא שיעור השינוי‪ .‬כשאומדים בצורה כזו‪,‬‬
‫אומדים השפעה של שיעור שינוי על שיעור שינוי‪ .‬האומדים שלנו עובדים בד"כ על‬
‫רמות‪ .‬אם יש לנו לוגריתמים‪ ,‬זה גמישות‪ .‬אם אנחנו מדברים על האינפרטציה‪ ,‬זה יותר‬
‫פשוט במודל הבסיסי‪.‬‬
‫יש בסטאטה את כל הפקודות‪ ,‬כולל שילוב ביניהם‪.‬‬
‫הרבה פעמים יש לנו את המיסוי בשנים קודמות‪ ,‬וניתן לעמוד עליהם לאורך זמן‪.‬‬
‫האם ההנחה ‪ uit = vi + εit‬תקפה? אם אין פקטורים ‪ ,vi‬נקבל ‪ ,vi = 0‬ו־ ‪.uit = εit‬‬
‫יכול להיות שיש נתונים קבועים לאורך כל התקופה‪ ,‬אבל סט הפקטורים הקבועים הולך‬
‫וקטן ככל שהתקופה גדלה‪ .‬לכן המודלים עובדים טוב על פני תקופה של ‪10‬־‪ 5‬שנים‪.‬‬
‫‪...‬‬
‫‪26‬‬