מערך לימודייה סטטיסטיקה 3

‫מער שיעור‪:‬‬
‫סטטיסטיקה ‪ 3‬מנע"ס‬
‫ליעד איצקובי‬
‫סטודנט יקר‪:‬‬
‫מער זה הוכ על ידי מדרי הלימודיה שלכ במטרה לסכ את החומר‬
‫בתמציתיות וכתוצאה מכ לנצל את זמ התרגולי בצורה‬
‫האופטימאלית שתסייע להצלחתכ‪ .‬הלימודיה מוגשת לכ כחלק‬
‫מפעילותה הענפה של המחלקה האקדמית באגודת הסטודנטי במטרה‬
‫להיות לכ לעזר במהל תקופת הבחינות הקרבה‪.‬אנו מקווי כי תפיקו‬
‫ממנה את המירב‪.‬‬
‫בברכת הצלחה בבחינות‪,‬‬
‫אור לוי‬
‫סיו"ר האגודה‬
‫דור חיים‬
‫יו"ר האגודה‬
‫מור מנשה‬
‫רמ"ח אקדמיה‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫מהלך הלימודיה‬
‫שיעור ‪11.5.14 :1‬‬
‫ניתוח שונויות חד כיווני‬
‫השוואות מרובות‬
‫שיעור ‪ +2‬שיעור ‪18/25.5.14 :3‬‬
‫מקדם המתאם‬
‫מודל ‪L.S.E‬‬
‫רגרסיה חד משתנית‬
‫רגרסיה דו משתנית‬
‫רגרסיה מרובה‬
‫שיטות להרצת רגרסיה‬
‫שיעור ‪:4‬‬
‫‪1.6.14‬‬
‫פתרון מבחן מלא‬
‫כל הזכויות שמורות©‬
‫‪2‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫שיעור ראשון‬
‫ניתוח שונות חד כיווני‬
‫מודל ניתוח שונות‪ -‬זהו מודל באמצעותו נבדוק השפעה של משתנה איכותי )ללא הגבלה‬
‫על מס' קטגרויות( על משתנה תלוי כמותי‪.‬‬
‫השיטה מאפשרת לבדוק הבדלים בין תוחלות מ‪ 2‬אוכ' או יותר לכן שאלת המחקר היא‬
‫האם יש הבדל בין התוחלות מ‪ 2‬אוכ' או יותר ממדגמים בלתי תלויים‪.‬‬
‫משתנה תלוי‬
‫‪.1‬משתנה מוסבר‬
‫‪ .2‬סולם כמותי‬
‫‪ .3‬ההנחות מתייחסות לתלוי‬
‫משתנה בלתי תלוי‬
‫משתנה מסביר‪/‬מנבא‬
‫‪ C‬קטגוריות )רמות(‬
‫משתנה איכותי‬
‫הנחות למודל ניתוח שונות‬
‫‪ .1‬מודל קבוע‪ -‬מסקנות המחקר מוכללות רק על הקטגוריות שהשתתפו במחקר‬
‫‪ .2‬דגימה מקרית של תצפיות בכל אחת מ‪ C -‬האוכלוסיות‪.‬‬
‫‪ .3‬מדגמים בלתי תלויים‬
‫‪ .4‬התפלגות הערכים של השמתנה התלוי מתפלגת נורמלית בכל אחת מ‪ C-‬האוכלוסיות‪.‬‬
‫‪ .5‬שונויות המשתנה התלוי שוות בכל אחת מ‪ C -‬האוכלוסיות‬
‫כל הזכויות שמורות©‬
‫‪1‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫השערות לניתוח שונות‬
‫ישנן ‪ 2‬אפשרויות לרישום השערות‪:‬‬
‫או‪:‬‬
‫‪H0- µ 1= µ 2= µ 3= µ 4=….µ c‬‬
‫‪ H0- µ J- µ=0‬עבור ‪j:1c‬‬
‫אחרת ‪H1 -‬‬
‫אחרת ‪H1-‬‬
‫פירוק השונות למרכיבים‬
‫מספר קב' ‪J‬‬
‫מספר נדגם ‪I‬‬
‫בוקר‬
‫‪1‬‬
‫‪60‬‬
‫צהריים‬
‫‪2‬‬
‫‪70‬‬
‫ערב‬
‫‪3‬‬
‫‪80‬‬
‫‪2‬‬
‫‪60‬‬
‫‪70‬‬
‫‪80‬‬
‫‪3‬‬
‫‪60‬‬
‫‪70‬‬
‫‪80‬‬
‫‪µ‬‬
‫‪µ 1=60‬‬
‫‪µ 2=70‬‬
‫‪µ 3=80‬‬
‫מספר קב' ‪J‬‬
‫מספר נדגם ‪I‬‬
‫בוקר‬
‫‪1‬‬
‫‪60‬‬
‫צהריים‬
‫‪2‬‬
‫‪60‬‬
‫ערב‬
‫‪3‬‬
‫‪60‬‬
‫‪2‬‬
‫‪70‬‬
‫‪70‬‬
‫‪70‬‬
‫‪3‬‬
‫‪80‬‬
‫‪80‬‬
‫‪80‬‬
‫‪µ‬‬
‫‪µ 1=70‬‬
‫‪µ 2=70‬‬
‫‪µ 3=70‬‬
‫מספר קב' ‪J‬‬
‫מספר נדגם ‪I‬‬
‫בוקר‬
‫‪1‬‬
‫‪60‬‬
‫צהריים‬
‫‪2‬‬
‫‪60‬‬
‫ערב‬
‫‪3‬‬
‫‪80‬‬
‫‪2‬‬
‫‪70‬‬
‫‪70‬‬
‫‪70‬‬
‫‪3‬‬
‫‪60‬‬
‫‪80‬‬
‫‪80‬‬
‫‪µ‬‬
‫‪µ 1=63.3‬‬
‫‪µ 2=70‬‬
‫‪µ 3=76.7‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫כל הזכויות שמורות©‬
‫‪µ = 70‬‬
‫לדוגמא משה‪Xij= X23= 80 -‬‬
‫‪µ = 70‬‬
‫‪µ = 70‬‬
‫‪2‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫סטייה של תצפית מהממוצע הכללי‪-‬‬
‫)‪(Xij-µ)= (µ j-µ)+(Xij-µ j‬‬
‫גודל האפקט‪ -‬הבדל בין הקב'‬
‫אפקט הטעות‪ -‬הבדלים בתוך הקב' )בין אישיים(‬
‫)‪(µ j-µ‬‬
‫)‪(Xij-µ j‬‬
‫הבדל בין הקבוצות‪ -‬הבדל זה מכונה "אפקט הטיפול" זהו ההבדל בין התצפיות הנובע‬
‫משיוכם לקטגוריות שונות של המשתנה הבלתי תלוי‬
‫הבדל בתוך הקבוצות‪ -‬זהו "אפקט הטעות"‪ ,‬ההבדל בין התצפיות שלא ניתן להסביר ע"י‬
‫המשתנה הבלתי תלוי ונובע מהבדלים בינאישיים או טעויות דגימה‪.‬‬
‫אמדן לגודל ההשפעה‪/‬גודל האפקט‪:‬‬
‫האמדן הוא מדד במדגם המוגדר כשונות בין קבוצות הוא מחושב כממוצע ריבועי הסטיות‬
‫של ממוצעי המדגמים מהממוצע הכללי )כאשר גדלי המדגמים נלקחים בחשבון(‬
‫האמדן מושפע מ‪ 2‬גורמים‪:‬‬
‫‪ .1‬מושפע מגודל האפקט באוכ'‪ ,‬כלומר מאותם הבדליים אמיתיים בין תוחלות‬
‫‪ .2‬מושפע מטעויות דגימה כלומר מהבדלים מקריים הנובעים מדגימה מקרית של תצפיות‬
‫בתוך כל אוכלוסיה‪ .‬מדד זה הינו מדד המבטא את ההבדלים האינדיווידואלים בתוך כל אוכ'‬
‫וערכו שווה ל‪ σ2 -‬כל אותם ההבדלים שלא ניתן להסביר ע"י המשתנה הבלתי תלוי‪.‬‬
‫מדוע מכנים את המודל ניתוח שונות למרות שעוסקים בהבדלים בין תוחלות‪:‬‬
‫שונות גדולה בין קבוצות )בין ממוצעים( תתמוך בטענה שיש הבדל בין התוחלות לכן‪,‬‬
‫מפרקים את השונות הכללית ל‪ 2‬מרכיבים‪:‬‬
‫‪ .1‬שונות בין קבוצות – מורכבות מאפקט הטיפול‪/‬גודל האפקט ומאפקט הטעות‪.‬‬
‫‪ .2‬שונות בתוך הקבוצה‪ -‬מורכבת רק מהבדלים בין אישיים‪ ,‬כלומר מאפקט הטעות בלבד‪.‬‬
‫כל הזכויות שמורות©‬
‫‪3‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫דוגמא‬
‫חוקר מעוניין לבדוק את ההשפעה של ‪ 4‬שיטות הוראה על תוחלת ההישגים בלימודים‬
‫בדוק ב‪ 0.05=α‬האם קיימת השפעה באוכ' על פי תוצאות המדגם?‬
‫‪J‬‬
‫‪I‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫‪7‬‬
‫‪8‬‬
‫‪Ni‬‬
‫‪i‬‬
‫‪X‬‬
‫פרונטלי‬
‫‪1‬‬
‫‪5‬‬
‫‪7‬‬
‫‪6‬‬
‫‪3‬‬
‫‪9‬‬
‫‪7‬‬
‫‪4‬‬
‫‪2‬‬
‫‪8‬‬
‫‪5.375‬‬
‫פרטני‬
‫‪2‬‬
‫‪10‬‬
‫‪11‬‬
‫‪8‬‬
‫‪7‬‬
‫‪7‬‬
‫‬‫‬‫‬‫‪5‬‬
‫‪8.6‬‬
‫קבוצות קטנות‬
‫‪3‬‬
‫‪8‬‬
‫‪6‬‬
‫‪9‬‬
‫‪5‬‬
‫‪7‬‬
‫‪4‬‬
‫‪4‬‬
‫‬‫‪7‬‬
‫‪6.143‬‬
‫למידה מרחוק‬
‫‪4‬‬
‫‪1‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪1‬‬
‫‪4‬‬
‫‬‫‬‫‪6‬‬
‫‪3‬‬
‫‪si2‬‬
‫‪5.41‬‬
‫‪3.3‬‬
‫‪3.8‬‬
‫‪2.8‬‬
‫השערות‪:‬‬
‫הנחות‪:‬‬
‫כל הזכויות שמורות©‬
‫‪4‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫טבלת מקור שונות‬
‫סכום ריבועי הסטיות‬
‫‪ss‬‬
‫דרגות‬
‫חופש‬
‫‪Df‬‬
‫‪MS‬‬
‫תוחלת‬
‫)‪E(MS‬‬
‫חישוב סטטיסטי‬
‫הבדלים בין‬
‫קב'‬
‫‪Between‬‬
‫‪groups‬‬
‫הבדלים‬
‫בתוך קב'‬
‫‪Within‬‬
‫‪groups‬‬
‫סהכ‬
‫בחישוב השונות בין הקב' אנו מחשבים את הסטיות של ממוצע הקב' מהממוצע הכללי ולכן‬
‫מסר הקב' הופך להיות מס' התצפיות לחישוב השונות‪ ,‬על כן דרגות החופש יהיו ‪C-1‬‬
‫‪ - MSB‬אמדן לשונות בין הקב' מדד זה אומד את גודל האפקט באוכ' וכן את ההבדלים‬
‫הבין אישיים המבוטאים על ידי ‪ ,σ2‬כאשר ‪ H0‬נכונה אין גודל אפקט ואמדן זה אומד רק‬
‫את ההבדלים הבין אישיים )מכיל רק טעויות דגימה(‬
‫‪ -MSW‬אמדן לשונות בתוך הקב' ‪ σ2‬הנובעת מהבדלים בין אישיים‪ ,‬אמדן זה מחושב‬
‫בהנחה שהשונויות בכל אחת מהקט' שוות באוכלוסיה‪.‬‬
‫כל הזכויות שמורות©‬
‫‪5‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫‪Eta‬ו‪eta2‬‬
‫‪ -Eta‬זהו מדד המתאר את עוצמת הקשר של המשתנה הבלתי תלוי על התלוי‬
‫‪0 ≤ eta ≤1‬‬
‫השפעה מלאה≤ ‪ ≤ eta‬אין השפעה‬
‫‪ -Eta2‬הפרופורציה שבה ניתן להסביר את ההבדלים בין התצפיות על ידי המשתנה הב"ת‬
‫‬
‫‬
‫=‪Eta2‬‬
‫סיכום‬
‫∆‪ -‬אפקט הטיפול‪/‬גודל האפקט – ההבדלים בין התוחלות עבור הקטגוריות של המשתנה‬
‫הבלתי תלוי‪ ,‬במילים אחרות אלה כל אותם הבדלים בין התוחלות שנבעו משיוך של תצפית‬
‫לשיטה מסוימת‪ .‬השפעה של המשתנה הב"ת על תוחלת המשתנה התלוי‬
‫‪ σ2‬אפקט הטעות ‪ -‬אלה כל אותם הבדלים בין אישיים אינדיבידואלים בתוך כל אוכ'‪,‬‬
‫שונות במשתנה התלוי שאיננו נובע מהגורם הבלתי תלוי‪.‬‬
‫שאלות שחוזרות על עצמן‪:‬‬
‫כיצד תשפיע הגדלת גודל המדגם על הסיכוי למצוא גודל אפקט מובהק?‬
‫ככל שגודל המדגם גדול יותר ממוצעי המגדים מדוייקים יותר )קרובים ל ‪ (µ‬כלומר‪,‬‬
‫טעויות הדגימה תהיינה קטנות וההבדלים ישקפו הבדלים אמיתיים באוכ'‪.‬‬
‫מדוע למרות השערה דו צדדית הבדיקה הינה בדיקה חד צדדית?‬
‫כל הסטיות כולן נמצאות בצד אחד למרות שהשערה היא דו צדדית‪ ,‬הבדיקה היא חד‬
‫צדדית מאחר והעלנו את כל הסטיות בריבוע ועל כן כל הסטיות נמצאות בצד החיובי‪.‬‬
‫האם ‪ MSB‬הוא אמדן חסר הטייה לאפקט הטעות?‬
‫‪ MSB‬הוא אמדן מוטה מאחר והתוחלת שלו שווה ל∆‪ σ2+‬רק כאשר ∆=‪ 0‬אזי ‪MSB‬‬
‫יהיה אמדן חסר הטייה לאפקט הטעות‪.‬‬
‫כל הזכויות שמורות©‬
‫‪6‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫האם ‪ MSW‬הוא אמדן חסר הטייה לאפקט הטעות?‬
‫כן בהחלט‪ ,‬התוחלת שלו שווה ל‪ σ2 -‬שזהו אכן אפקט הטעות‪.‬‬
‫האם‬
‫‬
‫
‬
‫הוא אמדן חסר הטייה לאפקט הטעות?‬
‫לא‪ ,‬מאחר והשונות הכללית מורכבת גם מהבדלים בין קב' וגם בתוך הקב'‪.‬‬
‫מהו אמדן חסר הטעייה לשונות ההישגים שאיננה נובעת משיטות ההוראה?‬
‫‪ MSW‬אומד את אותם הבדלים בין אישיים‪ ,‬החלק הלא מוסבר‪.‬‬
‫האם ‪ i2=3.3‬הוא אמדן חסר הטייה לשונות של האוכ'?‬
‫ההנחה הינה שהשוניות שוות ולכן כל השוניות בקב' הם אמדנים לאותה שונות‪.‬‬
‫השוואות מרובות‬
‫במידה ודוחים את ‪ H0‬בניתוח שונות צריכים לבצע מבחן נוסף בכדי לדעת בין מי למי‬
‫ההבדלים )מכיוון שיש יותר מ‪ 2‬קטגוריות(‬
‫ ככל שמס' ההשוואות הולך וגדל ההסתברות לטעות מסוג ‪ I‬הולך וגדל‪.‬‬
‫ המבחנים השונים שנלמד נבדלים זה מזה במידה בה הם לוקחים בחשבון את מס'‬
‫ההשוואות‪.‬‬
‫‪(least significant differenece) L.S.D.1‬‬
‫שיטה זו אינה לוקחת בחשבון את מס' ההשוואות ולכן מגבילים את השימוש בה ל‪4‬‬
‫קטגוריות במשתנה הב"ת‪.‬‬
‫‪tukey Hsd.2‬‬
‫בשיטה זו נלקחות בחשבון מס' ההשוואות וככל שהמספר גדל‪ ,‬גדל גם הערך הקריטי‬
‫לדחות ‪.H0‬‬
‫כל הזכויות שמורות©‬
‫‪7‬‬
3 ‫לימודיה בסטטיסטיקה‬
‫השפעת המקצוע הנלמד )בתואר הראשו( על המשכורת ההתחלתית )באלפי‬
.(‫ש"ח‬
Oneway
Descriptives
SALARY starting salary
N
1.00 Agriculture
2.00 Business
3.00 Engineering
4.00 Communication
Total
55
61
53
81
250
Mean Std. Deviation Std. Error
6.5911
1.75608
.23679
7.5319
1.91268
.24489
9.7779
2.33067
.32014
8.1221
2.55649
.28405
7.9923
2.44013
.15433
95% Confidence Interval for
Mean
Lower Bound Upper Bound Minimum Maximum
6.1164
7.0659
1.90
10.15
7.0420
8.0217
3.48
12.59
9.1355
10.4203
4.60
14.34
7.5568
8.6873
.74
15.02
7.6883
8.2962
.74
15.02
Test of Homogeneity of Variances
SALARY starting salary
Levene
Statistic
2.507
df1
3
df2
246
Sig.
.060
ANOVA
SALARY starting salary
Between Groups
Within Groups
Total
8
Sum of
Squares
291.262
1191.343
1482.605
df
3
246
249
Mean Square
97.087
4.843
F
20.048
Sig.
.000
©‫כל הזכויות שמורות‬
3 ‫לימודיה בסטטיסטיקה‬
Post Hoc Tests
Multiple Comparisons
Dependent Variable: SALARY starting salary
Mean
Difference
(I-J)
(I) COLLEGE
(J) COLLEGE
Std. Error
Tukey HSD 1.00 Agriculture
2.00 Business
-.9408
.40920
3.00 Engineering
-3.1868* .42359
4.00 Communication -1.5309* .38450
2.00 Business
1.00 Agriculture
.9408
.40920
3.00 Engineering
-2.2460* .41324
4.00 Communication -.5902
.37307
3.00 Engineering 1.00 Agriculture
3.1868* .42359
2.00 Business
2.2460* .41324
4.00 Communication 1.6559* .38880
4.00 Communication1.00 Agriculture
1.5309* .38450
2.00 Business
.5902
.37307
3.00 Engineering
-1.6559* .38880
LSD
1.00 Agriculture
2.00 Business
-.9408* .40920
3.00 Engineering
-3.1868* .42359
4.00 Communication -1.5309* .38450
2.00 Business
1.00 Agriculture
.9408* .40920
3.00 Engineering
-2.2460* .41324
4.00 Communication -.5902
.37307
3.00 Engineering 1.00 Agriculture
3.1868* .42359
2.00 Business
2.2460* .41324
4.00 Communication 1.6559* .38880
4.00 Communication1.00 Agriculture
1.5309* .38450
2.00 Business
.5902
.37307
3.00 Engineering
-1.6559* .38880
95% Confidence Interval
Sig.
Lower Bound Upper Bound
.101
-1.9992
.1177
.000
-4.2825
-2.0911
.001
-2.5255
-.5364
.101
-.1177
1.9992
.000
-3.3150
-1.1771
.391
-1.5552
.3748
.000
2.0911
4.2825
.000
1.1771
3.3150
.000
.6502
2.6616
.001
.5364
2.5255
.391
-.3748
1.5552
.000
-2.6616
-.6502
.022
-1.7467
-.1348
.000
-4.0211
-2.3525
.000
-2.2883
-.7736
.022
.1348
1.7467
.000
-3.0600
-1.4321
.115
-1.3250
.1446
.000
2.3525
4.0211
.000
1.4321
3.0600
.000
.8901
2.4217
.000
.7736
2.2883
.115
-.1446
1.3250
.000
-2.4217
-.8901
*. The mean difference is significant at the .05 level.
Homogeneous Subsets
SALARY starting salary
Tukey HSD a,b
COLLEGE
1.00 Agriculture
2.00 Business
4.00 Communication
3.00 Engineering
Sig.
N
55
61
81
53
Subset for alpha = .05
1
2
3
6.5911
7.5319
7.5319
8.1221
9.7779
.088
.452
1.000
Means for groups in homogeneous subsets are displayed.
a. Uses Harmonic Mean Sample Size = 60.801.
b. The group sizes are unequal. The harmonic mean of the group sizes is used.
Type I error levels are not guaranteed.
9
©‫כל הזכויות שמורות‬
3 ‫לימודיה בסטטיסטיקה‬
Explore
COLLEGE
Tests of Normality
COLLEGE
SALARY starting salary 1.00 Agriculture
2.00 Business
3.00 Engineering
4.00 Communication
Kolmogorov-Smirnova
Statistic
df
Sig.
.089
55
.200*
.096
61
.200*
.083
53
.200*
.063
81
.200*
Statistic
.982
.987
.984
.993
Shapiro-Wilk
df
55
61
53
81
Sig.
.567
.784
.712
.940
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction
10
©‫כל הזכויות שמורות‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫שיעור שני‬
‫מבחן למובהקות המתאם הליניארי‬
‫מבחן סטטיסטי שבודק האם קיים קשר ליניארי בין ‪ 2‬משתנים כמותיים באוכלוסייה‪.‬‬
‫סטטיסטי – המתאם הליניארי במדגם ‪r‬‬
‫פרמטר‪ -‬המתאם הליניארי באוכלוסיה ‪ρ‬‬
‫השערות‬
‫‪H :ρ = 0‬‬
‫‪H :ρ ≠ 0/> 0/< 0‬‬
‫הנחות‪:‬‬
‫‪ .1‬דגימה מקרית של נבדקים‬
‫‪ .2‬התפלגות דו‪-‬נורמאלית‪ -‬התפלגות נורמאלית של ‪ Y‬עבור כל ערך של ‪ X‬וגם‬
‫התפלגות נורמאלית של ‪ X‬עבור כל ערך של ‪. Y‬‬
‫כלל החלטה‪ :‬בהתאם לסוג ההשערה –‬
‫בהשערה דו‪-‬צדדית ‪ :‬דוחים את השערת האפס אם ∝< )‪S(2 !"#‬‬
‫בהשערה חד‪-‬צדדית ‪ :‬דוחים את השערת האפס אם ∝<‬
‫)‪&'(()*+',-.‬‬
‫)‬
‫קיצוץ תחום וערכים קיצוניים‪:‬‬
‫בדרך כלל אם הם מהווים פחות מ‪ 5%‬ניתן להוציאם מבלי לאבד מיכולת ההכלה‪ .‬לפעמים‬
‫אנו הולכים ובודקים )כאשר יש מעל ‪ (5%‬אי אפשר להוציא באופן שרירותי אבל לפעמים‬
‫אנו בודקים מה מאפיין את הערכים הקיצוניים‪ ,‬נוכל להגדיר מה הם ולהוציא אותם כלומר‪,‬‬
‫שההסקה שלנו אינה כוללת אוכ' זו‪ .‬לדוג' עולים חדשים במבחן בעברית אנו נוציא את‬
‫הקב' הספציפית הזו ונדגיש שהדגימה לא כוללת עולים חדשים‬
‫כל הזכויות שמורות©‬
‫‪11‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫קיצוץ תחום‪:‬‬
‫באונ' תל אביב רצו לבדוק את הקשר בין ציון פסיכ' לבין ממוצע הציונים של שנה א'‪ ,‬הם‬
‫לקחו את כל אלו שסיימו שנה א' וחישבו עבורם את המתאם נמצא מתאם נמוך כי אלו‬
‫שהתקבלו לרפואה התקבלו עם ציון פסיכ' מעל ‪ 735‬ולקחנו משתנה שהיה לו פיזור מ‪-‬‬
‫‪ 200‬עד ‪ 800‬וקיצצנו אותו‪ ,‬כעת הציון שואף להיות קבוע‪ .‬כאשר ההתפלגות נורמלית‬
‫ואנו מקצצים את התחום אזי עוצמת הקשר הקווי תקטן מאחר והפכנו קב' שהיא הטרוגנית‬
‫לקב' הומוגנית‪.‬‬
‫דוגמא ‪ 1‬בסעי‪ #‬א' נתונה דוגמא לקשר בי שעות לימוד לפני המבח לציו במבח‪.‬‬
‫הקשר נבדק כעת על קבוצה בעלת תחו צר יותר בשעות לימוד )מעל ל ‪. (25‬‬
‫לפניכ הממצאי‪:‬‬
‫‪Correlations‬‬
‫‪Descriptive Statistics‬‬
‫‪N‬‬
‫‪Std. Deviation‬‬
‫‪Mean‬‬
‫‪21‬‬
‫‪1.87348‬‬
‫‪27.0251‬‬
‫‪No. of learning‬‬
‫‪hours before exam‬‬
‫‪21‬‬
‫‪8.28331‬‬
‫‪88.0571‬‬
‫‪Test mark‬‬
‫‪Correlationsa‬‬
‫‪Test mark‬‬
‫‪.264‬‬
‫‪.247‬‬
‫‪1‬‬
‫‪.‬‬
‫‪No. of‬‬
‫‪learning‬‬
‫‪hours before‬‬
‫‪exam‬‬
‫‪1‬‬
‫‪.‬‬
‫‪.264‬‬
‫‪.247‬‬
‫‪Pearson Correlation‬‬
‫)‪Sig. (2-tailed‬‬
‫‪Pearson Correlation‬‬
‫)‪Sig. (2-tailed‬‬
‫‪No. of learning‬‬
‫‪hours before exam‬‬
‫‪Test mark‬‬
‫‪a. Listwise N=21‬‬
‫כל הזכויות שמורות©‬
‫‪12‬‬
3 ‫לימודיה בסטטיסטיקה‬
Graph
(11 '‫דיאגרמת הפיזור המקורית )כמו בעמ‬
110
110
100
100
90
90
80
80
70
70
60
60
50
50
Test mark
Test mark
‫דיאגרמת הפיזור לאחר הקיצו‬
40
30
5
10
15
20
25
30
40
30
35
5
No. of learning hours before exam
10
15
20
25
30
35
No. of learning hours before exam
.‫ ב' נתונה דוגמא לקשר בי נפח המנוע לצריכת הדלק לק"מ‬#‫ בסעי‬2 ‫דוגמא‬
. (‫ סמ"ק‬1200 ‫הקשר נבדק כעת על קבוצת מכוניות בעלת תחו צר יותר בנפח מנוע ) מעל‬
:‫לפניכ הממצאי‬
Correlations
Descriptive Statistics
Mean
Volume (cubic CM) 1400.1078
Consumption (KM
16.4772
per Litter)
Std. Deviation
148.31127
N
46
2.41865
46
Correlationsa
Volume (cubic CM)
Consumption (KM
per Litter)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Volume
Consumption
(cubic CM) (KM per Litter)
1
-.295*
.
.047
-.295*
1
.047
.
*. Correlation is significant at the 0.05 level (2-tailed).
a. Listwise N=46
13
©‫כל הזכויות שמורות‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫‪Graph‬‬
‫דיאגרמת הפיזור לאחר הקיצו‬
‫דיאגרמת הפיזור המקורית )כמו בעמ' ‪(12‬‬
‫‪26‬‬
‫‪26‬‬
‫‪24‬‬
‫‪24‬‬
‫‪22‬‬
‫‪22‬‬
‫‪20‬‬
‫‪18‬‬
‫‪16‬‬
‫‪14‬‬
‫‪12‬‬
‫‪10‬‬
‫‪2000‬‬
‫‪1800‬‬
‫‪1600‬‬
‫‪1400‬‬
‫‪1200‬‬
‫‪1000‬‬
‫‪800‬‬
‫‪400‬‬
‫‪600‬‬
‫)‪Consumption (KM per Litter‬‬
‫‪28‬‬
‫‪28‬‬
‫‪200‬‬
‫‪20‬‬
‫‪18‬‬
‫‪16‬‬
‫‪14‬‬
‫‪12‬‬
‫‪10‬‬
‫‪2000‬‬
‫‪1800‬‬
‫‪1600‬‬
‫)‪Volume (cubic CM‬‬
‫‪1400‬‬
‫‪1200‬‬
‫‪1000‬‬
‫‪800‬‬
‫‪600‬‬
‫‪400‬‬
‫)‪Consumption (KM per Litter‬‬
‫‪30‬‬
‫‪30‬‬
‫‪200‬‬
‫)‪Volume (cubic CM‬‬
‫מודל הרגרסיה הפשוטה‬
‫ברגרסיה פשוטה ‪ 2‬משתנים בלבד איקס ו‪-‬וואי‬
‫‪ X‬המשתנה המסביר הבלתי תלוי המנבא‪.‬‬
‫‪ Y‬המשתנה התלוי המוסבר‪.‬‬
‫שני המשתנים על סולם כמותי‪.‬‬
‫ברגרסיה פשוטה המטרה לנבא את המשתנה התלוי ‪ Y‬או התוחלת של משתנה ‪Y‬‬
‫לדוגמא‪ -‬לנבא את הצריכה או תוחלת הצריכה עבור ערכים קבועים של הכנסה באמצעות‬
‫הקשר הקווי‪.‬‬
‫עקום הרגרסיה זהו עקום באוכ' העובר דרך התוחלת של ‪ Y‬עבור כל ערך של ‪X‬‬
‫מאחר ואנחנו מתמקדים בקשר הקווי ניתן לבטא את הקשר ע"פ נוסחת הקו הישר‪.‬‬
‫יש לשים לב בהדגשה שכשאשר מדובר על עקום הרגרסיה הכוונה היא עקום באוכ' ולכן‬
‫זהו הקו שעובר דרך התוחלות‪.‬‬
‫משוואה ליניארית שנועדה לסייע בניבוי ערכי המשתנה התלוי )‪ (y‬באמצעות הבלתי‬
‫תלוי )‪(x‬‬
‫כל הזכויות שמורות©‬
‫‪14‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫‪0 + β3x‬‬
‫∝= ‪y‬‬
‫מהו הישר הטוב ביותר?‬
‫המשוואה הליניארית )קו הרגרסיה( מקיימת את עקרון "הריבועים הפחותים" ‪ -‬קו‬
‫שמביא למינימום את סכום ריבוע הסטיות של התצפיות ממנו‪ .‬במלים אחרות‪ ,‬זה הקו‬
‫שנמצא "הכי קרוב" לכל הנקודות בדיאגראמת הפיזור‪.‬‬
‫)) ‪min 8(y9 − y9‬‬
‫))) ‪0 + β3x9‬‬
‫∝( ‪min 8(y9 −‬‬
‫המשוואות באמצעותן מקבלים את מקדמי המשוואה‪:‬‬
‫<‪s‬‬
‫=‪s‬‬
‫‪β3 = r‬‬
‫‪0‬‬
‫?‪α = y? − β3x‬‬
‫משמעות מקדמי המשוואה הליניארית‬
‫‪ - β3‬השיפוע‪ :‬השינוי הצפוי ל‪ Y -‬כשנזיז את ‪ X‬ביחידה אחת‪.‬‬
‫‪ -0‬הקבוע‪ :‬הניבוי של ‪ Y‬כאשר ‪.X=0‬‬
‫‪α‬‬
‫הערך האמיתי במדגם‪:‬‬
‫‪0 + AD‬‬
‫∝= '@‬
‫' ̂" ‪BC +‬‬
‫הערך האמיתי באוכ'‪:‬‬
‫'‪@?' = FG' + H‬‬
‫דוגמא מספרית‬
‫כל הזכויות שמורות©‬
‫‪15‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫דוגמה לרגרסיה חד‪-‬משתנית‪:‬‬
‫נבוי המכירות באמצעות ההוצאות על פרסו )אלפי (‬
‫מאפייני תאוריי של שני המשתני‬
‫‪Case Summaries‬‬
‫‪N‬‬
‫‪Mean‬‬
‫‪Maximum‬‬
‫‪Minimum‬‬
‫‪Std. Deviation‬‬
‫‪60.00‬‬
‫‪3.70‬‬
‫‪16.36932‬‬
‫‪28.1040‬‬
‫‪994.00‬‬
‫‪55.00‬‬
‫‪217.85283‬‬
‫‪249.2400‬‬
‫‪25‬‬
‫‪X advertise‬‬
‫‪expenses‬‬
‫‪25‬‬
‫‪Y sales‬‬
‫דיאגרמת פיזור‬
‫‪Graph‬‬
‫‪1100‬‬
‫‪1000‬‬
‫‪900‬‬
‫‪800‬‬
‫‪700‬‬
‫‪600‬‬
‫‪500‬‬
‫‪400‬‬
‫‪300‬‬
‫‪200‬‬
‫‪0‬‬
‫‪Rsq = 0.6046‬‬
‫‪70‬‬
‫‪60‬‬
‫‪50‬‬
‫‪40‬‬
‫‪30‬‬
‫‪20‬‬
‫‪10‬‬
‫‪sales‬‬
‫‪100‬‬
‫‪0‬‬
‫‪advertise expenses‬‬
‫כל הזכויות שמורות©‬
‫‪16‬‬
3 ‫לימודיה בסטטיסטיקה‬
‫המתא בי המשתני‬
Correlations
Correlationsa
X advertise expenses
Y sales
Pearson Correlation
Sig. (2-tailed)
Sum of Squares and
Cross-products
Covariance
Pearson Correlation
Sig. (2-tailed)
Sum of Squares and
Cross-products
Covariance
X advertise
expenses
1
.
6430.910
Y sales
.778**
.000
66548.276
267.955
2772.845
.778**
1
.000
.
66548.276
1139037
2772.845
47459.857
**. Correlation is significant at the 0.01 level (2-tailed).
a. Listwise N=25
‫משוואת קו הרגרסיה‬
Coefficientsa
Model
1
Unstandardized
Coefficients
B
Std. Error
(Constant)
-41.586
56.465
X advertise expenses 10.348
1.745
Standardized
Coefficients
Beta
.778
t
-.736
5.930
Sig.
.469
.000
a. Dependent Variable: Y sales
17
©‫כל הזכויות שמורות‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫עקרון הריבועים הפחותים ‪L.S.E‬‬
‫סכום ריבועי הסטיות מהקו יהיה מינימום‪ .‬מושפע מערכים קיצוניים‪.‬‬
‫סכום ריבועי הטעויות אלו הן בעצם גם שאריות‪ ,‬חלק שהוא לא ידוע וצריך להסביר‪.‬‬
‫‪(IJ − I‬‬
‫‪0J ) = KJL‬‬
‫תכונות קו הרגרסיה‬
‫לקו הרגרסיה שבנינו יש מס' תכונות הנובעות מעקרון "הריבועים הפחותים" שבאמצעותו הופק‬
‫הישר‪.‬‬
‫‪ .1‬נקודת הממוצעים )?@ ‪ (M̅ ,‬תמיד נמצאת על הישר‪.‬‬
‫כאשר ̅‪M9 = M‬‬
‫‪P‬‬
‫‪P‬‬
‫‪P‬‬
‫‪P‬‬
‫∝= ‪P + AM‬‬
‫‪P + AM‬‬
‫@=‬
‫‪ − AM‬‬
‫‪ + AM‬‬
‫?@ = ‬
‫∝= '@‬
‫‪ .2‬ממוצע הניבויים שווה לממוצע של ‪@? = @? :Y‬‬
‫‪ .3‬ממוצע הטעויות )הסטיות מן הישר( שווה לאפס ‪"̂ ̅ = 0 :‬‬
‫‪ .4‬התפלגות המשתנה התלוי )‪ (Y‬בערך ספציפי של המשתנה הבלתי תלוי )‪ (X‬זהה להתפלגות‬
‫הטעויות ) ̂"( באותו ערך ספציפי של ‪.X‬‬
‫באופן כללי‪@' = @' + "̂' :‬‬
‫ועבור ערך ‪ X‬מסוים הניבוי )@( קבוע ולפיכך ‪@' = @ + "̂' :‬‬
‫למעשה‪ ,‬התפלגות ‪ Y‬הינה הזזה בקבוע של התפלגות הטעויות ) ̂"( )בערך ‪ X‬מסוים( ולכן‬
‫צורת ההתפלגות נשמרת‪.‬‬
‫עקב כך‪ ,‬גם השונות של ‪) Y‬בערך ‪ X‬ספציפי ( שווה לשונות של הטעויות )באותו ערך ‪X‬‬
‫ספציפי(‬
‫‪ .5‬המתאמים בין משתני הרגרסיה‪ :‬ע"ס המתאם בין ‪ X‬ל‪ Y -‬ניתן למצוא את כל המתאמים בין‬
‫ארבעת המשתנים‪"̂ ,@ ,Y,X :‬‬
‫<=‪Q‬‬
‫‪Q=<0‬‬
‫‪Q=R‬‬
‫כל הזכויות שמורות©‬
‫‪QG<0‬‬
‫‪QGR‬‬
‫‪Q<0R‬‬
‫‪18‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫‪ .6‬שונות הניבויים ושונות הטעויות‬
‫פרוק השונות הכללית של התצפיות )בדומה לפרוק שהתבצע בניתוח שונות( לשני רכיבים‬
‫שמהם מתקבלות שתי שונויות‪) .‬נספח(‬
‫שונות הניבויים‪:‬‬
‫‪∑(GX G?)Y‬‬
‫שונות הטעויות‪:‬‬
‫‪∑(GX GX )Y‬‬
‫‪V‬‬
‫=‬
‫)‪V‬‬
‫=‬
‫(‪TTU-‬‬
‫‪V‬‬
‫‪TTU-T‬‬
‫)‪V‬‬
‫ = )‪ŜG‬‬
‫ = ‪ZSQ"S‬‬
‫)‪ZSQ"S [\\\\\\\\] σ‬‬
‫אומדןחסרהטיה‬
‫)‪_(ZSQ"S) = σ‬‬
‫‪ .7‬אחוז השונות המוסברת‪:‬‬
‫"‪SSQ‬‬
‫ = )‪Q‬‬
‫@‪SS‬‬
‫אחוז השונות המוסברת‪ -‬שיעור ההבדלים במשתנה התלוי )‪ (Y‬שניתן לייחס לקשר הליניארי‬
‫עם המשתנה הבלתי תלוי )‪(X‬‬
‫אחוז השונות שאינה מוסברת‬
‫‪SSQ"S‬‬
‫@‪SS‬‬
‫ = )‪1 − Q‬‬
‫שיעור ההבדלים במשתנה התלוי )‪ (Y‬שלא ניתן לייחס לקשר עם הבלתי תלוי )‪ .(X‬כלומר‪,‬‬
‫שיעור הטעויות )סטיות מהניבוי( מתוך כלל ההבדלים במשתנה התלוי‪.‬‬
‫)‬
‫̂‪1 − Q ) = QG-‬‬
‫‬
‫דוגמא‬
‫כל הזכויות שמורות©‬
‫‪19‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫סיכום מודל רגרסיה ו ‪L.S.E‬‬
‫הנחות המודל‬
‫במונחי התפלגות המותנה של ‪Y‬‬
‫‪1.‬‬
‫‪yi‬‬
‫במונחי הטעויות‬
‫‪ε i .1‬‬
‫בלתי תלויים‬
‫‪ .‬לכל ערך קבוע של ‪xi‬‬
‫‪2‬‬
‫‪,‬‬
‫‪.2‬‬
‫בלתי תלויים‬
‫לכל ערך קבוע של ‪ε i ~ Ν (0, σ 2 ) , xi‬‬
‫) ‪yi x = xi ~ N (α + βxi , σ 2‬‬
‫מאחר ו ‪ σ 2‬היא שונות הטעויות היא מסומנת גם כ ‪σ e2‬‬
‫נשים לב במודל הקבוע‪:‬‬
‫‪ .I‬שונות ערכי ‪ y‬עבור ערך קבוע של‬
‫‪xi‬‬
‫זהה לשונות הטעויות עבור אותו ערך של‬
‫‪xi‬‬
‫‪.‬‬
‫‪ .II‬צורת ההתפלגות של ערכי ‪ y‬זהה לצורת ההתפלגות של ערכי הטעויות עבור אותו ערך של‬
‫‪xi‬‬
‫‪.‬‬
‫הפרמטרים אותם יש לאמוד הם‪:‬‬
‫) ‪α , β , σ 2 = (σ e2‬‬
‫נאמוד אותם במדגם באמצעות קו הריבועים הפחותים‪.‬‬
‫‪.1‬‬
‫בחישוב הקו במדגם אנו מחפשים את הקו שיביא למינימום את סכום ריבועי הסטיות ממנו‪,‬‬
‫כלומר‪:‬‬
‫‪− yˆ i ) 2 ⇒ Min‬‬
‫‪i‬‬
‫‪∑(y‬‬
‫או ‪MSRES‬‬
‫⇒ ‪Min‬‬
‫לפי עיקרון זה בנינו את הקו המבוסס על עיקרון הריבועים הפחותים)‪.(L.S.E.‬‬
‫‪.2‬‬
‫עפ"י עיקרון זה מצאנו את ˆ‪ α‬ו‪ βˆ -‬ויכולנו לאמוד את ‪ yˆi‬ע"י ‪yˆ i = αˆ + βˆxi :‬‬
‫בשיטה זו ‪yi = yˆi + eˆi‬‬
‫‪.3‬‬
‫‪.‬‬
‫תכונות קו הריבועים הפחותים ) ללא הנחות על צורת ההתפלגות(‬
‫‪ .I‬ממוצע הטעויות אפס‪.‬‬
‫כל הזכויות שמורות©‬
‫‪20‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫‪ .II‬ממוצע האומדנים שווה ל‪. ( yˆ = y ) y -‬‬
‫‪ .III‬הקו עובר דרך נקודת הממוצעים‪:‬‬
‫‪ .IV‬המתאם בין הטעויות לניבויים שווה ל ‪.0‬‬
‫‪.4‬‬
‫)‪(ryˆeˆ = 0‬‬
‫‪.‬‬
‫פרוק סכום הריבועים לשונות מוסברת ולשונות לא מוסברת‪SSy=SSREG+SSRES :‬‬
‫)אי תלות בין שני החלקים(‪.‬‬
‫‪.5‬‬
‫חישוב הפרופורציות‪ r 2 :‬ו‪1 − r 2 -‬‬
‫פרופ’ שונות בלתי מוסברת‬
‫פרופ’ שונות מוסברת‬
‫פרופורציות אלו משמשות לניתוח ממצאי המדגם‪.‬‬
‫‪. 6‬‬
‫תכונות האומדנים‪:‬‬
‫א‪yˆ i = αˆ + βˆxi .‬‬
‫הינו אומדן חסר הטייה )א‪.‬ח‪.‬ה‪ (.‬ל‬
‫) ‪= E ( y i x = xi‬‬
‫‪x = xi‬‬
‫‪µy‬‬
‫כאשר ˆ‪ β‬א‪.‬ח‪.‬ה‪ .‬ל ‪ β‬ו ˆ‪ α‬א‪.‬ח‪.‬ה‪ .‬ל ‪α‬‬
‫ב‪.‬‬
‫‪ MSRES‬הוא אומדן חסר הטיה לשונות הטעויות ‪σ e 2‬‬
‫אומדן חסר הטיה לשונות התפלגות‬
‫אלה שוות לכל ערך של ‪xi‬‬
‫)‪SSRES ˆ 2 (1 − r 2 )(n − 1‬‬
‫‪= Sy‬‬
‫‪n−2‬‬
‫‪n−2‬‬
‫כל הזכויות שמורות©‬
‫‪y x = xi‬‬
‫ולכן לפי הנאמר לעיל הוא‬
‫לכל ערך של‬
‫‪xi‬‬
‫)הנחנו ששונויות‬
‫(‬
‫= ‪MSRES‬‬
‫‪21‬‬
3 ‫לימודיה בסטטיסטיקה‬
‫ שאריות‬,‫ ניבויי‬,(‫ מכירות )תלוי‬,(‫משתני הרגרסיה והמדדי שלה פרסו )ב"ת‬
Case Summariesa
1
2
(missing) 3
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Total
N
Mean
Sum of
Squars
X advertise
expenses
3.70
6.00
.
6.10
9.00
12.50
12.50
12.50
12.50
15.00
22.50
24.00
25.00
26.60
31.90
35.00
37.60
38.60
40.00
41.20
42.30
42.60
43.50
50.00
52.00
60.00
25.00
28.10
Y sales
55.00
85.00
78.00
89.00
82.00
100.00
148.00
155.00
111.00
81.00
77.00
191.00
127.00
250.00
312.00
222.00
541.00
266.00
126.00
379.00
312.00
140.00
400.00
338.00
650.00
994.00
25.00
249.24
PRED =
-41.586+10.348*X
-3.30
20.50
.
21.54
51.55
87.77
87.77
87.77
87.77
113.64
191.25
206.77
217.12
233.68
288.52
320.60
347.51
357.85
372.34
384.76
396.14
399.25
408.56
475.82
496.52
579.31
25.00
249.24
RES
=Y-PRED
58.30
64.50
.
67.46
30.45
12.23
60.23
67.23
23.23
-32.64
-114.25
-15.77
-90.12
16.32
23.48
-98.60
193.49
-91.85
-246.34
-5.76
-84.14
-259.25
-8.56
-137.82
153.48
414.69
25.00
.00
6430.91
1139036.56
688654.22
450382.34
a. Limited to first 100 cases.
22
©‫כל הזכויות שמורות‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫השוואה בין ‪ ab‬ל‪cdeb -‬‬
‫‪ab‬‬
‫‪cdeb‬‬
‫דומה‬
‫שניהם מייצגים אחוז )שיעור( הבדלים במשתנה התלוי שניתן‬
‫לייחס לקשר עם הבלתי תלוי‬
‫שונה‬
‫•‬
‫סוג הקשר‬
‫•‬
‫סוג המשתנים‬
‫•‬
‫כיוון הקשר‬
‫קשר כלשהוא‬
‫הב"ת‪ -‬איכותי‬
‫התלוי‪ -‬כמותי‬
‫א‪-‬סימטרי‪ :‬מהב"ת לתלוי‬
‫קשר ליניארי בלבד‬
‫שני המשתנים כמותיים‬
‫סימטרי‬
‫עבור אותם נתונים )במידה וזה אפשרי( ) ‪_gh) ≥ Q‬‬
‫למשל‪ :‬קשר בין "‪:‬מס' ילדים במשפחה" ל"הכנסת ראש המשפחה"‬
‫רגרסיה מתוקננת‬
‫זוהי משוואת הקו הישר המתקבלת לאחר טרנסופרמציה של הציונים הגולמיים לציוני תקן‪,‬‬
‫מקדמיה מכונים מקדמי הרגרסיה המתוקננים‪.‬‬
‫התקנון מאפשר יצירת ציונים ברי השוואה‪ .‬ציוני תקן אלה הם ציונים יחסיים ויש‬
‫באפשרותנו להשוות משתנים שונים על סולם שונה ע"י זה שהופכים אותם לציונים‬
‫יחסיים‪.‬‬
‫רוצים לנבא את ציון התקן של המשתנה התלוי )‪ (Y‬באמצעות ציון התקן של הב"ת‬
‫)‪(X‬‬
‫‪0 + Aj iB‬‬
‫∝= <‪i0‬‬
‫‪= QBG‬‬
‫סטיות התקן של סדרות ציוני תקן‪Ŝkm = Ŝkl = 1:‬‬
‫כל הזכויות שמורות©‬
‫‪T̂nm‬‬
‫‪T̂nl‬‬
‫‪Aj = Qklkm‬‬
‫‪j‬‬
‫???‪o = i‬‬
‫‪G − A iB = 0‬‬
‫‪23‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫???‪i‬‬
‫ממוצעים של סדרות ציוני תקן‪G = iB = 0 :‬‬
‫ולכן‪:‬‬
‫‪i0< = Q ∗ iB‬‬
‫מקדם השיפוע של המשוואה בציוני תקן ) ‪ (β3 k‬הוא מקדם המתאם הליניארי‬
‫משמעות השם‪ :‬רגרסיה לממוצע‪ -‬הניבוי של ‪ Y‬יהיה קרוב יותר לממוצע מאשר‬
‫ערך ה‪ X -‬ממנו הוא הופק‪.‬‬
‫כל הזכויות שמורות©‬
‫‪24‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫בדיקת מובהקות משוואת הרגרסיה הפשוטה‬
‫השערות ‪q ∶ β = 0‬‬
‫‪q ∶ β ≠ 0‬‬
‫אזור דחייה‬
‫⟺‬
‫⟺‬
‫)‬
‫‪q ∶ ρ = 0‬‬
‫)‬
‫‪q ∶ ρ ≠ 0‬‬
‫הנחות‪:‬‬
‫‪ -1‬דגימה מקרית של תצפיות בלתי תלויות‬
‫‪ε9 ∼ u(0, v ) ) -2‬עבורכל ‪M9‬‬
‫טבלת מקור השונות‬
‫תוחלת‬
‫‪Mean Squares‬‬
‫‪F‬‬
‫ממוצע ריבועי הסטיות‬
‫)‪F > F1,n−2 (α‬‬
‫‪MSREG‬‬
‫‪MSRES‬‬
‫‪1‬‬
‫)‪r 2 (n − 2‬‬
‫‪2‬‬
‫= ‪E (MSREG) = σ‬‬
‫) ‪(1 − r 2‬‬
‫‪n‬‬
‫‪= σ 2 + β 2 ∑ ( xi −‬‬
‫‪D‬‬
‫‪f‬‬
‫‪n‬‬
‫קו‬
‫רגרסיה‬
‫)שיפוע(‬
‫)המשתנ‬
‫ה‬
‫הב"ת‬
‫‪(x‬‬
‫‪n‬‬
‫‪∑ (yˆ i −‬‬
‫=‪F‬‬
‫‪Sum of Squares‬‬
‫סכו ריבועי הסטיות‬
‫מקור‬
‫השונות‬
‫‪i =1‬‬
‫‪2‬‬
‫= )‪SSREG= ∑(yˆi − y‬‬
‫= ‪MSREG‬‬
‫‪= r 2 ⋅ SSY‬‬
‫‪i=1‬‬
‫‪n‬‬
‫‪2‬‬
‫‪= r ⋅ SSY‬‬
‫‪1‬‬
‫)‪∑(y − y‬‬
‫‪2‬‬
‫‪i‬‬
‫‪2‬‬
‫‪r‬‬
‫‪i=1‬‬
‫‪i =1‬‬
‫‪Η0‬‬
‫‪F ~ F1,n −2‬‬
‫שאריו‬
‫ת‪/‬‬
‫טעויות‬
‫‪n‬‬
‫ˆ‪∑ (y i − y‬‬
‫‪MSRES= i =1‬‬
‫‪n−2‬‬
‫‪(1 − r ) ⋅ SSY‬‬
‫=‬
‫‪n−2‬‬
‫‪2‬‬
‫= ) ‪SSRES = ∑ (y i − yˆ i‬‬
‫‪2‬‬
‫‪E ( MSRES ) = σ‬‬
‫‪n‬‬
‫‪i =1‬‬
‫‪n‬‬‫‪2‬‬
‫‪n‬‬
‫= ‪(1 − r 2 ) ∑ ( y i − y ) 2‬‬
‫‪i =1‬‬
‫‪2‬‬
‫‪(1 − r ) ⋅ SSY‬‬
‫כל הזכויות שמורות©‬
‫‪25‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫אזור דחייה‬
‫‪F‬‬
‫תוחלת‬
‫‪Mean Squares‬‬
‫ממוצע ריבועי הסטיות‬
‫‪D‬‬
‫‪f‬‬
‫‪SSY‬‬
‫= ‪Sˆ 2y‬‬
‫‪n -1‬‬
‫‪n‬‬‫‪1‬‬
‫‪Sum of Squares‬‬
‫סכו ריבועי הסטיות‬
‫מקור‬
‫השונות‬
‫סה"כ‬
‫‪n‬‬
‫‪SSY = ∑ (y i − y ) 2‬‬
‫‪i =1‬‬
‫הסקה מהקו במדגם לקו באוכלוסיה‬
‫אנו שואלים האם המשוואה מובהקת‪ ,‬כלומר האם לפחות אחד מהמשתנים הב"ת יש לו‬
‫תרומה בעלת ערך לניבוי ‪Y‬‬
‫ברגרסיה חד משתנית השאלה האם המשוואה מובהקת זהה לשאלה האם המקדם ‪ β‬שונה‬
‫מ‪0-‬‬
‫כלומר‪ ,‬למשתנה ‪ X‬יש תרומה בעלת ערך לניבוי ‪Y‬‬
‫ברגרסיה חד משתנית השאלה האם המשוואה מובהקת זהה גם לשאלה האם המתאם הקווי‬
‫באוכ' שווה ל‪ .0-‬אם ‪ ρ‬שונה מ‪ 0-‬זה אומר שגם ‪.0≠ρ2‬‬
‫השפעת קיצוץ תחום על גודל האפקט ∆‬
‫קיצוץ תחום בהנחה שההתפלגות היא נורמלית מקטין את גודל האפקט‪ ,‬מכיוון שגודל‬
‫האפקט הוא מכפלה של ‪ β2×ssx‬וככל ש‪ ssx‬קטן‪ ,‬יקטן גודל האפקט‪.‬‬
‫ככל שנקצץ יותר תחום כך המתאם יהיה חלש יותר‪.‬‬
‫כל הזכויות שמורות©‬
‫‪26‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫הסקה על מקדם השיפוע ‪β‬‬
‫השיפוע במדגם )‪ (Aj‬מהווה אומדן עבור השיפוע באוכלוסיה )‪(β‬‬
‫תחת הנחות המודל‬
‫‪ -1‬דגימה מקרית של תצפיות בלתי תלויות‬
‫‪ε9 ∼ u(0, v ) ) -2‬עבורכל ‪M9‬‬
‫ניתן לדעת את התפלגות הדגימה של ‪ Aj‬ובעזרתה לבצע הסקה ספציפית על השיפוע‬
‫באוכלוסייה – ‪.β‬‬
‫התפלגות הדגימה של ‪Aj‬‬
‫)‪v‬‬
‫)‬
‫‪SSM‬‬
‫‪Aj ~N(A,‬‬
‫מדובר בעצם בהסקה על פרמטר )‪ (A‬כאשר השונות באוכלוסייה אינה ידועה ולכן‬
‫נשתמש בהתפלגות ‪t‬‬
‫)‬
‫‪ msres‬אומדן חסר הטיה ל‪.v -‬‬
‫רווח סמך ל‪ β -‬ברמת בטחון ‪1-α‬‬
‫נוסחת חישוב‪:‬‬
‫‪∝ ZSQ"S‬‬
‫|) ( ){ ‪Aj ± t‬‬
‫‬
‫‪2‬‬
‫‪SSM‬‬
‫בדיקת השערות‬
‫השערות‪:‬‬
‫כל הזכויות שמורות©‬
‫‪q : A = A‬‬
‫‪q : A ≠ A‬‬
‫‪27‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫סטטיסטי המבחן‪:‬‬
‫)‪~V‬‬
‫כלל החלטה‪:‬‬
‫‪Aj − A‬‬
‫‪ZSQ"S‬‬
‫|‬
‫‪SSM‬‬
‫= ‪t }P‬‬
‫∝‬
‫) ( ){ ‪~t }P ~ > t‬‬
‫דוחים את השערת האפס אם‬
‫)‬
‫‪0 + Aj M‬‬
‫∝= @ אומדן חסר הטיה ל ‪µ0‬‬
‫הניבוי של קו הרגרסיה במדגם מהווה אומדן נקודתי לתוחלת של ‪ Y‬באותה נקודת‬
‫‪.X0‬‬
‫ ̂‪@ = F‬‬
‫תחת הנחות ‪ (1‬ו‪ (2 -‬של מודל הרגרסיה‬
‫התפלגות הדגימה של ̂‪F‬‬
‫‪(B B̅ )Y‬‬
‫))‬
‫‪TTB‬‬
‫‬
‫‪F̂ ~u(F , v ) (V +‬‬
‫רווח סמך ל‪ μ -‬ברמת בטחון ‪1-α‬‬
‫נוסחת חישוב‪:‬‬
‫∝‬
‫‪(B B̅ )Y‬‬
‫‬
‫) ‪F̂ ± t {) ( ) ∙ |ZSQ"S(V + TTB‬‬
‫‪2‬‬
‫כל הזכויות שמורות©‬
‫‪28‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫רגרסיה רב משתנית‬
‫הרעיון של הרגרסיה המרובה אומר שעד עכשיו כשרצינו להסביר את השונות של ‪Y‬‬
‫ניסינו להסבירה על ידי משתנה אחד‪ ,‬ברוב המקרים משתנה אחד יצליח להסביר משהו‬
‫מאוד מוגבל וייתכן ויש עוד משתנים שיכולים להסביר את המשתנה התלוי‪.‬‬
‫לדוגמא לא רק השכלה מסבירה את ההבדלים שקיימים בהכנסות של אנשים אלא קיימים‬
‫הרבה משתנים‬
‫הרעיון המרכזי של הרגרסיה היא‪ ,‬אם רוצים להסביר את המשתנה התלוי אזי ניקח את כל‬
‫המשתנים הרלוונטים לתאוריה מסויימת ובעזרתם נסביר‪.‬‬
‫הכוונה לכל השמתנים‪ -‬מינימום משתנים ומקסימום הסבר‪ ,‬לא כל משתנה נכניס לרגרסיה‬
‫הרגרסיה המרובה בנויה על פי עקרונותיה של הרגרסיה הפשוטה‪ -‬נבנה את הקו על פי‬
‫מודל ‪ LSE‬ושלמשתנים יש מגמה לינארית‪.‬‬
‫רגרסיה דו משתנית‬
‫רגרסיה דו משתנית היא בעצם רגרסיה רב משתנית עם ‪ 2‬משתנים ב"ת‬
‫נוסחא‪:‬‬
‫‪ -ry1‬המתאם בין ‪ Y‬ל‪X1-‬‬
‫‪ -ry2‬המתאם בין ‪ Y‬ל‪X2-‬‬
‫‪ -r12‬המתאם בין ‪ X1‬ל‪X2-‬‬
‫‪Y „U Y )U U U‬‬
‫ƒ‪Um‬‬
‫‪mƒ mY ƒY‬‬
‫‪mY‬‬
‫‪Y‬‬
‫‪UƒY‬‬
‫=‬
‫)‚‬
‫מכאן עולה שאחוז השונות המוסברת של ‪ Y‬באמצעות הב"ת תלוי גם במידת החפיפה‬
‫)הקשר הליניארי( בין הב"ת‪.‬‬
‫אם הקשר ביניהם חזק אז סה"כ אחוז השונות המוסברת אינו גבוה משמעותית מאחוז‬
‫השונות המוסברת של הגבוה מביניהם‪ .‬תופעה של קו‪-‬ליניאריות‪.‬‬
‫כל הזכויות שמורות©‬
‫‪29‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫אם הקשר ביניהם חלש )שואף לאפס( אז אחוז השונות המוסברת הכללי דומה לסכום‬
‫של אחוזי השונות המוסברת של ‪ Y‬באמצעות כל אחד מהב"ת )הדבר נכון גם כשיש‬
‫יותר משני משתנים ב"ת(‬
‫מצב שבו אחוז השונות המוסברת גדול מסכום אחוזי השונות המוסברת של ‪Y‬‬
‫באמצעות כ"א מהב"ת יכול לקרות רק אם יש קשרים שליליים במודל‪.‬‬
‫מקדמי משוואת הרגרסיה במדגם )ברגרסיה דו‪-‬משתנית(‬
‫ציוני גלם‬
‫)‪0 + Aj M + Aj) M‬‬
‫∝= @‬
‫<‪QG − QG) Q) s‬‬
‫‪j‬‬
‫= ‪A‬‬
‫∗‬
‫)‬
‫‪s‬‬
‫)‪1 − r‬‬
‫<‪QG) − QG Q) s‬‬
‫∗‬
‫= )‪Aj‬‬
‫)‬
‫)‪s‬‬
‫)‪1 − r‬‬
‫) )̅‪0 = @? − (Aj M̅ + Aj) M‬‬
‫∝‬
‫אם ‪ r12=0‬אז מקדם הרגרסיה החלקי ) '‪ ( Aj‬במשוואה הרב משתנית שווה למקדם‬
‫הרגרסיה של אותו משתנה במשוואה חד‪-‬משתנית‪.‬‬
‫ציוני תקן‬
‫‪j‬‬
‫‪j‬‬
‫…‪i‬‬
‫)=‪G = Ak i= + Ak) i‬‬
‫)‪QG − QG) Q‬‬
‫)‬
‫)‪1 − r‬‬
‫)‪QG) − QG Q‬‬
‫=‬
‫)‬
‫)‪1 − r‬‬
‫= †‪Aj‬‬
‫)‪Ajk‬‬
‫באמצעות המשוואה בציוני תקן ניתן להשוות בין המשתנים הב"ת בתרומה היחסית‬
‫שלהם לניבוי‪ .‬המשתנה עם המקדם הגדול ביותר בערכו המוחלט הוא זה בעל‬
‫המשקל הרב ביותר לניבוי‪.‬‬
‫באופן כללי‬
‫‪ŜG‬‬
‫'̂‪S‬‬
‫כל הזכויות שמורות©‬
‫'‪Aj' = Ajk‬‬
‫‪30‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫רגרסיה רב משתנית‬
‫המטרה ברגרסיה מרובה היא לאמוד את המשתנה התלוי באמצעות קשר קווי עם סדרת‬
‫משתנים ב"ת הרלוונטים לתיאוריה מסויימת‬
‫גם ברגרסיה מרובה נשתמש בעקרון הריבועים הפחותים כדי לבנות במדגם קו אופטימלי‬
‫שסכום ריבועי הסטיות ממנו הוא מינימלי‬
‫למשל‪ ,‬בניבוי מחיר הדירה באמצעות השטח‪ ,‬הקומה וגיל המבנה יש תוחלת מסוימת‬
‫למחיר הדירה עבור שטח ‪ 80‬מ"ר‪ ,‬קומה ‪ 1‬וגיל ‪ 10‬שנים ותוחלת שונה למחיר דירה עם‬
‫שטח ‪ 81‬מ"ר‪ ,‬קומה ‪ 1‬וגיל ‪ 10‬שנים‪.‬‬
‫‪ -K‬מס' משתנים ב"ת‬
‫רב משתנית‬
‫חד משתנית‬
‫ˆ‪FG' = o + ABƒ + A)BY + A‡B‬‬
‫'‪FG' = o + AB‬‬
‫קו האוכ'‬
‫‪D‬‬
‫‰‬
‫‪@ = o + AD‬‬
‫ˆ‪Bƒ + A)BY + A‡B‬‬
‫'‪@' = o + AjB‬‬
‫מדגם‬
‫'‪@' = FG' + H‬‬
‫ערך אמיתי באוכ'‬
‫'̂" ‪@' = @' +‬‬
‫'̂" ‪@' = @' +‬‬
‫ערך אמיתי במדגם‬
‫'‪Š' = FG' + H‬‬
‫• בסופו של עניין המטרה היא להסביר כמה שיותר מהשונות של ‪ y‬ע"י כמה‬
‫שפחות משתנים‬
‫• נשאף למצוא את המשתנים הב"ת בעלי הקשר הקוי החזק עם המשתנה התלוי‬
‫אך נשתדל שבינם לבין עצמם המשתנים יהיו עם מתאמים חלשים‪.‬‬
‫כאשר ‪ 2‬משתנים ב"ת קשורים זה לזה במתאם חזק נכנה את התופעה‪ -‬מולטיקוליניאריות‬
‫כל הזכויות שמורות©‬
‫‪31‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫פרוק השונות הכללית ‪ :‬זהה לזה ברגרסיה פשוטה רק בהבדל בכך שהניבוי כעת הוא‬
‫תוצר של משוואה רב משתנית‬
‫‹_‚‹‹ ‪‹‹Š = ‹‹‚_Œ +‬‬
‫)) '@ ‪8(@' − @?)) = 8(@' − @?)) + 8(@' −‬‬
‫בהתאם לזה נוכל לקבל את‪:‬‬
‫שונות הטעויות במדגם‪:‬‬
‫‪∑(@ −@ )2‬‬
‫)„‡(‪V‬‬
‫=‬
‫Ž‬
‫)„‡(‪V‬‬
‫ = ‹_‚‹‬
‫מכיוון שלניבוי משתמשים ב‪0 Aj , Aj) , … Aj‡ -‬‬
‫‪ k+1) ∝,‬אומדנים מהמדגם( אז דרגות‬
‫החופש המתאימות הן ‪ .n-(k+1) :‬דבר זה מבטיח ששונות הטעויות במדגם מהווה אומדן‬
‫חסר הטיה לשונות הטעויות באוכלוסיה‪.σ2 -‬‬
‫אחוז השונות המוסברת‪:‬‬
‫‘Ž‬
‫’‬
‫= ) ‚‪ -‬שיעור ההבדלים במשתנה התלוי שניתן‬
‫לייחס לקשר הליניארי עם קבוצת המשתנים הבלתי תלויים‪.‬‬
‫מתאם מרובה‪ - ‚ = +√‚ ) :‬מציין רק את עוצמת הקשר הליניארי בין המשתנה‬
‫התלוי לקומבינציה הליניארית של המשתנים הבלתי תלויים‪.‬‬
‫רגרסיה מרובה‬
‫‪SSQ"S‬‬
‫‪”−•−1‬‬
‫רגרסיה חד‬
‫משתנית‬
‫‪ZSQ"S‬‬
‫‪SSQ"S‬‬
‫=‬
‫‪”−2‬‬
‫‪√ZSQS‬‬
‫"‪SSQ‬‬
‫= )‪Q‬‬
‫@‪SS‬‬
‫= ‪ZSQ"S‬‬
‫‪√ZSQS‬‬
‫‪ -R2‬ריבוע המתאם המרובה‬
‫‪ .1‬‬
‫"‪SSQ‬‬
‫= )‚‬
‫@‪SS‬‬
‫‪‚ ) = –Q—@', @' ˜™.2‬‬
‫‪.3‬‬
‫‪Y „U Y )U U U‬‬
‫ƒ‪Um‬‬
‫‪mƒ mY ƒY‬‬
‫‪mY‬‬
‫‪Y‬‬
‫‪UƒY‬‬
‫כל הזכויות שמורות©‬
‫שונות הטעויות‬
‫סטיית תקן של טעויות‬
‫פרופורציית השונות‬
‫המוסברת של ‪y‬‬
‫חישוב ‪R2‬‬
‫= )‚‬
‫‪32‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫‪ADJ.R2‬‬
‫זוהי פרופרוציה מוסברת של ‪ y‬על ידי ‪ x‬הלוקחת בחשבון את מס' המשתנים הב"ת‬
‫המסבירים את ‪ .y‬כאשר נוסיף משתנה שלא תורם משמעותית לניבוי ה ‪ adj.R2‬עלול לרדת‬
‫באמצעות זה נוכל לקבוע במדגם מהי הקומבינציה האופטימלית לניבוי ‪.y‬‬
‫מולטיקוליניאריות‬
‫שאלה שחוזרת על עצמה היא האם יש מולטיקוליניאריות‬
‫ישנם כמה דרכים לבדוק‪:‬‬
‫‪ .1‬ריבוע המתאם המרובה מול סכום ריבועי המתאמים הפשוטים‪.‬‬
‫‪ .2‬המקדמים הגולמיים מול מקדם מרגרסיה חד משתנית‬
‫‪ .3‬מקדמים מתוקננים )בציוני תקן( מול מקדמים מתוקננים בחד משתנית‬
‫כל הזכויות שמורות©‬
‫‪33‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫שיטות להרצת רגרסיה‬
‫‪.1‬רגרסיה בצעדים )‪:(stepwise‬‬
‫בשיטה זו למחשב יש שליטה בלעדית על סדר הכנסת המשתנים במשוואה על פי‬
‫קריטריונים מסוימים‬
‫א‪.‬קודם מכניס אך ורק משתנים מובהקים‪ ,‬הראשון שיכנס יהיה המשתנה שיש לו את‬
‫המתאם הגבוה ביותר בתנאי שהוא מובהק‪.‬‬
‫ב‪ .‬המשתנה הבא שיכנס זה המשתנה החלקי בעל המתאם הגבוה ביותר‪ ,‬בתנאי שהוא‬
‫מובהק‪.‬‬
‫ג‪.‬המתאם החלקי הכי גבוה אחרי ניקוי החפיפות‪.‬‬
‫המחשב יעצור שיהיה לו מתאם חלקי לא מובהק‪ ,‬יש אפשרות שכולם יכנסו )המצב‬
‫האידיאלי בשביל החוקר(‬
‫אחרי כל צעד הוא נותן את כל הרגרסיה ז"א שבהתאם למספר המשתנים שנכנסו יהיו‬
‫באותה הכמות משוואות‪ .‬לפעמים קורה שמשתנה נכנס נניח ‪ x2‬ואחריו נכנס ‪ x3‬וכשהוא‬
‫נכנס הוא היה מובהק ובעקבות כניסתו של ‪ x3‬נוצר מצב ש‪ x2‬מאבד את מובהקותו ואז הוא‬
‫יוצא‬
‫‪.2‬רגרסיה היררכית‪:‬‬
‫שליטה מלאה של החוקר להכנסת המשתנים הב"ת למשוואה‪ ,‬המחשב לא מתערב בדרך‬
‫כלל מה שקורה כאשר מבצעים מחקר יש הגיון מתוך התיאורייה מה יכנס קודם ומה יכנס‬
‫אח"כ‪ .‬קודם כל החוקר יכניס משתנים סוציו אקונומים‪ ,‬גיל‪ ,‬הכנסה והשכלה כי קודם זה‬
‫מה שיש לאדם אח''כ הוא מנסה לראות אם משתנה המחקר שלו הוא מעבר למשתני אדם‪.‬‬
‫החוקר יכול להחליט אם הוא מכניס משתנה אחד או יותר‪ ,‬איך שבא לו מבחינת התאורייה‪,‬‬
‫החוקר בונה את זה בבלוקים‬
‫מכיוון שהמחשב לא מתערב גם אם יש משתנים שאינם מובהקים זה יוכנס פנימה למשוואה‬
‫‪:enter .3‬‬
‫כל המשתנים נכנסים בבת אחת בשלב אחד‪.‬‬
‫כל הזכויות שמורות©‬
‫‪34‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫תוספות ותרומה‬
‫תרומה יחודית‪:‬‬
‫נניח שיש ‪ 5‬משתנים ב"ת כעת שאנו מדברים על תרומה ייחודית זה בעצם מה המשתנה‬
‫הזה באופן בלעדי תורם למשוואה‪ ,‬ללא חפיפות עם משתנים אחרים‪.‬‬
‫תרומה מחושבת תמיד על משתנה אחד בודד במשוואה סופית כשכל המשתנים נכנסו‬
‫למשוואה‪.‬‬
‫תוספת לניבוי‪ -‬מה משתנה אחד או יותר הוסיפו לניבוי על המשתנים שקדמו להם בסדר‪,‬‬
‫וזה לא מחייב משוואה סופית‪.‬‬
‫חישוב תרומה יחודית‪-‬‬
‫חישוב גודל תוספת‪-‬‬
‫)‬
‫)‬
‫š‪− ‚G‬‬
‫š)‪‚G‬‬
‫)‬
‫)‬
‫š)‪‚G‬‬
‫)‪− ‚G‬‬
‫בדיקת מובהקות התוספת‬
‫השערות‪ :‬לפי המשתנים שהוספנו‬
‫למשל‪ q : β› = ✠= 0 ,‬כאשר ‪ X1,X2,X3‬נמצאים במודל‬
‫אחרת ‪q :‬‬
‫הנחות‪ 1,2,3 :‬של רגרסיה רב‪-‬משתנית‬
‫סטטיסטי המבחן‪:‬‬
‫)‬
‫)‬
‫‪—‚+,,‬‬
‫*‪− ‚ž+U‬‬
‫)‪˜⁄( !! − Ÿ Q‬‬
‫=‪F‬‬
‫‪) ⁄‬‬
‫‪(1 − ‚+,,‬‬
‫)‪) (” − !! − 1‬‬
‫דוחים את השערת האפס אם‪F > ¡¢££¤¢¥¦,{¢££ (∝) :‬‬
‫כל הזכויות שמורות©‬
‫‪35‬‬
‫לימודיה בסטטיסטיקה ‪3‬‬
‫תוספת‪ -‬דוגמא‬
‫במחקר מסוים רצו לנבא את רווחי החברה )‪(Y‬באמצעות שכר המנכ"ל )‪ ,(X1‬מחזור החברה )‪ ,(X2‬מס'‬
‫עובדים )‪ ,(X3‬סה"כ שעות עבודה )‪ .(X4‬נבדקו ‪ 100‬חברות ולפניכם הנתונים‪:‬‬
‫‪Q ) G = 0.2‬‬
‫‪‚ ) G) = 0.4‬‬
‫‪‚ ) G)š = 0.5‬‬
‫‪‚ ) G)š› = 0.7‬‬
‫א‪.‬‬
‫ב‪.‬‬
‫ג‪.‬‬
‫ד‪.‬‬
‫מהי התוספת של המשתנים מס' עובדים וסך שעות עבודה על שכר המנכ"ל ומחזור החברה?‬
‫האם התוספת מובהקת? בדקו בר"מ ‪.0.05‬‬
‫מהי התוספת של סך שעות עבודה על כל שאר המשתנים לניבוי הרווחים?‬
‫האם לסך שעות עבודה תרומה ייחודית מובהקת? בדקו בר"מ ‪.0.05‬‬
‫כל הזכויות שמורות©‬
‫‪36‬‬