הסתברות מ - Anat Etzion

:‫פונקצית התפלגות מצטברת‬
.
:‫שונות וסטיית תקן‬
:‫הגדרה‬
Fx ( x )  P ( X  x )
.‫לא יורדת‬
. lim
.
:‫רציף‬
f x ( x ) dx

Fx ( x ) 
)2
Fx ( x )
d
fx ( x ) 
)5
Fx ( x )
dx
lim
 Fx ( x )  1
)1
Fx ( x )  0
)3
x  
.‫רציפה מימין‬
.‫לכל פונקציה‬
F
‫וגם‬
f
:‫התפלגות משותפת ושולית‬
. V ar ( c )
‫קבוע אמ"מ‬
 0
SD ( X ) 
 x , y : PX Y  x , y   PX  x  PY  y 
‫אם הסתברות משותפת היא מכפלת שתי‬
,y ‫ והשנייה של‬x ‫ האחת של‬,‫פונקציות‬
‫תלות‬-‫ אזי ניתן להסיק שקיימת אי‬f ( x )  g ( y )
.‫בין המשתנים‬
‫קבוצות זרות של מ"מ‬-‫ פונקציות ותת‬:‫הערה‬
.‫בלתי תלויים הן בלתי תלויות‬
Var ( X )
  Y  E  Y | X   2 | X  :‫שונות מותנית‬
)6
U ni [ 0 , 1 ]
:‫תלות מ"מ בדידים‬-‫אי‬
‫מ"מ הם ב"ת אם"ם‬
‫אם‬
X ,Y
 V ar (Y
V ar  Y   E
X)
  V ar  E  Y X  
x
z
Z

2
z
1
2
e
2
Z
‫נורמלי‬
N ( 0 , 1)
:‫ואריאנס‬-‫קו‬
C ov ( X , X )  Var ( X )
  X 
C ov ( X , Y )  E
  Y  Y  
x
 E
 XY  
E  X 
E  X  E Y 
)


 P Z a
X
 

  a
P a Z b

 
 
C ov  X ,Y  
  b   a
N ( , 
Y
2
-‫ו‬
)
2
.
N ( , 
X
1
N (
X  Y
2
  ,
1
:‫סכום נורמלים‬
)
1
2
2
 
1
2
‫ גאמא‬: -‫ נורמלי ב‬.‫ מתפלגת קושי‬:‫מנת נורמלים‬
,‫ ש"ה‬,‫ב"ת‬
X

n
N ,
2 

n 


n
lim
X    , E X  
2
:‫נגדיר‬
Xi
Var
i
i 1

X
:‫משפט הגבול המרכזי‬
n
n
1

n
X 1 , X 2 , ..., X
n 
S n  n

P


  X i 
/
x  P( X  x)  
x
X 1 , X 2 , ..., X
 nx
x
f m in

)
d  c
S


n

 S n 1 e  S dS   n 1 !

 n  1 x 

X   a , b 

 P  a X b 

 a
 a
U ni [ 0, x ]
 b
f x ( x ) dx
1

(X | Y  y)   x  P(X  x | Y  y)
x
 (Y )    (Y | X  x )  P ( X  x )
x
‫פונקצית צפיפות של‬
.
:‫סטנדרטיזציה‬
 V ar  X

1


‫ ותמיד‬
fx ( x )  0
‫אם‬
fx ( x )
f x ( x ) dx  1
E X
xf X
 x y  dx
Y
:‫תוחלת של רציף‬
x  f x ( x ) dx

E g X


.N ‫ מ‬n ‫ ובוחרים‬n1
P (n

E Y  
x  f x ( x ) dx  
‫התוחלת קיימת רק כאשר‬




f x ( x )  y  fY

 

‫ב"ת‬
,
X i exp(  )
S
E
 X Y | X Y 

 y x  dy  dx



 EX
0
 
exp  p
:‫אז‬
P (T  t  s T t )  P (T  s )


 

2
V ar  X    x  f X  x dx    x  f X  x  dx 



 

.Y

Gamma n , 
X 1 , X 2 , ..., X
 ,Y
n
:Gamma ‫התפלגות‬
n


Xi
‫ נגדיר‬,
X
i 1
ˆ  X
2
1
   
2

  n    n 1    n  1 
 
 n
,
.
X


Gamma r , 
X  Y Gamma  r  s ,  
‫כנ"ל יתקיים‬
X,Y
 
G am m a 1 , 
 n 1 ! : ‫שלם‬
n
 exp
Y
.‫ המנה והסכום בשני הנ"ל ב"ת‬.
X Y
(X  Y Y )  (X Y )  Y

Gamma s , 

 
Beta r , s

ˆ  1 X
(X
(X
2
2

)   ( ( X
‫אז נקבל‬
| Y  y )  V ar ( X | Y  y )  (  ( X Y  y ))
‫ מ"מ ב"ת‬N .

exp 1/ 

‫תצפיות‬
 Xi
2

:‫ס"מ לשונות כשהתוחלת ידועה‬
:‫ס"מ לתוחלת כשהשונות ידועה‬
- B er  p  , exp    , P o is   
 ... 

N
 n


 Nk

 nk








B in

e
 k

M
n,
N M

.‫האירוע האחרון‬
k!
:‫מירוץ פואסון‬
pa

‫משני מאורעות בהסתברויות‬
pb  1
:wald ‫משפט‬
,
Xi
-‫בכל ה‬
…
f
 
X
:QQ-PLOT
n
1


e
1

X
1 
1
n
n   xi 
 1 


  e
e
 
:  -‫ ס"מ ל‬. S   X i :  -‫ס"מ ל‬
  ,   -‫ ס"מ ל‬. S
X
 xi   
 X
I{X
1 
1 
 }
.) h  x   1 ( S  X 1  ,  X i
F

x
X

p
 x
F
X
   P  X   
p
p
f
p

X


 1
 xi
S 
1
n
 2
 p    
p

:2-‫דוגמא‬
-‫ שברונית תיאורטיים‬:x ‫ציר‬
i / n 1
.‫ תצפיות ממוינות לפי הסדר‬:y ‫ציר‬
:‫דוגמא‬
‫מוצאים כיצד לבטא‬
p  i / n 1 ‫ ע"י‬
p

‫מוסיפים‬

n

:‫סטטיסטי מספיק‬

Xi
XN
 i / n 1
B er  p 
X
1
exp   
 -‫ ס"מ ל‬   ,
‫ב"ת‬
2
E  S N   EX EN   EN
U  0 ,
p X
  Xi  
EX i  
S N  X1
i
i/n+1
B in  n , p 
2
j  k) 


 N2 
 n 
 2 
. P o is ( p a   ), P o is ( p b   ) ‫מ"מים ב"ת שמתפלגים‬
‫ מתקיים פיצול לכל שתי אפשרויות של‬:!‫ב"ת‬
!‫ אלו שני פואסון ב"ת‬.‫"האנשים" שמגיעים‬
‫ כל ערך מתוך טווח‬:Uni(k,n) ‫התפלגות אחידה‬
.‫ מתקבל באותה הסתברות‬,‫ערכים מסוים‬
:‫ דוגמא‬-‫סטטיסטי מספיק‬
 ( X Y )   (  ( X Y | Y  y ))
| Y  y ))
P o is   
pˆ  X
  X i2 ,  X i 
2

2


 N1 
 n 
 1
| Y  y )  y   ( X | Y  y )  ( XY | Y )  Y   ( X | Y )
‫התפלגות‬
N  ,
2
  2X
‫כאשר‬
x   n ,   , ax   n ,  a 
‫© ענת עציון‬
XiX
ˆ  X
 
‫ עבור‬:Gamma ‫חילוק‬
X
n

n
x0
 ‫ אם‬:Gamma ‫חיבור‬
‫ב"ת אז‬
ˆ  X
 
  e   x  x n 1  e   x  x n 1
 
 


f X  x  
 n 
 n 1  !

otherw ise
0
1

ˆ  X
E xp 
i
‫מומנטים‬.‫ש‬
2
‫כאשר‬:‫מרובה סוגים‬
 n
k
‫ קטן אז‬p-‫ גדול ו‬n ‫ כאשר‬:‫קירוב פואסוני לבינומי‬
.   np ‫ניתן לקרב את הבינומי לפואסוני עם‬
!‫מג"מ‬-‫הערה! ניתן לעשות קירוב נורמלי לבינומי‬
Y
P ois (  ) , X
P ois (  ) :‫סכום פואסונים ב"ת‬
. ( X  Y ) P ois (    )
‫ ואז מתרחש אחד‬Z P ois (  ) ‫ אם‬:‫פיצול פואסון‬
f x ( x ) E ( Y X  x ) dx
(X  Y | Y  y)  (X | Y  y)  y
ˆ
 ..  n
 

X 1| X 1  X 2  n Bin  n , 1
1   2 

:‫נוסחאות נוספות‬
 P ( X  x ) dx ‫נוסחת הזנב‬
0
‫אנ"מ‬
of type 1 
‫אם‬
X
‫ אם‬. G ( t )  P ( T  t ) ‫ נגדיר‬, T ‫ נתון מ"מ‬:‫משפט‬
. T ~ E xp (  ) ‫ כך ש‬ ‫ קיים‬, G ( t  s )  G ( t )  G ( s )
,‫מ"מ ב"ת‬

.  1 ‫ אז‬, F  x  0 ‫ באזורים בהם‬:‫לב‬-‫לשים‬
:‫ שונות של רציף‬ ( X Y


j
n  N, D  N
 
N 
 
 n 
p  k 


 1 Fx ( x )  dx

:‫סכום עם גיאומטרי‬
N
 X
i
i 1

N
P(X  Y ) 
‫ לא היה‬t ‫ אם נתון כי עד רגע‬:‫תכונת חוסר זיכרון‬
‫ אז הזמן עד למופע הבא מתחיל מהתחלה‬,‫מופיע‬
.

:‫תחרות בין אקספוננציאלים‬
X ,Y
X ~ E xp (  ), Y ~ E xp (  ) 
N Geo ( p )
E X


 N D 
 nk 


‫ מספר האירועים‬:Pois(  )‫התפלגות פואסון בדידה‬
‫ אם ידוע כי הם מתרחשים בקצב‬,‫ביחידת זמן נתונה‬
‫ ובאופן ב"ת בפרק הזמן מאז‬  0 ‫ממוצע קבוע‬

X ~ Exp (  ), Y ~ Exp (  )  M in ( X , Y ) ~ Exp (    )
 
D
k 
 
X ~ HG (n, N , M )  X


X
 km11 p m q k  m
‫ גדול מאוד‬N ‫ כאשר‬:‫קירוב בינומי להיפר גיאומטרי‬
‫ אזי תוצאת החישוב עם ההחזרה‬, n -‫ביחס ל‬
‫(הבינומית) קרובה לתוצאת החישוב בלי החזרה‬
. p  D / N , n  n .)‫(ההיפר גיאומטרית‬
‫אז‬
‫במקרה הרציף‬
g  x  f x ( x ) dx
p k 
‫ בכד‬:HG(N,D,n) ‫גיאומטרית‬-‫התפלגות היפר‬
.‫ כדורים לבנים‬M -‫ כדורים שחורים ו‬N ‫נמצאים‬
‫ ההסתברות‬.‫ כדורים באקראי ללא החזרה‬n ‫מוציאים‬
.‫ כדורים שחורים‬k ‫שבין הכדורים שהוצאו נמצאים‬
 ( X )  (  ( X |Y ))  ( g ( Y ))

. 
:‫במקרה הרציף‬
 ( X | Y )  g (Y )


B (n, p)
k 1
‫אם‬
:‫נוסחת ההחלקה‬
:‫הסת' שלמה‬

:‫מינימום של אקספוננט הוא אקספוננט‬
k
X
B (m  n, p)
 ( X )    ( X | Y  y )  P (Y  y )
y


X ,Y




(X | Y  y) 
k
.
‫ב"ת אז‬
( X | Y )  ( X )


f X  x    f X |Y  x |Y  k  P  Y  k 
2

 x
x0
f X  x   e
otherw ise

0
 e
:‫תוחלת מותנית‬
,
‫הסתברות הצלחה‬
p
p . p ‫הסתברות ההצלחה בכל ניסוי היא‬
‫ אם ידוע שלא הייתה הצלחה עד לניסוי‬:‫חוסר זיכרון‬
‫ הינה‬m+k ‫ אז ההסתברות כי היא תקרה בניסוי‬m-‫ה‬
.‫עדיין כמו בנוסחה‬
:NB(m,p) ‫התפלגות בינומית שלילית‬
‫ית בדיוק‬- m -‫ההסתברות לקבל את ההצלחה ה‬
. p ‫ כאשר לכל ניסוי הסת' הצלחה‬k -‫בניסיון ה‬
:‫נוסחת הזנב‬

X
:‫מעבר לאקספוננט‬
X 
E
f x ( x ) dx
P  a X b   P  X b   P  X  a 
n 1
exp   


 0

( X )   P( X  k )
k 1
(
X 
a
FX ( x )  P ( X  a ) 
.


P  lim | X n   |  0  1
 x 

)



dx  0

U [ 0 , 1]
ba

 
bin / n
‫ אם‬:‫סכום בינומים‬
: ‫ בשניהם) אז‬p ‫(אותו‬
:Geo(p) ‫התפלגות גיאומטרית‬
-‫ההסתברות להצלחה ראשונה בנסיון ה‬
X  Y
P(k ) 
:‫ אז‬EX i
P |X n   |  0
:‫החזק‬
2
2

b
X a
,   ln 1U  
x
‫וגם‬
B (m, p)
‫כאשר‬
 nk  p k q n  k
‫כמו סכום של גיאומטרי‬
1 n

n i 1 X i  
a
otherw ise
 m in|m ax  x 

b
a xb
‫ אם‬:‫סטטיסטי הסדר‬
n 1
x e
 y)
Var  X   pq
EX  p
‫ עבור‬:‫חוק המספרים הגדולים‬
‫ לכל‬:‫החלש‬
:‫פונקצית הצפיפות‬
2
 1

f ( x )  ba
x
0

U  0 ,1 
n
U [a, b] 
 e
:‫תקנון‬
Xi
:‫התפלגויות רציפות‬
P
P(X  a)  e
 a  X b 

 x, Y
x y
-‫ב"ת ו‬
:‫אינטגרלים‬
d x 1
0
‫ זמן בין מאורעות‬:‫התפלגות אקספוננציאלית‬
.‫פואסון‬
P
x
 aE X  b
 ( XY )  ( X ) ( Y ) ‫ ב"ת אז‬X , Y ‫ אם‬:‫כלל הכפל‬
.‫ בלתי מתואמים‬:‫זוג מ"מ שמקיים את הנוסחה‬
E  XY     xyP  X  x ,Y  y  :‫לכל שני מ"מ‬
‫) לכל‬6
a
X
a  b
( X ) 
E ( X m in ) 

,   e

Y
 x)
0
Xi
i 1
b  a
2
n 1
U [ 0 ,1 ]
 ( g ( X ))   g ( x )  P ( X
x

2
e  z dz  
E aX  b
 ( g ( X , Y ))    g ( x , y )  P ( X
x y
n
n
X
‫קבוע‬
X  X
X *
:‫ כאשר‬,

‫מ"מ רציף אז‬
 ( X m ax ) 
)5

X *Y * 

2
N (n   , n 
12
n 1


E

:)‫התפלגות אחידה (יוניפורמית‬
(b  a )
 Z )  C ov ( Y , X )  C ov ( X , Z )
 0

 EX  EY
‫) אם‬1
X
)4
. C ov ( X , a )
‫כלומר‬
  (a)
-‫ו‬
 b , cY  d )  acC ov ( X , Y )
0
 0 ,1
FX  P ( c  X  d ) 
:‫ב"ת‬

i 1
n
:‫אז‬
C orr  X ,Y

a


n
U [ 0 ,1] f X  x  1
V ar ( X ) 
n 
. C ov ( aX
. C ov ( X , Y
 
 N 0 ,1

n
1
 N
n
X n 
‫כלומר‬
Y
.)‫ (ההפך לא בהכרח נכון‬.‫ בלתי מתואמים‬ ‫ב"ת‬
.‫ סימטריות‬- C ov ( X , Y )  C ov ( Y , X ) )3

i
 X Y 
E
‫ב"ת אז‬
 0
.‫ ב"ת‬X , Y  Cov ( X , Y )  0 ‫בד"כ ההיפך לא נכון‬
.‫ בלתי מתואמים‬X , Y ‫ אז‬C ov ( X , Y )  0 ‫) אם‬2
‫ב"ת אז‬
)
2
. C ov ( X , Y )
2
f m ax
 V ar  X  Y  V ar  X  V ar  Y  
1
2
2
P  k 
p k  q
x
F
.
‫ ההסתברות לקבל‬:Bim(n,p) ‫התפלגות בינומית‬
‫ ניסויים שלכל אחד‬n ‫ הצלחות בסדרה של‬k ‫בדיוק‬
:‫תוחלת‬
xP  X  x 

x R X
:‫פונקצית הסתברות של מ"מ‬
 1
‫ ניסוי בעל שתי תוצאות‬:Ber(p) ‫ניסוי ברנולי‬
: F -'‫ ו'כישלון‬S -'‫ 'הצלחה‬:‫האפשריות‬
:‫התפלגות שולית‬
PX  x    PXY  x , y 
y

:‫ניסויים ב"ת והתפלגויות בדידות‬
P  X  x ,Y  y   PX Y  x , y 
. Var  X |Y Var  X 
c
SD ( aX  b )  | a |  SD ( X )
)4
Fx ( x )
:‫ב"ת‬

0  p X x
‫ חיתוך המאורעות‬:‫התפלגות משותפת‬
2
  (( X   ( X )) )
Var ( X  Y )  Var ( X )  Var ( Y )
x  1  F ( x )   0
. lim
‫ אז‬E  X    ‫אם‬
‫ שימוש בטבלה עבור מ"מ‬:‫התפלגות נורמלית‬
x 
2
 Var ( X )
V a r (Y X )  E
x
X
)  (  ( X ))
V ar ( X  Y ) V ar ( X ) V ar ( Y )  2 C ov ( X ,Y )
.0
Fx ( x )  1
x 
:‫בדיד‬
P ( X t )
t x

2
Var ( aX  b )  a
x

Fx ( x ) 
2
V ar ( X )   ( X

2
Xi  X
2

1
n


n
  xi 
x i or
 XiX 
 1
 ln xi
2
p
.‫ הנחת ההתפלגות נכונה‬-‫קו ישר בגרף‬
  X i   2    X i  X     X  
2
2
‫) – חורף תשע"א‬324490( ‫מבוא לסטטיסטיקה‬
‫רווח סמך‪:‬‬
‫ר"ס להפרש תוחלות בשני מדגמים מזווגים‪:‬‬
‫בונים מדגם של הפרשים‬
‫ר"ס לתוחלת במדגם מהתפלגות נורמאלית‪:‬‬
‫כאשר ‪ ‬לא ידוע‪:‬‬
‫כאשר ‪ ‬ידוע‪:‬‬
‫‪X ‬‬
‫‪N  0 ,1 ‬‬
‫‪‬‬
‫‪Q‬‬
‫‪/ n‬‬
‫‪t  n 1 ‬‬
‫‪S‬‬
‫‪  X  z1  / 2‬‬
‫‪n‬‬
‫‪X ‬‬
‫‪ Di‬‬
‫‪Q‬‬
‫‪SD‬‬
‫‪S/ n‬‬
‫‪n‬‬
‫‪  X  t  n 1  ,1  / 2‬‬
‫‪n‬‬
‫גודל המדגם הדרוש כדי שבביטחון של ‪1  ‬‬
‫הסטייה בין ממוצע המדגם ל ‪ ‬לא תעלה על ‪: d‬‬
‫‪2‬‬
‫‪2‬‬
‫‪ 2d  n‬‬
‫‪n‬‬
‫‪ n  ‬‬
‫‪‬‬
‫‪X‬‬
‫‪1/ n ‬‬
‫‪‬‬
‫‪,‬‬
‫‪‬‬
‫‪n‬‬
‫‪  X‬‬
‫‪X‬‬
‫‪‬‬
‫‪‬‬
‫‪B in  n , p ‬‬
‫‪X‬‬
‫‪ Xi n‬‬
‫‪X‬‬
‫‪pˆ  1  pˆ ‬‬
‫‪n‬‬
‫‪‬‬
‫‪1  / 2‬‬
‫‪F  m  1 , n 1  ‬‬
‫‪‬‬
‫‪‬‬
‫‪n‬‬
‫‪2‬‬
‫‪z1  / 2‬‬
‫‪2‬‬
‫‪ 0 .2 5 , n ‬‬
‫‪‬‬
‫‪1‬‬
‫‪pˆ  p‬‬
‫‪Q‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪  n , / 2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪z1  / 2 pˆ  1  pˆ ‬‬
‫‪n ‬‬
‫‪d‬‬
‫‪2‬‬
‫‪ XiX ‬‬
‫‪  n 1 ‬‬
‫‪2‬‬
‫‪2‬‬
‫‪S ‬‬
‫‪n 1‬‬
‫‪ n  1  S 2 ‬‬
‫‪,‬‬
‫‪2‬‬
‫‪  n 1  , / 2 ‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪ n 1 S 2‬‬
‫‪Q‬‬
‫‪‬‬
‫‪G am m a  n ,‬‬
‫‪‬‬
‫‪ ‬‬
‫‪2‬‬
‫‪ˆ ‬‬
‫‪‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪ 2 n  , / 2   2 n  ,1  / 2‬‬
‫‪ Yi‬‬
‫‪ ‬‬
‫‪ 2‬‬
‫‪‬‬
‫ר"ס להפרש תוחלות בשני מדגמים ב"ת‪:‬‬
‫כאשר ‪ ‬ידוע‪:‬‬
‫‪N  0 ,1 ‬‬
‫‪1 ‬‬
‫‪‬‬
‫‪m‬‬
‫‪‬‬
‫‪1‬‬
‫‪ X Y     X  Y ‬‬
‫‪1 ‬‬
‫‪‬‬
‫‪m‬‬
‫‪‬‬
‫‪1‬‬
‫‪nm2‬‬
‫‪ X Y     X  Y ‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪P‬‬
‫‪S‬‬
‫‪‬‬
‫‪‬‬
‫‪14%‬‬
‫‪4‬‬
‫‪SY‬‬
‫‪2‬‬
‫‪2‬‬
‫‪m‬‬
‫‪ n 1‬‬
‫‪n‬‬
‫‪2‬‬
‫‪ ‬‬
‫‪m‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪1‬‬
‫‪n 1 ‬‬
‫‪‬‬
‫זוגי‪:‬‬
‫‪ 0 ,1 ‬‬
‫‪ 2n‬‬
‫‪34%‬‬
‫‪2‬‬
‫‪n‬‬
‫‪2‬‬
‫‪ ‬‬
‫‪n‬‬
‫‪1‬‬
‫‪2‬‬
‫‪P‬‬
‫‪  1‬‬
‫‪2n‬‬
‫‪‬‬
‫‪ ‬‬
‫לא ידועה‪ X i  X  :‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪1‬‬
‫‪‬‬
‫‪ XiX ‬‬
‫‪‬‬
‫‪n‬‬
‫‪2‬‬
‫‪2‬‬
‫‪n‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪ ‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪ ˆ 2  ‬‬
‫‪P‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪Q ‬‬
‫‪ Xi  ‬‬
‫‪2‬‬
‫‪1‬‬
‫‪‬‬
‫‪ X  Y ‬‬
‫‪‬‬
‫‪‬‬
‫‪ k k 2‬‬
‫‪Z‬‬
‫‪‬‬
‫‪n‬‬
‫‪ ‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪2‬‬
‫‪ S2 S2‬‬
‫‪df   X  Y‬‬
‫‪ n‬‬
‫‪m‬‬
‫‪‬‬
‫מבוא לסטטיסטיקה (‪ – )324490‬חורף תשע"א‬
‫‪‬‬
‫‪‬‬
‫‪ Xi X‬‬
‫‪ 1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪step ‬‬
‫‪2‬‬
‫‪1‬‬
‫‪n 1‬‬
‫‪‬‬
‫‪k‬‬
‫‪1‬‬
‫‪1 X‬‬
‫‪ ‬‬
‫‪X ‬‬
‫‪S/ n‬‬
‫} ‪I { xi  ‬‬
‫}‪ ‬‬
‫‪ˆ  X 1 ‬‬
‫‪   xi‬‬
‫‪‬‬
‫‪2‬‬
‫‪S ‬‬
‫‪1‬‬
‫‪‬‬
‫‪1‬‬
‫‪ x | ‬‬
‫‪X ‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1 M 1‬‬
‫‪ 2  ˆ ‬‬
‫‪ ‬‬
‫‪1‬‬
‫‪V a r ˆ  V a r  X 1 ‬‬
‫‪n‬‬
‫‪ n ˆ‬‬
‫‪E‬‬
‫‪  ‬‬
‫‪ n 1 ‬‬
‫‪2‬‬
‫‪‬‬
‫‪1‬‬
‫‪ ‬‬
‫‪f‬‬
‫‪ ‬‬
‫‪2‬‬
‫‪:) ‬‬
‫‪ˆ  S    X i  X‬‬
‫‪2‬‬
‫‪n‬‬
‫שיטת הנראות המירבית‪:‬‬
‫בחירת הערך ‪ p‬עבורו ההסתברות של תוצאות‬
‫המדגם היא הגדולה ביותר‪.‬‬
‫פונקצית נראות‪ :‬פו' צפיפות משותפת‪-‬‬
‫‪  f  xi ‬‬
‫‪ x1 .. x n ‬‬
‫‪n ‬‬
‫‪n‬‬
‫‪  } e‬‬
‫‪1 ‬‬
‫‪I{X‬‬
‫‪ e‬‬
‫חוסר הטייה‪ :‬ממוצע האומדנים יהיה שווה‬
‫בקירוב לערך הפרמטר אותו רוצים לאמוד‪ˆ .‬‬
‫‪2‬‬
‫‪ ‬‬
‫‪E ˆ  ‬‬
‫‪.‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪ ‬‬
‫‪ ‬‬
‫‪ E ˆ  ‬‬
‫‪‬‬
‫נעדיף את האמד‬
‫שבו ה‪MSE-‬‬
‫הקטן ביותר‪.‬‬
‫‪M SE ˆ ‬‬
‫‪‬‬
‫‪‬‬
‫‪ ‬‬
‫‪ V ar ˆ  E ˆ  ‬‬
‫אמד מוטה‪ .‬אח"ה‪:‬‬
‫‪ ‬‬
‫לפי ה‪:MSE-‬‬
‫‪n 1‬‬
‫‪n‬‬
‫*‬
‫‪‬‬
‫‪X‬‬
‫*‬
‫‪‬‬
‫‪n‬‬
‫‪ ‬‬
‫‪ M SE‬‬
‫‪ ‬אבל עדיין‬
‫ˆ‪‬‬
‫‪M SE‬‬
‫עקיבות‪ :‬אומד שה‪ MSE-‬שלו שואף ל‪.0-‬‬
‫‪M SE  0‬‬
‫‪n ‬‬
‫‪ˆ  ‬‬
‫‪n ‬‬
‫אם לכל ‪   0‬האמד‬
‫‪‬‬
‫‪‬‬
‫‪lim P |ˆ   |    1‬‬
‫שואף לפרמטר בהסת' ‪:1‬‬
‫‪n ‬‬
‫משפט‪ :‬אם ˆ‪ ‬עקיב אז פו' רציפה ‪   ˆ ‬עקיב‬
‫אם ˆ‪ ‬אח"ה אז פו' ליניארית ‪   ˆ ‬אח"ה‪.‬‬
‫הגדרה‪ S  S  X 1 ,,, X n  :‬סטטיסטי מספיק‬
‫אם"ם הצפיפות ‪ f  X 1 .. X n | S  s ‬או התפלגות‬
‫‪ P  X 1  x1 .. X n  x n | S  s ‬לא תלויה ב ‪.  s , ‬‬
‫תכונות‪:‬‬
‫‪ .1‬אם ˆ‪ ‬אנ"מ ל ‪ ‬אז ˆ‪ ‬הוא פו' של ס"מ ‪. S‬‬
‫‪ .2‬ס"מ אינו יחיד‪ ,‬אם ‪ , S  g  S * ‬גם‪:‬‬
‫אם ‪ g  S  x1 .. x n | ‬‬
‫*‬
‫‪S‬‬
‫כלומר‪ :‬מפרקים את ‪ f‬ל‪ h -‬שתלויה רק‬
‫‪ xi‬‬
‫‪n‬‬
‫‪n ‬‬
‫‪ 1 ‬‬
‫‪  e  I { X   } S  X‬‬
‫‪e‬‬
‫‪ ‬‬
‫‪1 ‬‬
‫‪1 ‬‬
‫‪ ‬‬
‫‪‬‬
‫‪h x ‬‬
‫‪g X 1  | ‬‬
‫משפט ‪ ˆ :Rao-Blackwell‬אמד ו‪ S -‬ס"מ‪:‬‬
‫‪ ‬‬
‫‪  *  E  ˆ | S  .1‬הוא אמד‪. E  *  E  ˆ  .2 .‬‬
‫‪( M S E *     M S E ˆ    .3‬שוויון ‪ ˆ -‬כבר‬
‫‪‬‬
‫‪‬‬
‫מבוסס על הס"מ)‪.‬‬
‫דוגמא‪, B er  p  , exp    :‬אומד‪ . X 1 :‬שיפורו‪:‬‬
‫‪ X‬‬
‫‪ xi‬‬
‫‪n‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ P X 1 1|  x i  s‬‬
‫‪s 1‬‬
‫‪L  | x1 .. x n‬‬
‫מוצאים אמד שימקסם את ‪ L   ‬ע"י גזירה‬
‫והשוואה ל‪.0-‬‬
‫‪‬‬
‫‪ h x1 .. x n‬‬
‫‪ x1 .. x n | ‬‬
‫‪f‬‬
‫בתצפיות ו‪ g -‬שתלויה ב‪ ,  -‬כאשר ‪ S‬היא‬
‫המידע מהתצפיות בתוך ‪. g‬‬
‫משפט‪ :‬אנ"מ תלוי במדגם מקרי דרך ס"מ‪.‬‬
‫דוגמא‪:‬‬
‫‪‬‬
‫‪ˆ  M 1  X‬‬
‫‪1‬‬
‫‪‬‬
‫‪    xi  ‬‬
‫‪n‬‬
‫‪  e‬‬
‫משפט הפירוק‪ :‬סטטיסטי ‪ S‬מספיק ביחס ל ‪‬‬
‫‪1  E‬‬
‫‪1 1‬‬
‫‪E ˆ  ‬‬
‫‪ f‬‬
‫‪1 ‬‬
‫‪I{X‬‬
‫‪‬‬
‫‪  e‬‬
‫ס"מ וגם ‪ f  S ‬ס"מ כאשר ‪ f‬חח"ע‪.‬‬
‫‪.Mk ‬‬
‫‪n‬‬
‫‪  1  x‬‬
‫‪‬‬
‫‪‬‬
‫‪   xi  ‬‬
‫‪ ‬‬
‫‪L ‬‬
‫הערה‪ :‬בד"כ כשה‪ MSE-‬לא שואף ל‪ ,0-‬לא עקיב‪.‬‬
‫‪k  E X‬‬
‫‪ X ik‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫סטטיסטי מספיק‪:‬‬
‫פונקציה שבה כל המידע במדגם ביחס לפרמטר‪.‬‬
‫‪  x   1  x d x ‬‬
‫‪2‬‬
‫‪  ln  x i   0  ˆ  ‬‬
‫אמידת התוחלת (הפרמטר הוא‪:)  -‬‬
‫‪2‬‬
‫‪E T‬‬
‫‪ n 1‬‬
‫‪ Q‬‬
‫‪3‬‬
‫‪IQ R  Q‬‬
‫מומנטים הם עקיבים‬
‫וח"ה‪ ,‬וגם אמד שהוא‬
‫פו' רציפה שלהם‪.‬‬
‫אמידת השונות (הפרמטר הוא‬
‫תכונות‪:‬‬
‫‪ .1‬סימטרית סביב ‪0.‬‬
‫‪ .2‬זנבות עבים משל הנורמאלית‪.‬‬
‫‪t  n  ,0 .1   t  n  ,0 .9‬‬
‫‪2‬‬
‫‪,0  x  1‬‬
‫‪ 2‬‬
‫ˆ‪‬‬
‫‪T‬‬
‫‪t‬‬
‫‪X‬‬
‫‪2‬‬
‫השיטה‪ :‬מבטאים את הפרמטר ע"י המומנטים של‬
‫האוכלוסייה ואז מציבים במקומם את המומנטים‬
‫של המדגם‬
‫דוגמא‪:‬‬
‫‪Wk / k‬‬
‫‪ 0 , V ar T‬‬
‫‪1‬‬
‫ˆ‪‬‬
‫התפלגות ‪:t‬‬
‫‪t k ‬‬
‫‪ Q3  Q1 ‬‬
‫‪E   n 1   n  1‬‬
‫‪ Xi  ‬‬
‫‪M X‬‬
‫המומנט ה‪ k-‬באוכלוסיה‪:‬‬
‫ˆ‪‬‬
‫‪‬‬
‫‪V a r   n 1   ‬‬
‫‪  n 1  ‬‬
‫‪‬‬
‫‪‬‬
‫‪ 2 ‬‬
‫‪1‬‬
‫‪M‬‬
‫תחום בין רבעונים‪:‬‬
‫המומנט ה‪ k-‬המדגמי‪:‬‬
‫‪‬‬
‫‪n‬‬
‫‪n‬‬
‫‪ ‬‬
‫‪2‬‬
‫‪2‬‬
‫‪n‬‬
‫‪ 1‬‬
‫‪‬‬
‫‪ L ‬‬
‫בהתפלגות אחידה‪ :‬האנ"מ עדיף ל ‪ n  3‬אבל הוא‬
‫סטטיסטי‪ :‬פונקציה של התצפיות במדגם‪.‬‬
‫פרמטר‪ :‬גודל שהוא מאפיין מסכם של האוכלוסייה‪.‬‬
‫אמד‪ :‬סטטיסטי שאיתו אומדים את הפרמטר‪.‬‬
‫אומדן‪ :‬הערך של האמד‪ ,‬המחושב מהמדגם‪.‬‬
‫שיטת המומנטים‪:‬‬
‫‪n‬‬
‫‪1‬‬
‫‪2‬‬
‫‪  n 1  ‬‬
‫‪‬‬
‫‪ 1 ‬‬
‫‪ 2  ‬‬
‫‪X‬‬
‫‪1‬‬
‫‪‬‬
‫‪l     ln  L  ‬‬
‫כאשר ‪ x‬מוגבל ע"י הפרמטר‪ ,‬מכניסים אינדיקטור‬
‫דוגמא‪:‬‬
‫‪4‬‬
‫אמידה נקודתית‪:‬‬
‫‪Wn‬‬
‫‪2‬‬
‫‪X ‬‬
‫‪i‬‬
‫‪4‬‬
‫‪W‬‬
‫‪n‬‬
‫‪ n V ar W n‬‬
‫‪‬‬
‫‪4‬‬
‫‪1‬‬
‫‪ :LW‬התצפית המינימאלית שגדולה מ‪.LF-‬‬
‫‪ :UW‬התצפית המקסימאלית שקטנה מ‪.UF-‬‬
‫‪E Wn‬‬
‫‪‬‬
‫‪n 1‬‬
‫‪‬‬
‫‪Q‬‬
‫‪L F  Q1  step U F  Q 3  step‬‬
‫‪W‬‬
‫‪n‬‬
‫‪‬‬
‫‪‬‬
‫‪   ‬‬
‫‪L ‬‬
‫השגיאה הריבועית הממוצעת‪-‬תוחלת הסטייה‪:‬‬
‫‪X‬‬
‫‪:BOX-PLOT‬‬
‫התפלגות שונות המדגם‪:‬‬
‫תוחלת ידועה‪:‬‬
‫‪4‬‬
‫‪ ‬‬
‫‪    1  xi    1 ‬‬
‫אמד חסר הטייה אם‪:‬‬
‫‪‬‬
‫שונות המדגם‪:‬‬
‫‪ ‬‬
‫‪2‬‬
‫‪Q‬‬
‫רבעון שלישי‪:Q3-‬‬
‫‪2‬‬
‫‪  Zi ‬‬
‫‪Wn  n‬‬
‫‪‬‬
‫‪k    n  1  p ‬‬
‫‪3‬‬
‫‪X‬‬
‫‪1‬‬
‫‪ ‬‬
‫‪1‬‬
‫‪3‬‬
‫‪Q  X‬‬
‫‪ X‬‬
‫‪3 4   3  n 1   4   3  n 1  ‬‬
‫‪‬‬
‫‪‬‬
‫‪ ‬‬
‫‪  1 ‬‬
‫‪‬‬
‫‪‬‬
‫‪4‬‬
‫‪4‬‬
‫‪‬‬
‫‪ ‬‬
‫‪‬‬
‫‪‬‬
‫‪x   n , ‬‬
‫‪2  x   n ,1 2 ‬‬
‫‪ Xi  ‬‬
‫‪  N‬‬
‫‪‬‬
‫‪n‬‬
‫‪ ln x i‬‬
‫‪FX  p  p‬‬
‫חציון‪:M-‬‬
‫‪P | X   | d‬‬
‫כאשר השונות לא ידועה‪:‬‬
‫‪‬‬
‫‪N‬‬
‫‪ P  W n  n 1      P W n  n 1    ‬‬
‫‪ X   Y   X  Y   t  n  m  2 ,1  / 2‬‬
‫‪4‬‬
‫‪  , 2 / n ‬‬
‫‪X‬‬
‫ההסתברות שאנ"מ לשונות במדגם נורמאלי‬
‫יסטה ממנה בסטייה יחסית שינה עולה על ‪: ‬‬
‫כאשר ‪ ‬לא ידוע והשונויות שונות‪:‬‬
‫‪ m 1‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪ p‬‬
‫‪ p‬‬
‫‪ ‬‬
‫‪‬‬
‫‪   n ln    1     ln  x i ‬‬
‫‪‬‬
‫‪r ‬‬
‫‪1‬‬
‫אי‪-‬זוגי‪:‬‬
‫‪nm ‬‬
‫‪D‬‬
‫‪2‬‬
‫‪ n  1  S X2   m  1  S Y2‬‬
‫‪SX‬‬
‫‪1  r  x  k   rx  k 1 ‬‬
‫‪‬‬
‫‪  xi ‬‬
‫‪n‬‬
‫‪P X  P‬‬
‫רבעון ראשון‪:Q1-‬‬
‫‪/ n‬‬
‫‪2‬‬
‫‪n‬‬
‫‪2‬‬
‫‪‬‬
‫‪n  1 p    n  1  p ‬‬
‫‪2‬‬
‫‪ X  Y   t  df ,1 / 2‬‬
‫‪ k ,m ‬‬
‫‪‬‬
‫‪F  k ,m ‬‬
‫שגיאת דגימה‪ :‬שגיאה כתוצאה מכך שנאספו‬
‫נתונים על מדגם שהינו חלק מכלל האוכלוסייה‪.‬‬
‫גודלה תלוי בשיטת הדגימה ובגודל המדגם‪.‬‬
‫ממוצע קטום‪ :‬ממוצע ללא הנמוך והגבוה‪.‬‬
‫‪1‬‬
‫‪Xn ‬‬
‫‪n‬‬
‫‪Q‬‬
‫כאשר ‪ ‬לא ידוע והשונויות זהות‪:‬‬
‫‪ S2 S2 ‬‬
‫‪X‬‬
‫‪ Y ‬‬
‫‪‬‬
‫‪ n‬‬
‫‪m ‬‬
‫‪‬‬
‫‪n‬‬
‫‪F‬‬
‫בראש הטבלה‪:‬‬
‫הסתברות‪ .p-‬בפנים‪:‬‬
‫‪P  X  a  p a‬‬
‫‪F0.05‬‬
‫דוגמא‪:‬‬
‫‪1‬‬
‫הערך ש‪ p% -‬מהאוכלוסייה מתחתיו‪.‬‬
‫חישוב השברון המדגמי‪:‬‬
‫‪, X‬‬
‫‪n 1‬‬
‫‪ G am m a  , ‬‬
‫‪2 2‬‬
‫‪2‬‬
‫‪n‬‬
‫‪1 ‬‬
‫‪2 1‬‬
‫‪SP   ‬‬
‫‪n m‬‬
‫‪ pˆ X‬‬
‫‪ ‬‬
‫‪‬‬
‫‪n Z‬‬
‫‪1  / 2 d ‬‬
‫‪‬‬
‫‪‬‬
‫‪ ‬‬
‫‪1 ‬‬
‫‪2 1‬‬
‫‪SP   ‬‬
‫‪n m‬‬
‫‪ ‬‬
‫‪ m ,k ‬‬
‫‪ ‬‬
‫ˆ‪.  ‬‬
‫‪    ‬יהיה‪:‬‬
‫סטטיסטיקה תיאורית ושיטות גרפיות‪:‬‬
‫‪X ,‬‬
‫‪ d‬‬
‫‪ 2  ‬‬
‫‪ / n‬‬
‫‪ n 1 ‬‬
‫‪2‬‬
‫‪nm 2‬‬
‫‪N‬‬
‫‪2‬‬
‫‪ X   Y   X  Y   z1  / 2  ‬‬
‫‪t‬‬
‫‪n‬‬
‫‪D‬‬
‫‪n‬‬
‫‪Y   ln  X  , Y‬‬
‫‪ Yi‬‬
‫‪pˆ X  1  pˆ X‬‬
‫קשר ל‪ Gamma-‬ולנורמאלי‪:‬‬
‫‪ ln X i‬‬
‫‪ 1‬‬
‫‪2‬‬
‫‪ 1‬‬
‫‪Q  2   Yi G am m a  n ,     2 n  , f X   x‬‬
‫‪ 2‬‬
‫‪ Yi‬‬
‫‪‬‬
‫‪ pˆ X‬‬
‫‪Q‬‬
‫‪ pˆ Y   z1 / 2‬‬
‫‪n‬‬
‫‪ .4‬אדטיביות‪:‬‬
‫‪2‬‬
‫‪  n 1  ,1  / 2‬‬
‫‪2‬‬
‫‪1‬‬
‫‪‬‬
‫‪ m ,k ‬‬
‫התפלגות חי‪-‬בריבוע‪:‬‬
‫תכונות‪:‬‬
‫‪ .1‬צפיפות לא סימטרית עם זנב ימני‪.‬‬
‫‪ .2‬התפלגות חיובית‪.‬‬
‫‪ .3‬עבור ‪ ,n>50‬קרוב לנורמאלי‪.‬‬
‫‪ n 1 S‬‬
‫‪,‬‬
‫‪‬‬
‫‪m‬‬
‫‪pˆ X 1  pˆ X‬‬
‫‪2%‬‬
‫ר"ס ל‪  -‬במדגם מהתפלגות ‪)Gamma( F X  x   x ‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪pˆ Y 1  pˆ Y‬‬
‫‪‬‬
‫‪V ar  F  ‬‬
‫‪k m 2‬‬
‫‪2‬‬
‫‪F0.95‬‬
‫חוק התקנון‪   ,  2  ,2   3  :‬‬
‫תכונות‪:‬‬
‫‪ .1‬אינו רווח סמך אופטימאלי עבור רמת סמך נתונה‪.‬‬
‫‪ .2‬רווח סמך עבור סטיית תקן‪ :‬שורש על שני הקצוות‪.‬‬
‫‪exp    ,‬‬
‫‪‬‬
‫‪N‬‬
‫‪‬‬
‫‪ 1‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫כאשר ‪ ‬לא ידוע‪:‬‬
‫‪1‬‬
‫‪‬‬
‫‪‬‬
‫‪ pˆ Y    p X  p Y‬‬
‫‪2m‬‬
‫‪.3 t  k ‬‬
‫‪F 1, k‬‬
‫גודל המדגם כדי ש‪- P  | X   |  d   1   :‬‬
‫‪Q‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫הסתברות שהסטייה המוחלטת לכל היותר ‪: d‬‬
‫‪‬‬
‫‪‬‬
‫‪  n ,1 / 2‬‬
‫‪2‬‬
‫‪ /2‬‬
‫‪F m  1 , n  1  ,‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪ X‬‬
‫‪2‬‬
‫‪Y‬‬
‫התפלגות הממוצע‪:‬‬
‫‪ 0 ,1 ‬‬
‫‪  X i    n‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪  X i    ,   X i    ‬‬
‫‪2‬‬
‫‪ ‬‬
‫‪2‬‬
‫‪‬‬
‫‪2‬‬
‫‪X‬‬
‫‪2‬‬
‫‪SX‬‬
‫‪2‬‬
‫‪SY‬‬
‫‪Q‬‬
‫‪2‬‬
‫‪ ‬‬
‫‪.2‬‬
‫‪X 0.95  Z 0.95    Z 0.15   Z 0.85‬‬
‫‪Xi‬‬
‫ר"ס לשונות במדגם מהתפלגות נורמאלית‪:‬‬
‫כאשר ‪ ‬ידוע‪:‬‬
‫‪2‬‬
‫‪2‬‬
‫‪SY‬‬
‫‪pˆ Y 1  pˆ Y‬‬
‫‪  , 2 ‬‬
‫‪pˆ 1  pˆ ‬‬
‫‪4d‬‬
‫‪k m 2‬‬
‫‪2‬‬
‫‪F  k ,m ‬‬
‫‪ .3‬אם ˆ‪ ‬אנ"מ ל‪  -‬אז לכל פו ‪ ,    ‬אנ"מ ל‪-‬‬
‫תכונות‪:‬‬
‫‪ .1‬התפלגות לא סימטרית עם ד"ח במונה ובמכנה‪.‬‬
‫‪2‬‬
‫‪SY ‬‬
‫‪Wm / m‬‬
‫‪m 4‬‬
‫התפלגות נורמאלית‪:‬‬
‫גודל המדגם כדי שבביטחון של ‪ 1  ‬הסטייה בין‬
‫הפרופורציה במדגם ל ‪ p‬לא תעלה על ‪: d‬‬
‫‪, p 1 p‬‬
‫‪E F‬‬
‫‪2‬‬
‫‪SD‬‬
‫התפלגויות דגימה‪:‬‬
‫‪n‬‬
‫‪‬‬
‫‪2‬‬
‫‪SX‬‬
‫‪‬‬
‫‪2‬‬
‫‪SY ‬‬
‫‪m‬‬
‫‪2‬‬
‫‪n 1‬‬
‫‪‬‬
‫‪Wk / k‬‬
‫שברון ‪ p‬באוכלוסייה‪,  p :‬‬
‫‪B er  p  , pˆ  X ‬‬
‫‪N  0 ,1  p  pˆ  z1  / 2‬‬
‫‪SX Y‬‬
‫‪2‬‬
‫‪SX 1‬‬
‫‪F n 1 , m 1 ‬‬
‫‪2z‬‬
‫ר"ס לפרופורציה במדגם מהתפלגות נורמאלית‪:‬‬
‫‪1‬‬
‫‪  Di  D ‬‬
‫‪1‬‬
‫‪ ‬‬
‫‪‬‬
‫‪m2‬‬
‫ר"ס להפרש פרופורציות בשני מדגמים ב"ת‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪Q X‬‬
‫‪,  ‬‬
‫‪ n ‬‬
‫‪‬‬
‫‪2‬‬
‫‪2‬‬
‫ר"ס ל‪  -‬במדגם מהתפלגות אחידה‪:‬‬
‫‪n‬‬
‫‪n‬‬
‫‪px  p y ‬‬
‫‪1 / 2‬‬
‫‪‬‬
‫‪ D  D  t  n 1,1 / 2‬‬
‫‪‬‬
‫‪d‬‬
‫‪1‬‬
‫‪k‬‬
‫ר"ס ליחס שונויות בשני מדגמים ב"ת‪:‬‬
‫תכונות‪:‬‬
‫‪ .1‬זהו רווח סמך הקצר ביותר ברמת סמך נתונה‪.‬‬
‫‪ .2‬אורכו קבוע מראש רק כאשר השונות ידועה‪.‬‬
‫‪ .3‬אורך הרווח עולה עם הגדלת רמת הסמך והשונות‪.‬‬
‫‪ .4‬אורך הרווח קטן עם עליה בגודל המדגם‬
‫‪z‬‬
‫‪‬‬
‫‪1  / 2‬‬
‫‪‬‬
‫התפלגות ‪:F‬‬
‫‪ X   Y   D D i N  D , D D ‬‬
‫‪2‬‬
‫תכונות‪:‬‬
‫‪ .1‬אנ"מ אינו בהכרח יחיד‪.‬‬
‫‪ .2‬לפעמים קל יותר למקסם את ‪l     ln L   ‬‬
‫‪: Pois   ‬‬
‫‪‬‬
‫‪n‬‬
‫‪‬‬
‫‪ n 1 n ‬‬
‫‪B in s , 1‬‬
‫‪s‬‬
‫‪n‬‬
‫‪s 1‬‬
‫‪‬‬
‫‪‬‬
‫‪ X 1 |  xi ‬‬
‫‪ X 1 |S ‬‬
‫‪‬‬
‫‪1‬‬
‫‪n 1 n‬‬
‫‪s‬‬
‫‪E‬‬
‫‪‬‬
‫© ענת עציון‬
‫‪E‬‬
‫בדיקת השערות‪:‬‬
‫מבחן בעל עוצמה מרבית במידה שווה‪:‬‬
‫האלטרנטיבה מורכבת מכמה חלקים‪ .‬אז לכל‬
‫ערך שרירותי ‪ f1‬מהאלטרנטיבה‪ ,‬המבחן של‬
‫ניימן‪-‬פירסן (שנקבע רק לפי השערת האפס)‬
‫הוא הטוב ביותר‪ :‬בעל עוצמה מרבית לכל‬
‫השערה פשוטה מתוך האלטרנטיבה‪.‬‬
‫‪ :Pvalue‬בהינתן תוצאת מדגם מסוימות‪,‬‬
‫‪ .1‬ההסתברות לקבל תוצאה קיצונית לפחות‬
‫כמו התוצאה שהתקבלה בניסוי‪ ,‬בהנחה‬
‫שהשערת האפס נכונה‪.‬‬
‫‪ .2‬רמת המובהקות הקטנה ביותר שעבורה‬
‫נדחה את השערת האפס‪.‬‬
‫אם ‪   Pvalue‬נדחה בר"מ ‪‬‬
‫אם ‪   Pvalue‬לא נדחה בר"מ ‪‬‬
‫הערה‪ :‬ככל שנגדיל את‪ Pvalue ,n-‬יקטן כי‬
‫הערך שהתקבל במדגם יהיה יותר "חזק" ואז‬
‫הוא ייחשב יותר קיצוני תחת השערת האפס‪.‬‬
‫דוגמא‪:‬התפלגות פואסון‪ -‬השערה מורכבת‪:‬‬
‫ בעיות שיש להחליט בהן על אחת מבין ‪ 2‬השערות‪.‬‬‫השערת האפס‪ :‬ההשערה השמרנית‪ ,‬האמונה הרווחת‪.‬‬
‫האלטרנטיבה‪ :‬ההשערה החדשנית‪ ,‬המהפכנית‪.‬‬
‫ החלטה שהשערה נכונה ע"י הוכחה שההשערה‬‫ההפוכה לא נכונה‪.‬‬
‫ מקבלים תוצאה קיצונית תחת השערת האפס משתי‬‫הסיבות הבאות‪:‬‬
‫‪ .1‬מדגם לא מייצג ‪ .2‬השערת האפס לא נכונה‪.‬‬
‫כלל החלטה‪ :‬חלוקת הערכים האפשריים של תוצאות‬
‫המדגם לשני תחומים‪:‬‬
‫‪-R .1‬אזור דחיית השערת האפס‪.‬‬
‫‪ -Rc .2‬אזור אי‪-‬דחיית השערת האפס‪.‬‬
‫דחיית ‪H0‬‬
‫אי‪-‬דחיית ‪H0‬‬
‫טעות מסוג ‪I‬‬
‫‪V‬‬
‫‪ H0‬נכונה‬
‫‪V‬‬
‫טעות מסוג ‪II‬‬
‫‪ H1‬נכונה‬
‫טעות מסוג ‪ :I‬דחיית השערת האפס כאשר היא נכונה‪.‬‬
‫‪  P  type I error   P  rejecting H 0 | H 0 is true ‬‬
‫‪P ois    , H 0 :  4 , H 1 :  4‬‬
‫טעות מסוג ‪ :II‬קבלת השערת האפס כאשר אינה נכונה‪.‬‬
‫‪  P  type II error   P  not rejecting H 0 | H 1 is true ‬‬
‫הקטנת ‪ α‬תביא לעליה ב‪ β-‬ולהפך‪.‬‬
‫השערה פשוטה‪ :‬השערה הקובעת באופן יחיד את‬
‫התפלגות האוכלוסייה שממנה נלקח המדגם‪.‬‬
‫השערה מורכבת‪ :‬תוצאתה לא מאפשרת לקבוע את‬
‫התפלגות האוכלוסייה‪.‬‬
‫פונקצית מבחן‪ :‬לכל כלל הכרעה ישנה פונקציה שקובעת‬
‫את ההסתברות שבה נדחה את השערת האפס עבור‬
‫התוצאה ‪  .x‬‬
‫‪  E H 1    X‬‬
‫‪1‬‬
‫‪ D  X  ,‬‬
‫‪0‬‬
‫האלטרנטיבה נכונה‪ reject H 0  .‬‬
‫‪‬‬
‫‪1‬‬
‫‪X‬‬
‫‪  x   k‬‬
‫‪  x   k‬‬
‫‪  x   k‬‬
‫‪1‬‬
‫‪‬‬
‫‪0‬‬
‫‪‬‬
‫‪n‬‬
‫‪xi‬‬
‫‪‬‬
‫‪       ‬‬
‫‪ 1  e 1 0‬‬
‫‪ 0 ‬‬
‫‪  xi‬‬
‫‪ k‬‬
‫‪10‬‬
‫‪e‬‬
‫‪ 1 x i‬‬
‫‪  0 xi‬‬
‫‪ 1 e‬‬
‫‪‬‬
‫‪ 0 e‬‬
‫‪f1  x ‬‬
‫‪‬‬
‫‪ k‬‬
‫‪‬‬
‫‪‬‬
‫מציאת ‪:C‬‬
‫‪  PH‬‬
‫‪‬‬
‫‪‬‬
‫‪n x  1   0  n  0  1‬‬
‫‪  x   exp ‬‬
‫‪‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪2‬‬
‫אם ‪  0  1‬דחייה‪-‬‬
‫‪z1   0‬‬
‫אם ‪ 1   0‬דחייה‪-‬‬
‫‪z1    0‬‬
‫‪‬‬
‫‪. X‬‬
‫‪n‬‬
‫‪‬‬
‫‪. X ‬‬
‫‪n‬‬
‫‪ z  z1   2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪n‬‬
‫מבוא לסטטיסטיקה (‪ – )324490‬חורף תשע"א‬
‫‪X. j‬‬
‫טיב התאמה‪:‬‬
‫למשתנה ‪ K‬קטגוריות בהסתברויות‪, p1 , , p k :‬‬
‫‪n‬‬
‫‪‬‬
‫‪2‬‬
‫‪n‬‬
‫‪‬‬
‫‪pˆ j ‬‬
‫סטטיסטי‪:‬‬
‫‪x M ulti  n , p1 ,‬‬
‫‪, pk‬‬
‫‪1  / 2‬‬
‫‪ Z‬‬
‫‪P‬‬
‫‪ ‬‬
‫‪‬‬
‫‪2‬‬
‫‪   k 1 ‬‬
‫‪‬‬
‫‪‬‬
‫‪0  H1‬‬
‫‪LH‬‬
‫‪6‬‬
‫המבחן‪ :‬דחייה‪-‬‬
‫‪xj‬‬
‫‪ xj‬‬
‫*‬
‫‪  2  x i ln ‬‬
‫‪ np‬‬
‫‪j0‬‬
‫‪‬‬
‫‪H 1 : i p i  1‬‬
‫‪6‬‬
‫‪2‬‬
‫‪ W‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪0    x  1‬‬
‫לא בעל עוצמה‬
‫מקסימאלית‬
‫‪37‬‬
‫‪1‬‬
‫‪ ‬‬
‫‪6‬‬
‫‪1‬‬
‫‪ ‬‬
‫‪33!  6 ‬‬
‫!‪200‬‬
‫‪ 2 0 0 1 6 ‬‬
‫‪ ‬‬
‫‪‬‬
‫‪xi‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪1‬‬
‫‪20‬‬
‫‪0.10‬‬
‫‪21‬‬
‫‪2‬‬
‫‪2‬‬
‫‪ln  L   C   x1  x 2  ln  p1    x 3  x 4  ln  p 3  ‬‬
‫‪x 5 ln  p 5   x 6 ln  p 6 ‬‬
‫‪   1   4 p1  1.5 p 3  p 5  p 6  ‬‬
‫‪‬‬
‫‪xi‬‬
‫‪200‬‬
‫‪pˆ i ‬‬
‫‪1 6 ‬‬
‫‪37‬‬
‫‪1 6 ‬‬
‫‪33 200 ‬‬
‫‪37‬‬
‫‪37 200 ‬‬
‫‪X j  np j 0‬‬
‫‪np j 0‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪2‬‬
‫‪P‬‬
‫‪2‬‬
‫‪  k 1‬‬
‫‪2‬‬
‫‪p‬‬
‫‪.X‬‬
‫‪2‬‬
‫‪G eo 1 2  , H 1 :else , p j 0  PH‬‬
‫‪H 0 :X‬‬
‫‪ p1 1  p 0    1  p1 ‬‬
‫‪  x ‬‬
‫‪ k‬‬
‫‪ p 1  p    1  p ‬‬
‫‪1  ‬‬
‫‪0 ‬‬
‫‪ 0‬‬
‫אם ‪ p 0  p1‬דחייה‪.  x  C -‬‬
‫דוגמא‪  0.05, n 10 , p 0 1 2, p1  3 4 :‬‬
‫מציאת אזור הדחייה‪:‬‬
‫‪ a j 1  ˆ ‬‬
‫‪ a j  ˆ ‬‬
‫‪[ a j , a j 1 ): pˆ 0 j   ‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ ˆ ‬‬
‫ˆ‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫הערה חשובה‪ :‬היה צורך לאמוד פרמטרים גם תחת ‪H0‬‬
‫ולכן מאבדים ד"ח‪ .‬עבור אמידת ‪# ,r‬ד"ח‪.k-1-r :‬‬
‫טרנספורמציה‪:‬‬
‫‪Y ‬‬
‫‪P‬‬
‫‪H0‬‬
‫לא נכניס את‪ 8-‬לאזור הדחייה‪. R {9,10} .‬‬
‫חישוב ‪:τα‬‬
‫‪P  X  10   P  X  9     P  X  8   0.05‬‬
‫‪g‬‬
‫‪Y‬‬
‫‪H0‬‬
‫‪P‬‬
‫‪1‬‬
‫‪1‬‬
‫‪ex p  ‬‬
‫‪ ‬‬
‫‪Y‬‬
‫‪e‬‬
‫‪ Y  ‬‬
‫‪1‬‬
‫‪‬‬
‫‪Y  g  x , fY  y   f X g‬‬
‫‪, Y   ln  x  , Y‬‬
‫‪Y ‬‬
‫‪1‬‬
‫‪Y‬‬
‫‪g‬‬
‫‪3‬‬
‫‪40‬‬
‫‪0.22‬‬
‫‪43.4‬‬
‫‪2‬‬
‫‪64‬‬
‫‪0.31‬‬
‫‪63‬‬
‫‪p1‬‬
‫‪x3  x 4‬‬
‫‪pˆ 5 ‬‬
‫‪4‬‬
‫‪25‬‬
‫‪0.11‬‬
‫‪21.6‬‬
‫‪1.5 ‬‬
‫‪5‬‬
‫‪25‬‬
‫‪0.12‬‬
‫‪25‬‬
‫‪pˆ 3 ‬‬
‫‪6‬‬
‫‪26‬‬
‫‪0.13‬‬
‫‪26‬‬
‫‪n‬‬
‫‪200‬‬
‫‪200‬‬
‫‪X ,‬‬
‫‪1‬‬
‫‪1‬‬
‫‪x‬‬
‫‪1‬‬
‫‪‬‬
‫‪Y   e  Y‬‬
‫דוגמא‪ -‬העדפת מוצר‪:‬‬
‫‪ 000‬איש נשאלו בסקר מוצר מועדף מתוך‪.2-‬‬
‫‪ :H0‬אין העדפה‪ . p 1 2 .‬ר"מ‪  0.05 :‬‬
‫‪B in 100 , p  N 100 p ,100 pq ‬‬
‫‪N  60 , 24 ‬‬
‫‪H1‬‬
‫‪X‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪H0‬‬
‫‪N 50 ,5‬‬
‫‪Xi‬‬
‫‪ X‬עוצמה‪:‬‬
‫‪ x i  50‬‬
‫‪‬‬
‫‪‬‬
‫‪1  P   1.96 ‬‬
‫‪ 1.96   1 ‬‬
‫‪5‬‬
‫‪‬‬
‫‪‬‬
‫‪  1.96 5  50  60  x i  60 1.96 5  50  60 ‬‬
‫‪P‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪24‬‬
‫‪24‬‬
‫‪24‬‬
‫‪‬‬
‫‪‬‬
‫‪1  P   4.041  z   0.04  ‬‬
‫‪1     0.04      4.041   0.516‬‬
‫להשערה‪ ,‬למשל‪ ˆ  76 , ˆ 2  12.72 2 :‬עבור ציונים‪.‬‬
‫‪x‬‬
‫‪‬‬
‫‪‬‬
‫‪ p1‬‬
‫‪  Pp  0.6  | Z |  z1 / 2   1  P  | Z |  1.96  ‬‬
‫הערה‪ :‬גם כאן מאחדים קטגוריות בהן ‪.Ej<5‬‬
‫דוגמא‪ :‬האם ההתפלגות גיאומטרית?‬
‫‪ X  j ‬‬
‫‪x5‬‬
‫‪‬‬
‫אמדנו ‪ 3‬פרמטרים (האחרון נקבע לפי האחרים)‬
‫ולכן‪.(k-1-r)=6-1-3=2 :‬‬
‫‪ X  ‬עבור מדגם‬
‫‪2‬‬
‫‪0‬‬
‫‪4‬‬
‫‪x‬‬
‫‪ˆp 6  6‬‬
‫‪ 4   pˆ 1 ‬‬
‫‪x1  x 2‬‬
‫‪ ln  L ‬‬
‫‪2‬‬
‫‪H 0 : p  p 0 , H 1 : p  p1 , B er  p ‬‬
‫‪ 0.05‬‬
‫‪‬‬
‫‪‬‬
‫‪X P  1 21  1 63  11.56 43.4  11.56 21.6‬‬
‫דוגמא‪ :‬האם ההתפלגות נורמאלית?‬
‫אמידת התוחלת והשונות ע"י אנ"מ‪ :‬מחליטים בהתאם‬
‫‪ X 8‬‬
‫‪2‬‬
‫‪H 0 : X M ulti  200 , p1 ,3 p1 , p 3 ,0.5 p 3 , p 5 , p 6 ‬‬
‫‪200 ! x1‬‬
‫‪x‬‬
‫‪x‬‬
‫‪x‬‬
‫‪x‬‬
‫‪x‬‬
‫‪L‬‬
‫‪p1  3 p1  2 p 3 3  0.5 p 3  4 p 5 5 p 6 6‬‬
‫! ‪x1‬‬
‫‪x‬‬
‫‪x‬‬
‫‪x‬‬
‫‪x x  x x  x‬‬
‫‪ C  3 2 0.5 4 p1 1 2 p 3 3 4 p 5 5 p 6 6‬‬
‫‪  n  200‬‬
‫המבחן‪ :‬דחייה ‪X p    k 1,1 -‬‬
‫‪j‬‬
‫ממ"פ מהתפלגות ברנולי‪:‬‬
‫! ‪37‬‬
‫‪33‬‬
‫‪33‬‬
‫‪0‬‬
‫‪PH‬‬
‫‪‬‬
‫מספיק גדול‪ ,‬אם ‪ H0‬נכונה אז‪:‬‬
‫‪1‬‬
‫‪ 0.05‬‬
‫‪XP ‬‬
‫‪P value  P   r 1  c 1   X P‬‬
‫חישוב סטטיסטי פירסון‪:‬‬
‫‪ 1‬פחות הסכום של האחרים‪.‬‬
‫המבחן של פירסון‪:‬‬
‫סטטיסטי מבחן לבדיקת טיב התאמה של המדגם למודל‬
‫הסתברותי‪:‬‬
‫‪ X 10   P  X  9 ‬‬
‫‪i‬‬
‫‪ -  1 , 2‬ההסת' שמופיעות בשורה העליונה‪.‬‬
‫דוגמא‪ -‬טיב התאמה עם כופלי לגרנז'‪:‬‬
‫‪ np j 0‬‬
‫‪  x   ‬‬
‫‪ x‬‬
‫‪j‬‬
‫‪‬‬
‫‪  2 log   25 ‬אמדנו‪ 5-‬פרמטרים כי השישי הוא‬
‫סטטיסטי‬
‫ככל ש‪  -‬יותר‬
‫קטן‪ :‬עדות יותר‬
‫חזקה לדחיית ‪.H0‬‬
‫‪ x1  3 7 ,‬‬
‫המכנה של ‪ : ‬יש למצוא אנ"מים‬
‫‪xi‬‬
‫הערות‪:‬‬
‫ במבחן יחס נראות מציבים אנ"מ במכנה‪.‬‬‫ מבחן י"נ מוכלל המונה והמכנה מתחלפים‬‫(לעומת ניימן‪-‬פירסן) ולכן גם האי שוויון‪.‬‬
‫‪n‬‬
‫‪2‬‬
‫‪X P  ‬‬
‫‪ =r/c‬מספר קטגוריות שורה‪/‬עמודה‬
‫‪. H 0 : i p i  1‬‬
‫‪, x6  3 3 ‬‬
‫המונה של ‪: ‬‬
‫‪  su p PH‬‬
‫‪  x   k‬‬
‫‪0‬‬
‫‪EH‬‬
‫‪j‬‬
‫המבחן‪ :‬דחייה ‪  r 1   c 1  ,1 -‬‬
‫דוגמא‪ :‬האם הקובייה הוגנת?‬
‫‪ W‬‬
‫‪‬‬
‫‪n‬‬
‫‪X i.X . j n‬‬
‫‪-pi‬ההסתברות לתוצאה ‪.n=200 . 1  i  6 ,i‬‬
‫‪  x ‬‬
‫‪‬‬
‫‪ X ij  X i . X . j n ‬‬
‫‪x1  x 2‬‬
‫‪. H 0 :    0 , H 1 :    0 N   ,‬‬
‫‪0‬‬
‫‪ ‬‬
‫‪Pˆ Ai‬‬
‫‪ X ij   nPˆ  Ai  B j  ‬‬
‫‪2‬‬
‫בדיקת ההשערות‪, H 0 : p  p 0 , H 1 : p  p 0 :‬‬
‫‪33‬‬
‫‪LH‬‬
‫‪ ‬‬
‫‪X i.‬‬
‫‪, Pˆ B j‬‬
‫‪X i. X . j‬‬
‫‪X  0‬‬
‫אם ‪ p1  p 0‬דחייה‪.  x  C -‬‬
‫עוצמת המבחן גדלה כאשר‪:‬‬
‫‪ .0‬ככל שההפרש ‪ 1   0‬גדול יותר‪.‬‬
‫‪ .2‬ככל ש‪ n -‬גדול יותר‪.‬‬
‫‪ .3‬ככל שסטיית התקן של האוכלוסייה‪ σ-‬קטנה‪.‬‬
‫‪ .4‬גודל המדגם המינימאלי הדרוש לעוצמה ור"מ נתונות‪:‬‬
‫‪ 1   0 ‬‬
‫ר"מ‪:‬‬
‫‪su p f   x ‬‬
‫מדגם מ‪. H 0 :    0 , H 1 :   1 . N   , 2  -‬‬
‫‪   C    21,1‬‬
‫‪/ n‬‬
‫ההסתברות לטעות מסוג ‪ I‬היא הכי גדולה‬
‫כאשר ‪    0‬בדיוק‪.‬‬
‫!‪ :‬אם ‪ λ‬פונקציה יורדת של הסטטיסטי‪ :X-‬דחייה‪.X<C -‬‬
‫אם ‪ λ‬פונקציה עולה של הסטטיסטי‪ X:-‬דחייה‪.X>C -‬‬
‫הערה חשובה‪ :‬השערת האפס היא היחידה שקובעת את‬
‫אזור הדחייה ולכן הוא יישאר זהה גם לאלטרנטיבה אחרת‪.‬‬
‫ממ"פ מהתפלגות נורמאלית ושונות ידועה‪:‬‬
‫‪ ‬‬
‫‪H0‬‬
‫‪.∑xi<kα*=C‬‬
‫‪ 2 1 C  P   2 0   2 C  0 .0 5  2 C    2 0  ,0 .0 5‬‬
‫‪‬‬
‫‪ 2  n   0  X    x i  ln  0  ln X‬‬
‫טווח‪, 1   1   P val  1   2  :‬‬
‫‪ 1  ‬‬
‫‪ C  0 ‬‬
‫‪‬‬
‫‪ / n ‬‬
‫‪‬‬
‫! ‪xi‬‬
‫‪X‬‬
‫‪e‬‬
‫‪‬‬
‫דרך פיתרון‪:‬‬
‫מחשבים מהי השכיחות הצפויה בכל תא בהנחה‬
‫שהשערת האפס נכונה‪ .‬ובונים טבלת שכיחוית‪.‬‬
‫‪ . p 0   p1 0 , , p k 0 ‬תחת ‪. E  x j   np j 0 :H0‬‬
‫‪  sup P  X  C   1   ‬‬
‫‪1‬‬
‫‪2‬‬
‫‪/ n‬‬
‫‪ rejectin g‬‬
‫‪0‬‬
‫‪ W‬‬
‫‪ reject H 0   P   x i  C   P  2  0  x i  2  0 C ‬‬
‫‪ k‬‬
‫‪‬‬
‫‪‬‬
‫‪ X ‬‬
‫‪e‬‬
‫‪xi‬‬
‫‪X‬‬
‫‪‬‬
‫חישוב ‪:Pval‬‬
‫‪H 0 : W , H 1 : W‬‬
‫דוגמא‪:‬‬
‫‪2‬‬
‫‪‬‬
‫‪or‬‬
‫מבחן יחס נראות מוכלל‪:‬‬
‫‪0‬‬
‫‪2‬‬
‫‪1  / 2‬‬
‫‪X  0‬‬
‫‪ Z‬‬
‫‪ λ   ‬היא פו' יורדת של ‪ ∑xi‬ולכן‬
‫‪2‬‬
‫‪1 0 0‬‬
‫‪Z‬‬
‫בדיקת שתי השערות מורכבות‪:‬‬
‫‪  x ‬‬
‫‪ ‬‬
‫‪ X i 1 0  0‬‬
‫‪  1 ‬‬
‫‪‬‬
‫‪ P  Z   z1  / 2  0‬‬
‫‪‬‬
‫‪/ n ‬‬
‫‪‬‬
‫סטטיסטי‬
‫‪2‬‬
‫‪2 n‬‬
‫‪ xi‬‬
‫‪  0 ‬‬
‫‪ n  0  X‬‬
‫‪x‬‬
‫! ‪ 0 i xi‬‬
‫‪ 0‬‬
‫‪e‬‬
‫‪ ‬‬
‫‪‬‬
‫‪H 0 : P Ai  B j  P  Ai  P B j  i , j , H 1 :else‬‬
‫‪‬‬
‫‪su p f   x ‬‬
‫המבחן שקול ל‪ :‬דחה ‪ H0‬אם‪:‬‬
‫דוגמא‪. H 0 :  1, H 1 : 1 , x i P ois    :‬‬
‫‪n‬‬
‫‪  1 ‬‬
‫‪‬‬
‫‪  P  Z  z1   / 2  0‬‬
‫‪‬‬
‫‪/ n ‬‬
‫‪‬‬
‫‪ λ‬גבוה‪ f1 :‬יותר מתאים‪ λ .‬נמוך‪ f0 :‬יותר מתאים‪.‬‬
‫מ"מ בדיד‪ :λ(x)=kα :‬נדחה את ה שערת האפס בסיכוי ‪.τα‬‬
‫מ"מ רציף‪ :‬ישנם רק ערכים ‪ 0‬ו‪.0-‬‬
‫דוגמא‪ :‬מדגם בגודל ‪ 00‬מ‪H 0 : 1, H 1 :  2 . exp    -‬‬
‫‪f0  x ‬‬
‫*‬
‫‪H 0 :    0 , H 1 :    0 , N  ,‬‬
‫חישוב עוצמת המבחן‪:‬‬
‫‪.   PH1  x  3  1 64,   PH1  x  0   24 64‬‬
‫‪  x    ‬‬
‫‪2‬‬
‫המבחן‪:‬‬
‫‪xj‬‬
‫הערה‪ :‬אזור דחייה בהשערה דו‪-‬צדדית יהיה‬
‫מורכב משני חלקים זהים בגודלם בכל‬
‫התפלגות‪ ,‬סימטרית או לא‪.‬‬
‫(ולכן כאן‪.)Pvalue= 2 PH 0  Z   X  :‬‬
‫המבחן עם אזור דחייה‪ 0-‬עדיף על זה עם אזור דחייה‪.3-‬‬
‫הלמה של ניימן‪-‬פירסן (מבחן יחס הנראות)‪:‬‬
‫מבחן בעל עוצמה מרבית לבדיקת ההשערות הפשוטות‪:‬‬
‫‪ H : X f ; H : X f‬הינו‪ -0 :‬דחיית השערת האפס‬
‫‪0‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪ -0‬אי‪-‬דחייה‪.‬‬
‫‪f1  x ‬‬
‫‪2‬‬
‫‪  x   k     C     r ,1‬‬
‫הערות‪:‬‬
‫‪‬‬
‫‪.‬בהפרש פרופורציות‬
‫‪ .2‬ר"ס‪:‬‬
‫‪  X  z1 / 2‬‬
‫ סכום ההסתברויות הוא‪ 1-‬ולכן‪ :‬ההסת' לקטגוריה‬‫‪ 0‬לפי דף השערות‬
‫‪n‬‬
‫האחרונה הינה ‪ 1‬מינוס סכום כל האחרות‪.‬‬
‫‪Pvalue= PH 0  Z  X   PH 0  Z   X  .3‬‬
‫‪ -‬אם ‪ E j  np j 0  5‬מאחדים קטגוריות‪.‬‬
‫בר"מ ‪ ,1/8‬מהו מבחן בעל עוצמה מירבית?‬
‫‪-X‬מספר הפעמים שהוא נופל על "עץ"‪.‬‬
‫‪ . PH 0  x  3   1 8 , PH 0  x  0   1 8‬איזה מהם עדיף?‬
‫‪f0  x ‬‬
‫‪.‬‬
‫‪  z1 ‬‬
‫‪n ‬‬
‫‪=r‬ההפרש בין מספר הפרמטרים הידועים לאלה‬
‫שצריך לאמוד תחת השערת האפס‪.‬‬
‫מתי משתמשים? כאשר ההתפלגות המדויקת של‬
‫‪ ‬אינה ידועה‪.‬‬
‫מבחנים שונים עבורם נדחה את ‪:H0‬‬
‫מבחן טוב‪ α :‬קטן ו‪ π-‬גדול‪.‬‬
‫דוגמא‪:‬‬
‫‪  x ‬‬
‫‪10 ‬‬
‫*‬
‫‪   2 lo g ‬‬
‫‪ - x j‬מספר תצפיות בקטגוריה ה‪  x j  n .i-‬אז‪:‬‬
‫בדיקת השערה דו‪-‬צדדית‪:‬‬
‫‪  1    PH‬‬
‫‪Bin  3, p  , p {1 4,1 2}, H 0 : p 1 2, H 1 : p 1 4‬‬
‫‪ X i 10 ‬‬
‫‪2‬‬
‫(‪# =)r‬ד"ח‬
‫‪ n ,  p j  1‬תצפיות ב"ת מסווגות לפי הקטגוריות‪.‬‬
‫‪E   X i   V ar   X i   10 ‬‬
‫המבחן‪ :‬דחייה‪-‬‬
‫רמת מובהקות‪ :‬ההסתברות המרבית המותרת לטעות סוג ‪.I‬‬
‫רמת המובהקות שנקבעת תלויה במידת הנזק שייגרם‬
‫כתוצאה מטעות מסוג ‪ ,I‬אם הנזק גדול‪ -‬נקבעת רמת‬
‫מובהקות נמוכה‪.‬‬
‫הערה‪ :‬קובעים ‪ α‬מראש ומחפשים עבורו ‪ β‬קטן‪.‬‬
‫עוצמה של מבחן‪ :‬ההסתברות לדחיית השערת האפס כאשר‬
‫‪1‬‬
‫קירוב לנורמאלי‪,  X i P ois 10   :‬‬
‫‪N  0 ,1 ‬‬
‫‪  EH‬‬
‫‪n  10 , X i‬‬
‫ההתפלגות האסימפטוטית של י"נ מוכלל‪:‬‬
‫‪r‬‬
‫בדיקת אי‪-‬תלות‪:‬‬
‫בדיקת קשר בין שני משתנים קטגוריים‪.‬‬
‫‪-A‬קטגוריית השורה‪-B ,‬קטגוריית העמודה‪.‬‬
‫הנתונים מסוכמים בטבלת שכיחוית‪:‬‬
‫חישוב ‪ Pvalue‬בהשערה דו"צ‪:‬‬
‫לוקחים את הסטטיסטי בערך מוחלט‪|T | :‬‬
‫(ערך חיובי)‪ .‬ובודקים את ההסת' ליפול באזורי‬
‫הדחייה‪:‬‬
‫‪‬‬
‫| ‪  |T‬‬
‫‪n‬‬
‫‪‬‬
‫‪ t‬‬
‫‪0‬‬
‫‪‬‬
‫‪ |T |  PH‬‬
‫‪n‬‬
‫‪‬‬
‫‪ ‬‬
‫‪ t‬‬
‫‪0‬‬
‫‪Pvalue  PH‬‬
‫| ‪t  n   |T |  2  1  P t  n   |T‬‬
‫‪‬‬
‫‪0‬‬
‫‪ 2  PH‬‬
‫חישוב ‪ Pvalue‬בהשערה חד‪-‬צדדית‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪1‬‬
‫‪H 1 : p  p 0 P va l  P t  n   T  P va l  d u z ‬‬
‫‪2‬‬
‫‪‬‬
‫‪H 1 : p  p0‬‬
‫‪‬‬
‫‪1‬‬
‫‪P val  P t  n   T  1  P val  duz ‬‬
‫‪2‬‬
‫‪X‬‬
‫‪1‬‬
‫‪g‬‬
‫© ענת עציון‬
‫רגרסיה ליניארית פשוטה‪:‬‬
‫בעזרת מודל ים של רגרסיה ניתן לחקור את הקשר בין שני‬
‫משתנים הקשורים באופן לא דטרמיניסטי זוהי הרחבה‬
‫של המודל הדטרמיניסטי הליניארי‪Y   0   1 X -‬‬
‫למודל ליניארי הסתברותי אשר מאפשר לנבא את הערך‬
‫של ‪ Y‬על‪-‬סמך הערך של ‪.X‬‬
‫ככל ש‪ σ2-‬גדולה יותר‪,‬‬
‫הנחות המודל הליניארי‬
‫התצפיות יותר מפוזרות‬
‫‪2‬‬
‫‪Y‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ N  0 , ‬‬
‫‪0‬‬
‫‪1X ‬‬
‫ומתרחקות מהקו‪.‬‬
‫יודעים את ‪ X‬ומנחשים את ‪ Y‬בצורה הטובה ביותר (‪ Y‬לא‬
‫נקבע בוודאות כי ישנו "רעש" מבחינה הסתברותית)‪.‬‬
‫מתוך המצב רוצים לאמוד את ‪  0 ,  1‬כדי לנחש את ‪Y‬‬
‫בצורה טובה‪.‬‬
‫‪E  Y | X  x   E   0  1 X      0  1 X‬‬
‫‪2‬‬
‫הגדרת שגיאה‪:‬‬
‫‪V ar  Y | X  x   V ar   0   1 X     V ar     ‬‬
‫‪ X i ei  0‬‬
‫תכונות חשובות‪:‬‬
‫‪ ei  0‬‬
‫‪ - e i : ei   i‬מרחק התצפית מקו הרגרסיה‪.‬‬
‫הערך המנובא‪ :‬לכל תצפית‪. Yˆi  ˆ0  ˆ1 X i -‬‬
‫‪ei  Yi  Yˆi‬‬
‫אמידת השונות במודל‪:‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪Y | X  x ‬‬
‫‪N  0   1 x ,‬‬
‫אמידת‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪  Yi  Yˆi‬‬
‫‪‬‬
‫‪1  R  S‬‬
‫‪2‬‬
‫‪Y‬‬
‫‪‬‬
‫סטטיסטי המבחן‪:‬‬
‫‪0‬‬
‫הסטייה מהקו של ערך ‪ Y‬בהינתן ערך ‪.X‬‬
‫‪ :R<1‬הסטייה מהקו קטנה מהסטייה‬
‫הטיפוסית של ‪.Y‬‬
‫‪ :|R|=1‬הסטייה מהקו שווה לאפס‪.‬‬
‫‪2‬‬
‫(השונות במודל קטנה ככל ש‪ R -‬גדל)‬
‫‪ :R=0‬הסטייה מהקו ‪.‬‬
‫‪t n  2 ‬‬
‫‪0‬‬
‫‪ ‬‬
‫אמידת מקדמי הרגרסיה‪ 0 ,  1 ,  :‬‬
‫‪2‬‬
‫‪ ‬‬
‫‪2‬‬
‫‪2‬‬
‫‪V ar ˆ0  ˆ  X i nS X X‬‬
‫‪ 0 ,1 ‬‬
‫‪ ‬‬
‫טענה‪ ˆ1 :‬מתפלג נורמלית וב"ת ב‪. ˆ 2 -‬‬
‫‪ˆ1   1‬‬
‫סטטיסטי המבחן‪t  n  2  :‬‬
‫‪2‬‬
‫‪ 0 ,  1 ,‬‬
‫‪H0‬‬
‫ˆ‪‬‬
‫‪S XX‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫אר"פ‪ : ˆ 0 , ˆ1 :‬ערכי ‪ b0 , b1‬המביאים למינימום את‬
‫מציאת אר"פ ע"י המשוואות הנורמאליות‪:‬‬
‫‪ 0‬‬
‫‪‬‬
‫‪0‬‬
‫‪‬‬
‫‪ g  b0 , b1 ‬‬
‫‪‬‬
‫‪  2  Yi   b0  b1 X i ‬‬
‫‪ b1 X i ‬‬
‫‪0‬‬
‫‪Y   b‬‬
‫‪i‬‬
‫‪ g  b0 , b1 ‬‬
‫‪ 2  X‬‬
‫‪i‬‬
‫‪ b1‬‬
‫‪SSE‬‬
‫)‪2‬‬
‫‪2‬‬
‫פיתרון המשוואות הנורמאליות‪:‬‬
‫‪‬‬
‫‪ X i  X   Yi  Y ‬‬
‫‪2‬‬
‫‪   X i  X  X i   X i  nX‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪2‬‬
‫‪2‬‬
‫‪  Yi  n Y‬‬
‫‪‬‬
‫‪  Yi  Y‬‬
‫‪‬‬
‫‪ ‬‬
‫‪‬‬
‫‪XY‬‬
‫‪S‬‬
‫‪S XX    X i  X‬‬
‫‪‬‬
‫‪2‬‬
‫‪YY‬‬
‫‪S‬‬
‫‪2‬‬
‫‪S X  S X X n 1‬‬
‫‪Yˆ  ˆ 0  ˆ1 X‬‬
‫שאלות שניתן לענות עליהן‪:‬‬
‫ בהינתן ‪ X‬מסוים‪ ,‬מהו ה‪ Y-‬המצופה?‬‫פיתרון‪ :‬ערך הנקודה ‪ Y‬על קו הרגרסיה‪.‬‬
‫ בהינתן הפרש של ‪ 1‬ב‪ X-‬מהו ההפרש המצופה ב‪?Y-‬‬‫פיתרון‪ :‬הניחוש להפרש יהיה השיפוע‪.‬‬
‫ תיאור החותך‪ :‬הערך המצופה כאשר ‪( X=0‬אם ‪ X=0‬לא‬‫בטווח התצפיות זוהי אקסטרפולציה)‬
‫אקסטרפולציה‪ :‬ניבוי ערכי ‪ Y‬עבור ערכי ‪ X‬שאינם בטווח‬
‫תכונות האר"פ‪:‬‬
‫למציאת אר"פ אין‬
‫חסרי הטייה‪ E  ˆ0    0 E  ˆ1    1 :‬שימוש בהנחת‬
‫הנורמליות‬
‫עקיבים‪:‬‬
‫‪1‬‬
‫‪S XX‬‬
‫‪2‬‬
‫‪ ‬‬
‫‪Var ˆ1  ‬‬
‫‪1‬‬
‫‪‬‬
‫‪, Y‬‬
‫‪X‬‬
‫‪‬‬
‫‪‬‬
‫‪n2‬‬
‫‪t1  / 2‬‬
‫ר"ס לשיפוע (ר"ס ‪:)1-α‬‬
‫ˆ‪‬‬
‫‪S XX‬‬
‫‪XiX‬‬
‫‪1‬‬
‫‪S XX‬‬
‫‪n‬‬
‫‪ˆ1 ‬‬
‫מקרה פרטי‪H 0 :  1  0 , H 1 C :  1  0 :‬‬
‫‪F1 , n  2 ‬‬
‫‪,Y‬‬
‫‪1 1  00‬‬
‫‪2‬‬
‫‪ Xi‬‬
‫‪nS XX‬‬
‫‪2‬‬
‫‪ ‬‬
‫‪Var ˆ0  ‬‬
‫וגם אנ"מים‪.‬‬
‫ככל ששונות ה‪ X-‬שבתצפיות יותר גדולה (המרחק‬
‫ביניהם)‪ ,‬יש יותר ביטחון בשיפוע הקו שמתקבל על‪-‬ידם‪.‬‬
‫דוגמא‪ :‬יש לבחור ‪ 4‬ערכי ‪ X‬שעבורם נמדוד את הקו‪.‬‬
‫פיתרון‪ :‬נרצה ‪-X‬ים שייתנו ‪ S X X‬מקסימאלי כדי ש‪-‬‬
‫‪ V ar  ˆ1    2 S X X‬יהיה מינימאלי‪:‬‬
‫כאשר לא ידוע שהמודל הוא ליניארי‪,‬‬
‫נבחר תצפיות יותר מפוזרות‪:‬‬
‫מבוא לסטטיסטיקה (‪ – )324490‬חורף תשע"א‬
‫‪ 1 X‬‬
‫‪2‬‬
‫‪‬‬
‫‪|  1 | X  Y‬‬
‫‪M SR‬‬
‫‪ˆ1 S X X‬‬
‫‪2‬‬
‫‪‬‬
‫‪M SE‬‬
‫‪H0‬‬
‫ˆ‪‬‬
‫‪2‬‬
‫‪2‬‬
‫‪T ‬‬
‫זהו הסטטיסטי בעמודה ‪ F‬ב‪.ANOVA-‬‬
‫פלט הרגרסיה‪:‬‬
‫‪ 1  X‬‬
‫)‪Cov(X,Y‬‬
‫‪ X ,Y ‬‬
‫‪σY‬‬
‫אומד למקדם המתאם‪:‬‬
‫‪S XY‬‬
‫‪S X X S YY‬‬
‫‪ Yi  Y ‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪  Yi  Y‬‬
‫‪ Xi  X‬‬
‫‪2‬‬
‫‪‬‬
‫‪ Xi  X‬‬
‫‪R‬‬
‫תכונות‪:‬‬
‫‪ .1‬ערך ‪ R‬סימטרי עבור ‪ X‬ו‪.Y-‬‬
‫‪ .2‬ערך ‪ R‬לא תלוי ביחידות המדידה של ‪.X,Y‬‬
‫‪ R≈0 .3‬מעיד על חוסר קשר ליניארי (ייתכן‬
‫שישנו קשר שאינו ליניארי)‪.‬‬
‫‪ .4‬כאשר הקשר ליניארי‪ |R| ,‬מודד את חוזקו‪.‬‬
‫‪ .5‬יכול להתקבל ‪ R‬גבוה גם‬
‫כאשר הקשר לא ליניארי‪.‬‬
‫‪ R .6‬רגיש לתצפיות חריגות‬
‫(מודל הרגרסיה מניח שאין‬
‫תצפיות חריגות)‪.‬‬
‫הערה‪ :‬לא ניתן להסתמך על‬
‫‪ R2‬גבוה לקביעת ליניאריות‪ .‬ניתן להסתמך על‬
‫נמוך לקביעת חוסר ליניאריות‪.‬‬
‫‪Regression Statistics‬‬
‫‪Multiple R‬‬
‫‪R‬‬
‫‪R Square‬‬
‫‪R2‬‬
‫‪Adjusted R Square‬‬
‫‪Standard Error‬‬
‫ˆ‪‬‬
‫‪Observations‬‬
‫‪n‬‬
‫‪SY‬‬
‫‪SX‬‬
‫‪R‬‬
‫‪S XX‬‬
‫ביטוי קו הרגרסיה‪:‬‬
‫‪ANOVA Table‬‬
‫‪Sum of‬‬
‫‪Mean Squares‬‬
‫‪F‬‬
‫‪Pvalue‬‬
‫‪Squares‬‬
‫‪SSR‬‬
‫‪MSR=SSR‬‬
‫‪MSR/MSE‬‬
‫)‪P(F>f‬‬
‫‪SSE‬‬
‫)‪MSE=SSE/(n-2‬‬
‫‪SST‬‬
‫‪ :F‬סטטיסטי המבחן לבדיקת ההשערה‪.H0: β1=0 :‬‬
‫‪ Pvalue‬קטן‪ :‬עדות חזקה לכך שיש קשר בין ‪ X‬ל‪.Y-‬‬
‫‪T for H0: β0/1=0‬‬
‫‪H1: β0/1≠0‬‬
‫‪Pvalue‬‬
‫‪R‬‬
‫‪S‬‬
‫‪ˆ1  XY ‬‬
‫‪S XX‬‬
‫‪X X‬‬
‫‪SX‬‬
‫‪R‬‬
‫ע"י‪:‬‬
‫משמעות‪ :‬תקנון ‪ .X,Y‬אם ‪ X‬גבוה מהממוצע‬
‫אז ‪ Y‬יהיה רק פי ‪ R‬גבוה מהממוצע‪.‬‬
‫‪ Y : R<1‬יתקרב לממוצע – "רגרסיה"‪.‬‬
‫‪ :R=1‬אין רגרסיה לממוצע‪.‬‬
‫‪ :R=0‬רגרסיה מלאה‪ ,‬הניבוי הוא ממוצע ה‪.Y‬‬
‫הערה‪ :‬אם ‪ X‬סטיית‪-‬תקן אחת מהממוצע‬
‫(‪ ,)SX‬נצפה ש‪ Y-‬יהיה ‪ R‬סטיות תקן‬
‫מהממוצע‪.‬‬
‫‪‬‬
‫‪‬‬
‫התפלגות האמד‪:‬‬
‫‪ ‬‬
‫‪SY‬‬
‫‪ n2 ‬‬
‫‪ˆ  x 0   ˆ 0  ˆ1 x 0‬‬
‫‪V a r ˆ1‬‬
‫‪Y Y‬‬
‫‪Degrees of‬‬
‫‪Freedom‬‬
‫‪1‬‬
‫‪n-2‬‬
‫‪n-1‬‬
‫‪Standard Error‬‬
‫‪Source of‬‬
‫‪Variation‬‬
‫רגרסיה‬
‫שארית‬
‫‪Total‬‬
‫‪Parameter‬‬
‫‪Estimate‬‬
‫‪Variable‬‬
‫עבור אותן‬
‫‪0‬‬
‫‪2‬‬
‫‪ˆ0‬‬
‫‪ˆ0   0 ˆ ‬‬
‫‪ˆ ˆ  SˆY  ˆ  X i nS XX‬‬
‫‪0‬‬
‫השערות‪:‬‬
‫‪0‬‬
‫ההסתברות‬
‫‪0‬‬
‫ˆ‬
‫ˆ‬
‫ˆ‬
‫‪1‬‬
‫‪ˆ ˆ  S X  ˆ S X X‬‬
‫להיות גדול‬
‫‪1  1 ˆ   F‬‬
‫‪1‬‬
‫‪1‬‬
‫או קטן מ‪T-‬‬
‫‪ Pvalue‬בשורה של השיפוע שווה ל‪ Pvalue-‬ב‪.ANOVA-‬‬
‫ר"ס לתוחלת של ‪ Y‬בהינתן ‪:X‬‬
‫אמידת התוחלת של ‪ Y‬בהינתן ‪:X‬‬
‫אמידת ‪E  Y | X  x 0    0   1 x 0   x 0 ‬‬
‫‪2‬‬
‫‪‬‬
‫‪-‬חסר הטייה‬
‫משוואת הרגרסיה‪:‬‬
‫‪S XX S YY‬‬
‫‪S XX‬‬
‫‪‬‬
‫‪ˆ   c i Yi , c i   X‬‬
‫עבור ‪ X,Y‬המקיימים‪Y   0   1 X :‬‬
‫‪1‬‬
‫‪  Yi  Y‬‬
‫‪S Y  S YY n 1‬‬
‫האומד לישר הרגרסיה‪:‬‬
‫‪2‬‬
‫‪C o v  X ,Y‬‬
‫‪2‬‬
‫‪‬‬
‫‪C ov ˆ0 , ˆ1   ‬‬
‫ניתן להציג את האמד לחותך בצורה הבאה‪:‬‬
‫‪0≤R ≤1‬‬
‫‪SST‬‬
‫מקדם המתאם‪:‬‬
‫‪1‬‬
‫‪  X i  Yi  Y    X i Yi  n X Y‬‬
‫‪ Yi‬‬
‫‪‬‬
‫‪2‬‬
‫‪R ‬‬
‫‪X‬‬
‫‪‬‬
‫הערה‪  X ,Y  0 :‬לא גורר ‪ X,Y‬ב"ת!‬
‫נוסחאות לאמידת קו הרגרסיה‪:‬‬
‫‪2‬‬
‫‪SSR‬‬
‫‪‬‬
‫עבור ‪ X,Y‬ב"ת‪(  X ,Y  0 :‬ענן חסר צורה)‪.‬‬
‫ˆ‬
‫ˆ‬
‫‪ b0   0  Y   1 X‬קו הרגרסיה עובר‬
‫‪  X i  X  Yi  Y  S‬‬
‫דרך נקודת‬
‫ˆ‬
‫‪b1   1 ‬‬
‫‪ XY‬‬
‫‪2‬‬
‫‪S XX‬‬
‫‪ Xi  X ‬‬
‫הממוצעים ‪X , Y‬‬
‫‪ X i  X  Yi‬‬
‫‪1‬‬
‫‪SST‬‬
‫‪1) n b0  b1  X i   Yi 2 ) b 0  X i  b1  X i   X i Yi‬‬
‫‪ ‬‬
‫‪‬‬
‫‪SSE   e i   Yi  Yˆi‬‬
‫‪2‬‬
‫‪S XX‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪N   0 ,‬‬
‫‪‬‬
‫‪‬‬
‫‪ˆ 0‬‬
‫‪ i : C ov  ˆ , e i   0 , C ov ˆ , e i  0‬‬
‫מקדם המתאם הליניארי‪:‬‬
‫זהו מדד לתרומת המשתנה המסביר‪.‬‬
‫‪ :R2‬האומד לריבוע מקדם המתאם הליניארי‪.‬‬
‫זהו ‪ %‬השונות המוסברת של ‪ Y‬ע"י המודל‪.‬‬
‫)‪1‬‬
‫‪ b0‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪ Xi ‬‬
‫‪‬‬
‫‪nS X X ‬‬
‫‪ˆ1 N   1 ,‬‬
‫‪C ov ˆ ,Y  0‬‬
‫‪SST    Yi  Y‬‬
‫‪2‬‬
‫‪nS XX‬‬
‫ˆ‪ˆ 0  ‬‬
‫האמדים לחותך ולשיפוע מתפלגים נורמאלית‪:‬‬
‫‪0‬‬
‫‪H0‬‬
‫‪t1  / 2‬‬
‫‪T‬‬
‫‪ˆ1   1‬‬
‫‪S XX‬‬
‫‪2‬‬
‫‪ Xi‬‬
‫‪n2‬‬
‫ר"ס לחותך‪:‬‬
‫‪  S YY‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪SSR    Yi  Y   ˆ1 S X X  S X Y‬‬
‫‪g  b0 , b1     Yi   b0  b1 X i  ‬‬
‫‪ X ‬‬
‫‪‬‬
‫‪ ‬‬
‫‪ - SSR‬השונות המוסברת‪ -SSE ,‬אינה‬
‫מוסברת‪.‬‬
‫‪S XX‬‬
‫‪N‬‬
‫‪nS XX H 0‬‬
‫‪0‬‬
‫הם אנ"מים ל‪-‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪i‬‬
‫‪ˆ ˆ1  ˆ 2 S X X‬‬
‫‪E ˆ1   1 , V ar‬‬
‫אם ‪ σ‬ידועה‪N  0 ,1  :‬‬
‫‪‬‬
‫‪ˆ 0   0‬‬
‫תוצאות חשובות לבניית סטטיסטי המבחן‪:‬‬
‫פירוק סכומי הריבועים‪:‬‬
‫מדגם מקרי‪,  X n ,Yn  :‬‬
‫אומדי ריבועים פחותים‪ :‬הישר המביא למינימום את‬
‫סכום ריבועי המרחקים האנכיים בין כל נקודה לישר‪.‬‬
‫‪nS X X‬‬
‫אם ‪ σ‬ידועה‪:‬‬
‫‪ - SST: SST  SSR  SSE‬סה"כ השונות‬
‫) ‪N ( 0 ,‬‬
‫‪ X ‬‬
‫ˆ‪‬‬
‫טענה‪ n  2  2  2  2n  2  :‬‬
‫אומדי נראות מירבית‪:‬‬
‫טענה‪ :‬תחת הנחת הנורמליות‬
‫‪i‬‬
‫‪H0‬‬
‫‪2‬‬
‫‪i‬‬
‫‪‬‬
‫‪2‬‬
‫‪V ar ˆ1  ˆ S X X‬‬
‫‪Yi   0   1 X   i ,  X 1 ,Y1  ,‬‬
‫‪ˆ 0   0‬‬
‫‪T‬‬
‫‪SSE   ei  e‬‬
‫אמידת שונות האר"פ‪:‬‬
‫השונות של ‪Y‬‬
‫בהינתן ‪ X‬קבועה‬
‫ב‪ X-‬והיא עולה‬
‫כפונקציה של ‪X‬‬
‫משמעות ‪ :  2‬ככל שהשונות יותר קטנה‪ ,‬נצפה‬
‫שהתצפיות יהיו קרובות לישר הרגרסיה האמיתית‪.‬‬
‫‪n2‬‬
‫בדיקת השערות על השיפוע‪:‬‬
‫‪ n-2‬בגלל‬
‫‪    Y     x  2 ˆ 2  SSE‬אמידת‬
‫‪i‬‬
‫‪0‬‬
‫‪1 i‬‬
‫החותך‬
‫‪n2‬‬
‫והשיפוע‬
‫‪2‬‬
‫‪2‬‬
‫טענה‪( E  ˆ    :‬אמד חסר הטייה)‪.‬‬
‫‪n2 2‬‬
‫‪ˆ ˆ1 ,‬‬
‫ˆ‪‬‬
‫‪0,‬‬
‫‪n‬‬
‫‪‬‬
‫בדיקת השערות ורווחי סמך‪:‬‬
‫‪ ‬על‪-‬סמך שונות השאריות‪:‬‬
‫‪2‬‬
‫‪YY‬‬
‫‪ˆ ‬‬
‫‪n2‬‬
‫הסטייה הטיפוסית‬
‫מקו הרגרסיה‬
‫‪ -  i‬מרחק התצפית מהקו האמיתי‪.‬‬
‫השארית‪ :‬לכל תצפית‪-‬‬
‫‪1  R  S‬‬
‫‪1  R  S‬‬
‫‪2‬‬
‫‪n 1‬‬
‫‪2‬‬
‫‪Y‬‬
‫‪2‬‬
‫‪ -Y‬משתנה מוסבר‪ -X .‬משתנה מסביר‪.‬לכל ‪ ,Y‬ההתפלגות‬
‫תיאור גרפי של המודל‪:‬‬
‫המותנית של ‪Y‬‬
‫בהינתן ‪ X‬היא‬
‫נורמאלית‬
‫השונות הבלתי מוסברת‪:‬‬
‫‪ei  Yi  Yˆi  Yi  ˆ0  ˆ1 X i‬‬
‫בדיקת השערות על החותך‪:‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪2‬‬
‫‪2‬‬
‫‪‬‬
‫‪ x0  X ‬‬
‫‪S XX‬‬
‫‪E ˆ  x 0      x 0 ‬‬
‫‪  x0  X‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪n‬‬
‫‪ 0   2  n ‬‬
‫‪1‬‬
‫‪  0 ‬‬
‫‪V a r ˆ x‬‬
‫‪‬‬
‫‪ 2 C o v Y , ˆ1‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪ ‬‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪S XX‬‬
‫‪t‬‬
‫‪S XX‬‬
‫‪1‬‬
‫‪2‬‬
‫‪‬‬
‫‪‬‬
‫‪n‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪2 1 ‬‬
‫‪ˆ  x 0  N   0   1 x 0 ,  ‬‬
‫הנחות לבניית רווח תחזית‪:‬‬
‫ קשר ליניארי‪.‬‬‫ שונות סטיות קבועה לכל ‪. X‬‬‫ אין תצפיות חריגות‪.‬‬‫‪ -‬התפלגות הסטיות נורמאלית‪.‬‬
‫שיפוע‬
‫‪‬‬
‫‪‬‬
‫ˆ‪E  Y | X  x 0  ˆ0  ˆ1 x 0  ‬‬
‫‪‬‬
‫‪‬‬
‫‪1‬‬
‫‪n‬‬
‫הערה‪ :‬ר"ס צר ביותר יתקבל עבור ‪. x0  X‬‬
‫רווח תחזית‪:‬‬
‫בניית רווח עבור תצפית חדשה ‪ y0‬בהינתן ‪,x0‬‬
‫שמרכזו על קו הרגרסיה והוא סימטרי סביבו‪.‬‬
‫‪‬‬
‫הנחה‪:‬‬
‫‪2‬‬
‫‪2‬‬
‫הערה חשובה‪ :‬שונות מינימאלית‪. x0  X -‬‬
‫‪x0  X‬‬
‫‪‬‬
‫‪ x0  X ‬‬
‫‪‬‬
‫חותך‬
‫‪n2‬‬
‫‪‬‬
‫‪2‬‬
‫‪t‬‬
‫‪1‬‬
‫‪‬‬
‫‪N  0   1 x ,‬‬
‫‪ x0  X ‬‬
‫‪1‬‬
‫‪S XX‬‬
‫‪n‬‬
‫‪ Y0 | X  x 0 ‬‬
‫‪ˆ0  ˆ1 x 0  ˆ 1  ‬‬
‫‪ -PI( P  Y0  P I   1  ‬רווחת התחזית)‪.‬‬
‫הערה‪ :‬כאשר ‪ , n  ‬ר"ס קטן והופך לנקודה‪,‬‬
‫אבל אורך רווח תחזית שואף ל‪. |2 z1 / 2 | :‬‬
‫הערה‪ :‬תמיד הר"ס מוכל ברווח תחזית‪ .‬ככל‬
‫שמתרחקים מ‪ X -‬דיוק ר"ס פחות טוב‪ ,‬ואילו‬
‫הרווח תחזית נשאר זהה (הקווים כמעט ישרים)‪.‬‬
‫© ענת עציון‬