Download Report

( X i  X) 2 とすると
基礎統計 2015/5/29
mcobaya.web.fc2.com/kisotokei/index_ut.htm
[email protected]
宿題 3 の間違い
X ~ N ( p, p(1  p ) / N ), pˆ  X を使わないもの
3) 学術論文では、本文中に参照しない文献は参考文献
リストに含めない。(間違いとまでは言えないが)
第2章
( X 1  X) 2  ...  ( X N  X) 2
N 1
で見当をつける（推定）することができる。分散の推定量を不
1) 区間推定ではなく、仮説検定を行うもの。P.221 参照
2)
s2 
偏分散という。(N-1 でわる理由は。教科書 222。後で)
N が十分大きい時は精度も高い
ので、標本（不偏）分散 s2
を母分散  で代用してもよいとしよう。N が多いのかどうか
2
の判断基準、分散の誤差を考慮する方法は後で）
確率変数(続き)
共分散
Case 1：分散  が不明、N が大きい（とみなす）
共分散が正の値をとるとき正の相関
N=16 人の生徒の標本平均
共分散が負の値をとるとき負の相関
 2 の不偏分散 s 2 =64,標準偏差 s  8(=64 の平方根)が十分
共分散が 0 のとき無相関
精度の高い推定と仮定し、 =64,標準偏差 
2
=50 であった。N(  ,  )たいし、
2
2
質問：共分散 cov(Y,X)=E((Y-E(Y))(X-E(X)))が大きい値のと
き、X,Y の相関(関連)が強いといってよいか。
理由：
C を定数とすると、共分散の計算公式 E(c)=c なので
(1) V(X+Y)= V(X)+V(Y)+2cov(X,Y)
(2) cov(c,X)=E((c-c)(X-E(X)))＝E(0)=0
(3) cov(cY,X)=E((cY-cE(Y))(X-E(X)))＝cE((Y-E(Y))(XE(X)))=c*cov(X,Y)

8 とできる。
z  ( X   ) /  2 / N は平均 0,分散１の標準正規分布になる。
 E ( X   )      0, V ( X   )  V ( X )   2 / n,
V (( X   ) /  2 / n )   2 / n / (  2 / n ) 2  1,
Pr(| ( X   ) /  2 / N | 1.96)  0.05 より
Pr( X  1.96  2 / N    X  1.96  2 / N )  0.95
Pr( X  1.96  2 / N    X  1.96  2 / N )  0.95
(4) V(X+c)=V(X)、V(cX)=c2V(X)
相関係数
X,Y の相関係数=cov(X,Y)/√(V(X)*V(Y))
-1<=相関係数<=1
X
証明はシュワルツの不等式と同じで、
解釈：
X
は、ほぼ確実に期待値  から 1.96
 2 / N 以内の距
離にある。逆に考えると、未知の  はほぼ確実に
V(tX-Y)= t2V(X)+V(Y)-2tcov(X,Y)>=0 は t= cov(X,Y)/V(X)で
1.96  2 / N  2  SE 以内の距離にある。
最小値 V(Y)- Cov(X,Y)2/V(X)をとり、これが 0 以上であること
注意：１．９６は実務的には２と考えてよい。
X
から
から、1>= Cov(X,Y)2/(V(X)V(Y))
例：Y=1+2*X と直線的な関係が厳密に成立するとき、
この方法で作る信頼区間は 95%の確率で真実の値を含む。
Cov(Y,X)=Cov(1+2*X,X)=cov(1,X)+cov(2*X,X)=0+2*cov(X,X)
（95％の確率で魚を捕まえる網のようなもの）
=2*V(X),
99％の信頼区間は 25±2.6×0.2
V(Y)=V(2X+1)=4V(X)
当然、99％の信頼区間は信頼係数は高くなるが 30%広くなるの
したがって、相関係数の分母は 2*V(X)、分子も 2*V(X)となり、
で有用性は低くなる。
一致し、相関係数=1
N が大きくなると、信頼区間は狭まる。
練習 Y=1-2*X のとき、相関係数=-1 を示せ。
注意：分布の標準偏差/√N＝推定量の標準偏差(誤りやすい）推
定量の分布の標準偏差を標準誤差（SE）という。
p.207 N(  ,  )において分散  が未知の場合のμの区間推
注意：95%（もしくは 99%）を使うのは習慣。1.96, 2.6 という
定、検定
数値はよく使うので覚えておくと良い。
分散  は
（p.109 の話は後回し。
）
2
2
2
「変量の分布の平均  からの偏差の二乗」の平均
なので、 X で  を代用し、平均  からの偏差の二乗を
N がそれほど大きくなく、不偏分散分 2 による母分散  の推定
2
誤差を考える場合。p. 208
(( X 1  X ) 2  ...  ( X n  X ) 2 )
t  ( X   ) / s / N の分布は当然、標準正規分布とは異なる。
2
 (( X 1   )  ( X   )) 2  ...  (( X n   )  ( X   )) 2
 ( X 1   )   ...  ( X n   )   n( X   ) 2
この t の分布は正規分布より分布の裾が広がり(fat tail)、かつ中
 ( X 1   )( X   )  ...  ( X n   )( X   )
心が尖った分布になる。教科書 p.209 の図参照。
 ( X   )( X 1  ..  X n  n )  n( X   )( X   )
裾が広いので、上側５%点、１%点は正規分布よりも原点から遠
より
ざかる。ただしこの t 分布の形は自由度とよばれるパラメター
(( X 1  X )2  ...  ( X n  X ) 2 )
に依存し、ここで用いた不偏分散 s の場合には n-1(サンプル
 ( X 1   )  ...  ( X n   )   n( X   ) 2
サイズから１を引く）。当然 n が無限大（自由度も無限大）な
と変形してからの期待値をとると、右辺の期待値は
ら、 s は  に一致するので教科書 p.325 の数表の一番下の行
n 2  n( 2 / n)  (n  1) 2
は正規分布のもの（上川５%点は 1.645）に一致する。しかし、
したがって、
2
2
2
有限の自由度の場合、ｔ分布の上側５%点は正規分布の上側
E (s 2 ) 
n 2  n( 2 / n)
2
n 1
の差なので、サンプルサイズがある程度大きい時には、正規分
p.211
N(  ,  )において既知μの場合の  2 の区間推定
布の値を使っても実用上支障がない。両側 5%点は、正規分布
Q：なぜ分散を推定せねばならないのか。
にたいして
A.
５%点よりも常に大きい（例：自由度２０のときは 1.725) 約５%
1.96 だが自由度 20 にｔ分布では 2.086 とやはり
2
製品に品質のばらつきがあると役にたたない。
5%以内の差。人によって異なるが自由度が 20(N=21)より大き
Q. μが既知とは非現実性ではないか。
い時は正規分布と考えて良い。先ほどの N=16 人の場合には、
A.確かに非現実的だが、次のμが未知の場合の説明のため必要。
自由度は「
カイ二乗分布
」になるので、表より両側 5%点は「
」
となるので、区間推定は
Pr( X  ***  2 / N    X  ***  2 / N )  0.95
p.222
不偏分散
独立な確率変数
X 1 , , X N が期待値 E( Xi )   ，分散
V ( xi )   の正規分布に従うならば、正規分布の和は正規分
2
布なので、したがって標本平均も正規分布となり、
E( X )  , V ( X )   2 / N
という期待値、分散を持つ。（p.182）以下はその計算課程であ
る。
X 1 , , X N の独立性より
 X  ..  X n  E ( X 1 )  ..  E ( X n )
E( X )  E  1
 ,

n
n


 X  ..  X n  1
V(X ) V  1
  2 V  X 1  ..  X n 
n

 n
1
 2 V ( X 1 )  ..  V ( X n )    2 / n
n
p.201 不偏分散
s 2 =[(x1  x ) 2 +...+(xn  x ) 2 ] / ( n  1)
にたいして E ( s )   の証明
2
2
( X 1   )   ...  ( X n   ) 
2
たがう。数表は p.326
は自由度ｎの(カイ二乗)分布にし

tæ¤å®

ã¹ã©ã¤ã

abcdocz.com

tæ¤å®

ã¹ã©ã¤ã

abcdocz.com

tæ¤å®

ã¹ã©ã¤ã