n - C-faculty

[2] 代表値と散らばり
[2-1] 授業で用いるデータの説明
[2-2] 代表値
[2-3] 散らばりと四分位範囲
[2-4] 分散と標準偏差
[2-1]A 授業で用いるデータの説明
●東京都の 23 区と八王子市に関する統計データを用
いる。
(出典:統計でみる市区町村のすがた 2014
http://www.stat.go.jp/data/s-sugata/index.htm)
●統計データの例:
人口総数、外国人人口、昼間人口、単独世帯数、婚
姻件数、失業率、商業事業所数、中学校教員数、地
方税収、持家率、飲食店数、建物火災出火件数など
[2-1a]A 授業で用いるデータの説明
●東京都の 23 区と八王子市の地図
(出典:http://www.metro.tokyo.jp/PROFILE/map_to.htm)
[2-2b]A 代表値
●度数分布表
観測値のとりうる値をいくつかの階級に分け、そ
れぞれの階級で観測値がいくつあるか度数を数え
て表にしたもの
●階級値:階級の上限値と下限値の中間値
●相対度数:各階級に属する観測値の個数の全体の中
での割合
●累積度数:階級ごとの度数を下の階級から順に積上
げたときの度数
●累積相対度数:各階級の累積度数の全体の中での割合
[2-2c]A 代表値
●度数分布表の例:東京 23 区と八王子の雇用者比率
階級
55%以上60%未満
60%以上65%未満
65%以上70%未満
70%以上75%未満
75%以上80%未満
相対 累積 累積
階級値 度数
相対
度数 度数 度数
57.5
4
0.17
4 0.17
62.5
5
0.21
9 0.38
67.5
7
0.29
16 0.67
72.5
6
0.25
22 0.92
77.5
2
0.08
24
1
[2-2d]A 代表値
●ヒストグラム:度数分布表の階級を横軸に度数を縦
軸にしたグラフ(雇用者比率)
[2-2e]A 代表値
●変量 x についてのデータの値が、n 個の値 x1 , x2 ,...xn
であるとき、それらの総和を n で割ったものを、デー
タの平均値といい、 x で表す。
x  ( x1  x2    xn ) / n
●度数分布表からの平均値の求め方:
階級数 k で i 番目の階級の階級値が yi 、その度数が
f i のとき、この度数分布表における平均値 y は
y  ( y1 f1  y2 f 2    yk f k ) / k となる。
●分布表から雇用者比率の平均値を求めると 66.9%と
なり、24 個の観測値の平均値は 67.1%となる。
[2-2f]A 代表値
●データを値の大きさの順に並べたとき、中央の位置
にくる値を中央値またはメジアンという。
●データの大きさが偶数のとき、中央に2つの値が並
ぶが、その場合は2つの値の平均値を中央値とする。
●例えば、東京都の 24 市区の雇用者比率のデータでは、
12 位が練馬区の 68.0%、13 位が墨田区の 69.0%な
ので、中央値は 68.5%となる。
[2-2g]A 代表値
●データにおいて、最も個数の多い値を、そのデータ
の最頻値またはモードという。
身体障害者
更 生援護
施 設数
千代田区 0
中央区 0
港区 0
新宿区 1
文京区 0
台東区 0
墨田区 0
江東区 0
品川区 0
目黒区 0
大田区 2
世田谷区 1
渋谷区 0
中野区 0
杉並区 0
豊島区 1
北区 0
荒川区 0
板橋区 1
練馬区 0
足立区 0
葛飾区 1
江戸川区 2
八王子市 2
●上の表のデータでは、モードは0である。
●雇用者比率のデータではモードは意味をなさない。
[2-2h]C 代表値
●度数分布表を作成する場合に問題となるのは、階級
数と階級幅の設定であるが、統一的ルールはない。
●さらに、作成者のはずれ値あるいは異常値の扱い方
によって度数分布表は異なってくる。
●統計の利用者は個々のデータを入手できることはま
れで、通常は度数分布表どまりの場合が多い。
●したがって、度数分布表からデータの平均値や中央
値、最頻値を求めなくてはならないことがある。平
均値については、[2-2e]で説明済み。
[2-2i]A 代表値
雇用者比率
相対 累積 累積
階級
階級値 度数
相対
度数 度数 度数
55%以上60%未満
57.5
4
0.17
4 0.17
60%以上65%未満
62.5
5
0.21
9 0.38
65%以上70%未満
67.5
7
0.29
16 0.67
70%以上75%未満
72.5
6
0.25
22 0.92
75%以上80%未満
77.5
2
0.08
24
1
上表の場合の最頻値は 67.5%。中央値は

(70  65)(0.5  0.38)
 65  67.1%
0.67  0.38
[2-2j]A 代表値
●雇用者比率について、度数分布表から求めた平均値、
中央値、最頻値はそれぞれ、66.9%、67.1%、67.5%
であり、他方、もとのデータから求めた平均値、中
央値はそれぞれ、67.1%、68.5%であった。
●雇用者比率の場合、もとのデータから最頻値を求め
ても意味をなさない(理由:基本的には全ての値は
異なっており、最頻値はないのが自然だから)。
●雇用者比率の場合、もとのデータから求めた値と度
数分布表から求めた値については、平均値ではほと
んど差がないが、中央値ではやや差があった。
[2-2k]B 代表値
●出生率(人口1万人当たり出生数)
●平均値は 85 人、中央値は 82 人(もとのデータ)
[2-2l]B 代表値
●データの分布と平均値、中央値との大小関係
●雇用者比率のヒストグラムをみると、データの分布
は概ね左右対称であり、元データから求めた平均値
と中央値はそれぞれ 67.1%、68.5%と乖離は小さい。
●出生率のヒストグラムをみると、データの分布が左
に偏っており、元データから求めた平均値と中央値
はそれぞれ 85 人、82 人となり、中央値<平均値。
●はずれ値の影響なども考慮すると、代表値としては、
平均値よりも中央値が優れている場合が多い。
[2-3]A 散らばりと四分位範囲
●野球の2チームの先発メンバー9人の体重をヒスト
グラムにした。
Aチームのヒストグラム
Bチームのヒストグラム
5
5
4
4
3
3
2
2
1
1
0
0
65
70
75
80
85
65
70
75
80
85
[2-3a]A 散らばりと四分位範囲
●平均値、中央値、最頻値ともに、両チームは同じ 75kg
●ヒストグラムをみると、A チームの方が B チームよ
りも散らばりの度合いが大きい。
●散らばりの度合いを比較するための量→範囲
●範囲=データの最大値-最小値
●A チームのデータの範囲は 85-65 = 20
B チームのデータの範囲は 80-70 = 10
●データの範囲は A チームが B チームより大
[2-3b]B 散らばりと四分位範囲
●両チームのデータの範囲は 20 と同じ
Cチームのヒストグラム
5
4
3
2
1
0
65
70
75
80
85
[2-3c]B 散らばりと四分位範囲
●範囲が同じでも A チームと C チームの散らばりが異
なる。
●範囲はデータの最大値と最小値だけで決まるので、
極端な値の影響を受けやすいという欠点もある。
●以上から範囲とは別の尺度を考える必要がある。
●データを値の大きさの順に並べて4等分する位置に
くる数を第1四分位数(Q1)、第2四分位数(Q2)、第3
四分位数(Q3)といい、第2四分位数は中央値である。
[2-3d]B 散らばりと四分位範囲
●データが 1,2,3,4,5,6 の 6 個とき、Q1=2, Q2=3.5,
Q3=5
●データが 1,2,3,4,5,6,7 の 7 個のとき、Q1=2, Q2=4,
Q3=6
●データが 1,2,3,4,5,6,7,8 の 8 個のとき、Q1=2.5,
Q2=4.5, Q3=6.5
●データが 1,2,3,4,5,6,7,8,9 の 9 個のとき、Q1=2.5,
Q2=5, Q3=7.5
●データが 1,2,3,4,5,6,7,8,9,10 の 10 個のとき、Q1=3,
Q2=5.5, Q3=8
[2-3e]B 散らばりと四分位範囲
● A チ ー ム の デ ー タ に つ い て は 、 Q1=70, Q2=75,
Q3=80
●Cチームのデータについては、Q1=67.5, Q2=75,
Q3=82.5
●四分位範囲=Q3-Q1
A チームは 10, C チームは 15
●四分位偏差=(Q3-Q1)/2
A チームは 5, C チームは 7.5
●四分位範囲あるいは四分位偏差でみると、C チーム
の方が A チームよりも散らばりが大きい。
[2-3f]B 散らばりと四分位範囲
●箱ひげ図はデータの最小値、第1分位数、中央値、
第3分位数、最大値を箱と線(ひげ)で表現する
Aチーム
Bチーム
Cチーム
●データの散らばりを大きい順に並べると、C チーム、
A チーム、B チームとなる。
0
127人以上142人未満
2
112人以上127人未満
4
97人以上112人未満
6
82人以上97人未満
8
67人以上82人未満
75%以上80%未満
70%以上75%未満
65%以上70%未満
60%以上65%未満
55%以上60%未満
[2-3g]B 散らばりと四分位範囲
●雇用者比率(左図)と出生率(右図)
14
12
10
8
6
4
2
0
[2-4]B 分散と標準偏差
●データの平均値の周りにおける散らばりを考える。
●変量 x についてのデータの値が、n 個の値 x1 , x2 ,...xn
であり、平均値を x とすると、 i 番目の値 xi に対する
( xi  x ) を偏差といい、このデータの分散 s 2 は、
s 2  {( x1  x )2  ( x2  x )2    ( xn  x )2} / n.
標準偏差 s は、
s  {( x1  x )  ( x2  x )  ( xn  x ) } / n.
2
2
2
[2-4a]B 分散と標準偏差
●分散 s について、記号  を用いて書き直すと、
2
n
s 2   ( xi  x ) 2 / n.
i 1
2
●また、以下のように、分散 s は別の定式化も可能で
ある。
n
n
i 1
i 1
s 2   xi2 / n  2 x  xi / n  ( x ) 2
n
  xi2 / n  ( x ) 2 .
i 1
すなわち、2乗したものの平均から平均の2乗を引
いたものに等しい(こちらの方の計算が速い場合が多い)
。
[2-4b]B 分散と標準偏差
Aチームのヒストグラム
Bチームのヒストグラム
Cチームのヒストグラム
5
5
5
4
4
4
3
3
3
2
2
2
1
1
1
0
0
0
65
70
75
80
85
65
70
75
80
85
A チームの分散は 33、標準偏差は 6
B チームの分散は 11、標準偏差は 3
C チームの分散は 56、標準偏差は 7
65
70
75
80
85
[2-4c]B 分散と標準偏差
●A チームの国語と数学の試験の得点分布
数学
国語
3
3
2
2
1
1
0
0
75
80
85
90
95
50
55
60
65
70
●分散は国語も数学も 33 で等しいが散らばりの程度
は同じか?
[2-4d]B 分散と標準偏差
●変動係数=標準偏差/平均値
国語の変動係数は 0.39 で数学の変動係数は 0.56
●標準化得点=(原数値-平均値)/標準偏差
●偏差値=50 + 10×標準化得点
[2-4e]B 分散と標準偏差
[例題 1]
ある高校の国語の平均は 85 点で分散は 25 点であり、
数学の平均は 60 点で分散は 64 点であった。E 君は国
語で 90 点、数学で 70 点をとった。どちらの成績が良
いか。
[解答 1]
●国語の偏差値  50 10  (90  85) / 25  61.0
数学の偏差値  50 10  (70  60) / 64  61.25
数学の成績の方が良い。
[2-4f]B 分散と標準偏差
●はずれ値や異常値に留意
昼間人口/総人口
千代田区 17.4
中央区 4.9
港区 4.3
新宿区 2.3
文京区 1.7
台東区 1.7
墨田区 1.1
江東区 1.2
品川区 目黒区 大田区 世田谷区 渋谷区 中野区 杉並区 豊島区 1.4 北区 1.1 荒川区 1 板橋区 0.9 練馬区 2.5 足立区 0.9 葛飾区 0.9 江戸川区 1.5 八王子市 1
0.9
0.9
0.8
0.9
0.9
0.8
1
●24 市区の標準偏差は 3.3 だが、
千代田区を除くと 1.1