[2] 代表値と散らばり [2-1] 授業で用いるデータの説明 [2-2] 代表値 [2-3] 散らばりと四分位範囲 [2-4] 分散と標準偏差 [2-1]A 授業で用いるデータの説明 ●東京都の 23 区と八王子市に関する統計データを用 いる。 (出典:統計でみる市区町村のすがた 2014 http://www.stat.go.jp/data/s-sugata/index.htm) ●統計データの例: 人口総数、外国人人口、昼間人口、単独世帯数、婚 姻件数、失業率、商業事業所数、中学校教員数、地 方税収、持家率、飲食店数、建物火災出火件数など [2-1a]A 授業で用いるデータの説明 ●東京都の 23 区と八王子市の地図 (出典:http://www.metro.tokyo.jp/PROFILE/map_to.htm) [2-2b]A 代表値 ●度数分布表 観測値のとりうる値をいくつかの階級に分け、そ れぞれの階級で観測値がいくつあるか度数を数え て表にしたもの ●階級値:階級の上限値と下限値の中間値 ●相対度数:各階級に属する観測値の個数の全体の中 での割合 ●累積度数:階級ごとの度数を下の階級から順に積上 げたときの度数 ●累積相対度数:各階級の累積度数の全体の中での割合 [2-2c]A 代表値 ●度数分布表の例:東京 23 区と八王子の雇用者比率 階級 55%以上60%未満 60%以上65%未満 65%以上70%未満 70%以上75%未満 75%以上80%未満 相対 累積 累積 階級値 度数 相対 度数 度数 度数 57.5 4 0.17 4 0.17 62.5 5 0.21 9 0.38 67.5 7 0.29 16 0.67 72.5 6 0.25 22 0.92 77.5 2 0.08 24 1 [2-2d]A 代表値 ●ヒストグラム:度数分布表の階級を横軸に度数を縦 軸にしたグラフ(雇用者比率) [2-2e]A 代表値 ●変量 x についてのデータの値が、n 個の値 x1 , x2 ,...xn であるとき、それらの総和を n で割ったものを、デー タの平均値といい、 x で表す。 x ( x1 x2 xn ) / n ●度数分布表からの平均値の求め方: 階級数 k で i 番目の階級の階級値が yi 、その度数が f i のとき、この度数分布表における平均値 y は y ( y1 f1 y2 f 2 yk f k ) / k となる。 ●分布表から雇用者比率の平均値を求めると 66.9%と なり、24 個の観測値の平均値は 67.1%となる。 [2-2f]A 代表値 ●データを値の大きさの順に並べたとき、中央の位置 にくる値を中央値またはメジアンという。 ●データの大きさが偶数のとき、中央に2つの値が並 ぶが、その場合は2つの値の平均値を中央値とする。 ●例えば、東京都の 24 市区の雇用者比率のデータでは、 12 位が練馬区の 68.0%、13 位が墨田区の 69.0%な ので、中央値は 68.5%となる。 [2-2g]A 代表値 ●データにおいて、最も個数の多い値を、そのデータ の最頻値またはモードという。 身体障害者 更 生援護 施 設数 千代田区 0 中央区 0 港区 0 新宿区 1 文京区 0 台東区 0 墨田区 0 江東区 0 品川区 0 目黒区 0 大田区 2 世田谷区 1 渋谷区 0 中野区 0 杉並区 0 豊島区 1 北区 0 荒川区 0 板橋区 1 練馬区 0 足立区 0 葛飾区 1 江戸川区 2 八王子市 2 ●上の表のデータでは、モードは0である。 ●雇用者比率のデータではモードは意味をなさない。 [2-2h]C 代表値 ●度数分布表を作成する場合に問題となるのは、階級 数と階級幅の設定であるが、統一的ルールはない。 ●さらに、作成者のはずれ値あるいは異常値の扱い方 によって度数分布表は異なってくる。 ●統計の利用者は個々のデータを入手できることはま れで、通常は度数分布表どまりの場合が多い。 ●したがって、度数分布表からデータの平均値や中央 値、最頻値を求めなくてはならないことがある。平 均値については、[2-2e]で説明済み。 [2-2i]A 代表値 雇用者比率 相対 累積 累積 階級 階級値 度数 相対 度数 度数 度数 55%以上60%未満 57.5 4 0.17 4 0.17 60%以上65%未満 62.5 5 0.21 9 0.38 65%以上70%未満 67.5 7 0.29 16 0.67 70%以上75%未満 72.5 6 0.25 22 0.92 75%以上80%未満 77.5 2 0.08 24 1 上表の場合の最頻値は 67.5%。中央値は (70 65)(0.5 0.38) 65 67.1% 0.67 0.38 [2-2j]A 代表値 ●雇用者比率について、度数分布表から求めた平均値、 中央値、最頻値はそれぞれ、66.9%、67.1%、67.5% であり、他方、もとのデータから求めた平均値、中 央値はそれぞれ、67.1%、68.5%であった。 ●雇用者比率の場合、もとのデータから最頻値を求め ても意味をなさない(理由:基本的には全ての値は 異なっており、最頻値はないのが自然だから)。 ●雇用者比率の場合、もとのデータから求めた値と度 数分布表から求めた値については、平均値ではほと んど差がないが、中央値ではやや差があった。 [2-2k]B 代表値 ●出生率(人口1万人当たり出生数) ●平均値は 85 人、中央値は 82 人(もとのデータ) [2-2l]B 代表値 ●データの分布と平均値、中央値との大小関係 ●雇用者比率のヒストグラムをみると、データの分布 は概ね左右対称であり、元データから求めた平均値 と中央値はそれぞれ 67.1%、68.5%と乖離は小さい。 ●出生率のヒストグラムをみると、データの分布が左 に偏っており、元データから求めた平均値と中央値 はそれぞれ 85 人、82 人となり、中央値<平均値。 ●はずれ値の影響なども考慮すると、代表値としては、 平均値よりも中央値が優れている場合が多い。 [2-3]A 散らばりと四分位範囲 ●野球の2チームの先発メンバー9人の体重をヒスト グラムにした。 Aチームのヒストグラム Bチームのヒストグラム 5 5 4 4 3 3 2 2 1 1 0 0 65 70 75 80 85 65 70 75 80 85 [2-3a]A 散らばりと四分位範囲 ●平均値、中央値、最頻値ともに、両チームは同じ 75kg ●ヒストグラムをみると、A チームの方が B チームよ りも散らばりの度合いが大きい。 ●散らばりの度合いを比較するための量→範囲 ●範囲=データの最大値-最小値 ●A チームのデータの範囲は 85-65 = 20 B チームのデータの範囲は 80-70 = 10 ●データの範囲は A チームが B チームより大 [2-3b]B 散らばりと四分位範囲 ●両チームのデータの範囲は 20 と同じ Cチームのヒストグラム 5 4 3 2 1 0 65 70 75 80 85 [2-3c]B 散らばりと四分位範囲 ●範囲が同じでも A チームと C チームの散らばりが異 なる。 ●範囲はデータの最大値と最小値だけで決まるので、 極端な値の影響を受けやすいという欠点もある。 ●以上から範囲とは別の尺度を考える必要がある。 ●データを値の大きさの順に並べて4等分する位置に くる数を第1四分位数(Q1)、第2四分位数(Q2)、第3 四分位数(Q3)といい、第2四分位数は中央値である。 [2-3d]B 散らばりと四分位範囲 ●データが 1,2,3,4,5,6 の 6 個とき、Q1=2, Q2=3.5, Q3=5 ●データが 1,2,3,4,5,6,7 の 7 個のとき、Q1=2, Q2=4, Q3=6 ●データが 1,2,3,4,5,6,7,8 の 8 個のとき、Q1=2.5, Q2=4.5, Q3=6.5 ●データが 1,2,3,4,5,6,7,8,9 の 9 個のとき、Q1=2.5, Q2=5, Q3=7.5 ●データが 1,2,3,4,5,6,7,8,9,10 の 10 個のとき、Q1=3, Q2=5.5, Q3=8 [2-3e]B 散らばりと四分位範囲 ● A チ ー ム の デ ー タ に つ い て は 、 Q1=70, Q2=75, Q3=80 ●Cチームのデータについては、Q1=67.5, Q2=75, Q3=82.5 ●四分位範囲=Q3-Q1 A チームは 10, C チームは 15 ●四分位偏差=(Q3-Q1)/2 A チームは 5, C チームは 7.5 ●四分位範囲あるいは四分位偏差でみると、C チーム の方が A チームよりも散らばりが大きい。 [2-3f]B 散らばりと四分位範囲 ●箱ひげ図はデータの最小値、第1分位数、中央値、 第3分位数、最大値を箱と線(ひげ)で表現する Aチーム Bチーム Cチーム ●データの散らばりを大きい順に並べると、C チーム、 A チーム、B チームとなる。 0 127人以上142人未満 2 112人以上127人未満 4 97人以上112人未満 6 82人以上97人未満 8 67人以上82人未満 75%以上80%未満 70%以上75%未満 65%以上70%未満 60%以上65%未満 55%以上60%未満 [2-3g]B 散らばりと四分位範囲 ●雇用者比率(左図)と出生率(右図) 14 12 10 8 6 4 2 0 [2-4]B 分散と標準偏差 ●データの平均値の周りにおける散らばりを考える。 ●変量 x についてのデータの値が、n 個の値 x1 , x2 ,...xn であり、平均値を x とすると、 i 番目の値 xi に対する ( xi x ) を偏差といい、このデータの分散 s 2 は、 s 2 {( x1 x )2 ( x2 x )2 ( xn x )2} / n. 標準偏差 s は、 s {( x1 x ) ( x2 x ) ( xn x ) } / n. 2 2 2 [2-4a]B 分散と標準偏差 ●分散 s について、記号 を用いて書き直すと、 2 n s 2 ( xi x ) 2 / n. i 1 2 ●また、以下のように、分散 s は別の定式化も可能で ある。 n n i 1 i 1 s 2 xi2 / n 2 x xi / n ( x ) 2 n xi2 / n ( x ) 2 . i 1 すなわち、2乗したものの平均から平均の2乗を引 いたものに等しい(こちらの方の計算が速い場合が多い) 。 [2-4b]B 分散と標準偏差 Aチームのヒストグラム Bチームのヒストグラム Cチームのヒストグラム 5 5 5 4 4 4 3 3 3 2 2 2 1 1 1 0 0 0 65 70 75 80 85 65 70 75 80 85 A チームの分散は 33、標準偏差は 6 B チームの分散は 11、標準偏差は 3 C チームの分散は 56、標準偏差は 7 65 70 75 80 85 [2-4c]B 分散と標準偏差 ●A チームの国語と数学の試験の得点分布 数学 国語 3 3 2 2 1 1 0 0 75 80 85 90 95 50 55 60 65 70 ●分散は国語も数学も 33 で等しいが散らばりの程度 は同じか? [2-4d]B 分散と標準偏差 ●変動係数=標準偏差/平均値 国語の変動係数は 0.39 で数学の変動係数は 0.56 ●標準化得点=(原数値-平均値)/標準偏差 ●偏差値=50 + 10×標準化得点 [2-4e]B 分散と標準偏差 [例題 1] ある高校の国語の平均は 85 点で分散は 25 点であり、 数学の平均は 60 点で分散は 64 点であった。E 君は国 語で 90 点、数学で 70 点をとった。どちらの成績が良 いか。 [解答 1] ●国語の偏差値 50 10 (90 85) / 25 61.0 数学の偏差値 50 10 (70 60) / 64 61.25 数学の成績の方が良い。 [2-4f]B 分散と標準偏差 ●はずれ値や異常値に留意 昼間人口/総人口 千代田区 17.4 中央区 4.9 港区 4.3 新宿区 2.3 文京区 1.7 台東区 1.7 墨田区 1.1 江東区 1.2 品川区 目黒区 大田区 世田谷区 渋谷区 中野区 杉並区 豊島区 1.4 北区 1.1 荒川区 1 板橋区 0.9 練馬区 2.5 足立区 0.9 葛飾区 0.9 江戸川区 1.5 八王子市 1 0.9 0.9 0.8 0.9 0.9 0.8 1 ●24 市区の標準偏差は 3.3 だが、 千代田区を除くと 1.1
© Copyright 2024