情報化推進レター

早稲田大学の学生・教職員の皆様に情報化推進計画のお知らせを配信させていただきます 。

巻末コラム

統計数字と向き合う

メディアネットワークセンター助手 池原一哉

通勤・通学時に電車の吊り広告で,表1のような予備校の授業形態と合格率に関する調査結果を見かけたとします。これは,集団授業を実施している塾と個別指導を行っている塾にそれぞれ通う学生が, X大学の教育学部を受験した結果です。この表から,どのようなことが読み取れるでしょうか。

表1 予備校と合格率に関するクロス表(性別ごと)
  男性 女性
合格者 受験者 合格率 合格者 受験者 合格率
集団授業塾 48 240 20% 30 60 50%
個別指導塾 3 20 15% 32 80 40%
合計 51 260 19.6% 62 140 44.3%

表1はクロス表と呼ばれ,複数の事象間の関連性を検討する際に用いられます。このクロス表を見ると,男性においても女性においても,集団授業塾の方が合格率は高いことがわかります。この結果から,X大学の教育学部へ入るためには,集団授業塾に通うのがよいと考えることができます。

ところが,男女を分けずに,全体でクロス表を求めるとどうなるでしょうか。全体での合格率は表2のようになります。全体でのクロス表からは,個別指導塾の方が合格率は高くなっていることがわかります。学生が予備校を選ぶ際の判断材料の1つとして,合格率を参考にすることは当然です。しかし,どちらのクロス表を提示されるかによって,学生の選択が変わってしまう可能性があります。

以上のように,全体集団と下位集団で傾向の異なるクロス表が観察されることがあります。全体か部分かという視点を変えるだけで,合格率という統計数字の比較結果が簡単に変わってしまいます。これは,統計数字をもとに行う判断や比較がいかに難しいかを表す好例と言えます。

表2 予備校と合格率に関するクロス表(全体)
  全体
 合格者   受験者   合格率 
集団授業塾 78 300 26%
個別指導塾 35 100 35%
合計 113 400 28.3%

クロス表の他に,事象間の関連性を検討する方法として,散布図と相関係数があります。散布図は,2つの変数間(事象間)の関係性を考察する際に用いられる図で,例えば,数学と理科の2つのテスト得点の関係性をみる場合には,数学のテスト得点を横軸に,理科のテスト得点を縦軸にとって,2次元のグラフを描きます。図1には,学生100人の数学と理科のテスト得点の散布図を示しました。数学の点数が高い人ほど理科の点数も高いと解釈でき,2変数間には関連性があると言えます。

また,相関係数という指標を利用しても,2変数間の関係性を考察できます(1)。相関係数は,-1から+1までの値をとり,絶対値が1に近いほど,2変数間には強い関連性があると解釈します。相関係数の値が正であれば「2変数には正の相関がある」(2)といい,負の値であれば「負の相関がある」(3)と言います。また,相関係数の値が0に近ければ,「無相関である」と言います。先ほどの数学と理科のテストの相関係数を計算すると,相関係数が0.8になりますので,2変数間には強い相関があると解釈できます。

しかし,相関係数の値が高いからといって,2つの事象間に関連性があると断定することは早計です。たとえば,「年収」と「肥満度」の相関係数が0.7だった場合,単純に相関係数の値を解釈すると,「肥満度が高い人ほど年収も高くなる」となります。しかし,この解釈は常識的に考えて無理があります。ここで,2つの変数に加えて,「年齢」という変数も考慮し3変数間の関係性を考察します。一般的に,「年齢」が高くなれば「年収」も増え,「年齢」を重ねるほど「肥満度」も高くなる傾向にあります(図2)。つまり,「年齢」と「年収」,「年齢」と「肥満度」には正の相関関係があり,「年齢」が高くなると,「肥満度」も「年収」も高くなります。したがって,先程の「肥満度が高い人ほど年収が高くなる」という関係性には,「年齢」という別の変数が影響していたと言えます。

上述の「年齢」のように,関係性を知りたい2変数以外の変数は第3の変数と呼ばれます。当該の変数だけでなく,第3の変数の影響について考えることも,相関係数という統計数字を解釈する上では重要になります。

図1数学と理科のテスト得点の散布図図2年齢と年収と肥満度の関係性

新聞や雑誌,テレビやネットなどを見ると,私たちの身の回りに,いかに統計数字が溢れているかが実感できます。調査や実験によって,それらの統計数字が得られたということは確かに「事実」かもしれません。しかし,それがどういう意味を持つのか,どういう解釈ができるのかについては,状況や立場,視点によって異なります(4)。単純に統計数字やその解釈を鵜呑みにするのではなく,自分の目で確かめ,自分の手で集めた情報を参考に,統計数字に向き合うようにしましょう。今まで気付かなかった新たな発見があるかもしれません。その一助となるのが統計学という学問です。ぜひ,大学時代に,勉強してみてください。

注釈
(注)ここで示したデータはすべて架空例です。
(1)正確には,直線的な関係性を表す指標です。
(2)「正の相関がある」とは,一方の変数の値が大きくなると他方の変数の値も大きくなり,また,一方の変数の値が小さくなると他方の変数の値も小さくなるという関係です。代表的な例として,「身長」と「体重」が挙げられます。一般的に,身長が高ければ体重も重く,身長が低ければ体重は軽いです。したがって,「身長と体重には正の相関がある」と言えます。
(3)「負の相関がある」とは,一方の変数の値が大きくなると他方の変数の値が小さくなり,また,一方の変数の値が小さくなると他方の変数の値が大きくなるという関係です。負の相関係数が見られる例として,「最寄り駅からの距離」と「家賃」が挙げられます。駅から離れるほど家賃は安いですが,駅に近いと家賃は高くなります。よって,「駅からの距離と家賃には負の相関がある」と言えます。
(4)調査方法や調査時期によっても変わります。
Copyright(C)Media Network Center, Waseda University. All rights reserved.