【ハイキネ】ボクテキ アーカイブス -HyperKinesis-Thiking-

心理学、鉱物、脳科学、芸術、恋愛学、書籍、人生論、生物多様性、サブカル、農業、ハンドメイド、ハーブ。そんな悪食なボクのブログ。

データを分析するときによく使う「平均」は、実は存在しない数字?そして引力がある?

みなさんこんにちは!

ハイキネオーナーの門松タカシです!

 

ボクは会社でデータを分析する仕事もしているのですが、最近「平均値」について思ったことをエントリーいたします。

 

 

存在しない数字「平均」

事の発端は、愛読(?)しているDaiGoさんのニコ生チャンネル「心理分析してみた!」の放送で平均は存在しませんからね」という件の話を聞いたことです。

 

話の内容としては、とある国が戦闘機のコックピットの設計するにあたり、搭乗するパイロットの身長に合わせるため、全員の身長を測定し平均を出し、戦闘機を製造。

 

結果どうなったかというと、多くの人にとって使い勝手の悪い仕様になってしまった、というオチのお話でした。

 

どうもそのお話では、身長の高いグループと低いグループのそれぞれの割合が多かったようです。昔の話なんですかね。

 

これは極端な例かもしれませんが、分析する母集団のうち、割合の高い相対する数値(群)が離れれば離れるほど平均値は存在しなくなる、というワナがあります。

 

例を出すと、1と5の平均は3ですが、1と5ばかりの母集団の場合、平均の3を参考値にしようとしてもあまり使えるデータにはならないということですね。

 

平均を出す前にまずはボリュームゾーン

まぁ数字に詳しい人はご存知なのかもしれませんが、普通の会社で普通のサラリーマンをしている(しかも学生時代は文系)と、言われるまで気が付かないこともあります。

 

もし、「この存在しないかもしれない平均」を参考値にしたい場合は、まず各値の分布状況を把握する必要があります。つまりボリュームゾーンの把握です。

 

簡単な手順としては、最大値、最小値、平均値あたりを出して、適切な値で区切った連続した数字を並べ、各数字ごとの割合を調べます。

 

先ほどの例で言えば、1から5までの各数字の該当数を調べ割合を出します。

結果として、1と5が多くなるのであれば、それも踏まえた数字作りをすることになりますね。

 

どこからをボリュームゾーンとするかは結果によりますが、感覚的に値が多い付近をサンプルにとって、そこで平均を出してみるのが良いと思います。

 

平均による引き寄せの法則

もうひとつ平均にまつわる話で「平均には引力がある」という話があります。

 

データの分析ではなく、データの見せ方のお話になるのですが、これは特に従業員の業績をオープンにしている場所で顕になります。

 

どういうものかというと、全体の成績が見える環境で「平均」が見えていると、上も下も平均に引っ張れる現象が起きるそうです。

 

詳しくは調べていませんが、心理的バイアス、社会性による平準化、モラルライセンシングあたりが無意識に影響している可能性がありそうです。

 

数学的知識やセンスは意外と使える

学生時代から「完全なる文系」で通していたのボクですが、面白いことに社会人になってExcelを触りだしたら、磨いてこなかった数学の知識が意外に使えることがわかりました。

 

特に関数やその組み合わせには数学的思考とセンスが必要な気がしますので、「数学は役に立たない」といういう方は、ぜひExcelの関数を触って見えると良いかなと思います。

 

ノブレスオブリージュ今日もみなさまが世界の救世主たらんことを

ハイキネ 門松タカシ