1.3.4 中央値・最頻値 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.3.4$節「中央値・最頻値」の内容を元に、左右対称ではない観測値の分布の中心の表し方に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「中央値」・「最頻値」の概要

概要

観測値が左右対称に分布するとき、平均と標準偏差を計算することで観測値の分布を大まかに把握することができますが、左右対称でない分布では平均や標準偏差が意味をなさない場合があります。

役職 平社員平社員平社員平社員役員
年収 $220$$230$$270$$280$$4,000$

たとえば上記のような会社がある場合に、$5$人の平均年収は$1,000$万ですが、平社員の年収は$220$〜$280$万であり、平均年収$1,000$万の会社と見るのはそれほど適切ではありません。このように偏りのある分布を取り扱う場合によく用いられるのが中央値や最頻値です。当記事では以下で詳しく確認します。

必要な数学

中央値・最頻値は数式で表すと必要以上に複雑になるので、$2$級範囲では数学の前提知識は必要ありません。それぞれの定義を抑えるだけで基本的に十分なので、難しく考えないというのが重要だと思います。

中央値・最頻値

中央値

中央値(median)は数字を小さい順に並べた際に真ん中の値になります。$5$個の観測値の場合は$3$番目、$9$個の観測値の場合は$5$番目の観測値の値をそれぞれ考えれば良いです。前節の年収の例では$3$番目が$270$万なので中央値は$270$万になり、概ね中心であると考えても直感的に妥当であると思います。

観測値の数が奇数の場合はちょうど真ん中の観測値が存在しますが、偶数の場合は$6$個の観測値の場合の$3$番目と$4$番目のように中心の値が$2$つ存在します。このような場合は$3$番目と$4$番目の観測値の平均を計算することが多いです。

最頻値

最頻値(mode)は、度数分布表の一番大きな区間を抽出することに対応します。直感的にはヒストグラムの一番高い区間を最頻値とすれば良いです。