1.3.5 範囲・四分位範囲 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.3.5$節「範囲・四分位範囲」の内容を元に、左右対称でない分布の散らばり度合いを表す指標に用いられる四分位範囲に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「範囲・四分位範囲」の概要

概要

観測値の散らばりを表すにあたっては分散に基づく標準偏差が用いられることが多い一方で、標準偏差は平均を用いて計算することから左右対称でない分布に対しては適切ではない場合が多いです。

このような場合に中心を表す指標である中央値・最頻値と同時に用いられることが多いのが「範囲・四分位範囲」です。範囲は最大値・最小値が外れ値である場合も多いので、実用的には四分位範囲が用いられることが多いです。以下、範囲・四分位範囲に関して詳しく確認を行います。

必要な数学

四分位範囲は基本的に中央値と同様に考えるので、定義さえ理解できれば数学的な表現はそれほど重要ではありません。

範囲・四分位範囲

範囲

範囲$R$は「最大値$-$最小値」で定義されます。範囲を考えることで値がどのくらい散らばっているかを判断することができます。たとえば試験の最高点と最低点を元に範囲を計算することで、試験の各問題の難易度の評価などを行うことが可能です。

範囲は左右対称でない分布に関しても計算することができますが、外れ値が存在する場合に範囲が大きくなるなど、全体の傾向を見るには適さない場合があります。よって、一般に散らばり度合いを確認する際は次項で確認する四分位範囲を用いることが多いです。

四分位範囲

四分位範囲は、中央値と同じ要領で考えると理解しやすいです。観測値を小さい順に並べた際に、全体の$25$%、$50$%、$75$%にある値をそれぞれ$Q1, Q2, Q3$とおきます。このとき$Q1, Q2, Q3$をそれぞれ第$1$四分位数、第$2$四分位数、第$3$四分位数といいます。

ここで第$2$四分位数の$Q2$が中央値に一致することも合わせて抑えておくと良いです。また四分位範囲(interquartile range)を$IQR$とおくと、$IQR$は下記のように定義されます。
$$
\large
\begin{align}
IQR = Q3 – Q1
\end{align}
$$

上記の$1/2$の$IQR/2$を四分位偏差(quartile deviation)といい、分布が左右対称でない場合に標準偏差の代わりに用いられることが多いです。