過去問題
過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。
- 統計検定3級(2019.11)【問題】(統計検定公式)<※期間限定>
- 統計検定3級(2019.11)【正解】(統計検定公式)
問1 解答
(量的変数)
$\boxed{ \ \mathsf{1}\ }$ ②
量的変数は計算できる数量を扱う変数です。すべてが数字で構成されている変数であっても、「郵便番号」や「商品コード」のような計算できない変数は、量的変数ではなく質的変数になります。
問2 解答
(量的変数と棒グラフ)
$\boxed{ \ \mathsf{2}\ }$ ④
質的変数の度数を表すのには、棒グラフがよく用いられます。棒の高さで度数を表すので、棒の高さの比率が崩れないのであれば、必ずしも度数そのものではなく、全カテゴリの度数の合計で割った値で描いてもかまいません。
Ⅱは、カテゴリ間に順序がある場合、その順序は情報として必要なことが多いので、棒の順番は自由に変えることはできません。逆にカテゴリ間に順序がない場合は、むしろ度数の多い順番で並び替えるなど、情報を伝えやすい工夫をすることが重要です。
問3 解答
(ヒストグラム)
$\boxed{ \ \mathsf{3}\ }$ ⑤
ヒストグラフは棒グラフと似ていますが、連続変数に対しては、「階級の順番」や「階級の幅」も重要な情報となるので、柱の順番は階級の順番に従いますし、柱の幅は階級の幅に応じて変えて描きます。また、柱の高さは、柱の面積が度数に比例するように描く必要があります。
問4 解答
(平均、標準偏差、変動係数)
$n$個のデータ$x_1,x_2,\cdots,x_n$の平均、分散、標準偏差は次のように計算します。
・平均 $\displaystyle \bar x=\frac1n\sum_{i=1}^n x_i=\frac1n(x_1+x_2+\cdots+x_n)$
・分散 $\displaystyle s^2=\frac1n\sum_{i=1}^n(x_i-\bar x)^2=\frac1n\left\{(x_1-\bar x)^2+(x_2-\bar x)^2+\cdots+(x_n-\bar x)^2\right\}$
・標準偏差 $\displaystyle s=\sqrt{s^2}=\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}$
また、変動係数は平均のサイズが大きく異なるときに、標準偏差を平均で標準化したものです。
・変動係数 $\displaystyle CV=\frac{s}{\bar x}$
[1]
$\boxed{ \ \mathsf{4}\ }$ ③
元のデータに定数$a$を加算した場合、平均の値は
$\displaystyle \bar x_a=\frac1n\sum_{i=1}^n (x_i+a)=\frac1n(x_1+x_2+\cdots+x_n+na)=\bar x+a$
となり、加算した定数分が元の平均に加算されます。
一方、分散は
$\displaystyle s_a^2=\frac1n\sum_{i=1}^n(x_i+a-\bar x_a)^2=\frac1n\sum_{i=1}^n\{x_i+a-(\bar x+a)\}^2=\frac1n\sum_{i=1}^n(x_i-\bar x)^2=s^2$
となり、元の分散を同じ値になるので、標準偏差も元の値と変わりません。
[2]
$\boxed{ \ \mathsf{5}\ }$ ①
元のデータを実数$b$倍した場合、平均の値は
$\displaystyle \bar x_b=\frac1n\sum_{i=1}^n bx_i=\frac1n(bx_1+bx_2+\cdots+bx_n)=\frac1nb(x_1+x_2+\cdots+x_n)=b\bar x$
となり、元の平均の$b$倍になります。
一方、分散は
$\displaystyle s_b^2=\frac1n\sum_{i=1}^n(bx_i-\bar x_b)^2=\frac1n\sum_{i=1}^n(bx_i-b\bar x)^2=\frac1nb^2\sum_{i=1}^n(x_i-\bar x)^2=b^2s^2$
となり、元の分散の実数の$b^2$倍になります。したがって、標準偏差は元の標準偏差の$b$倍になります。
平均も標準偏差も同じ実数倍となりますので、変動係数の値は変化しません。
英語、数学の点数を$50$点満点になるようにすると、英語は$1/4$倍、数学は$1/2$倍となるので、
・英語平均 $112\times1/4=28$、 英語標準偏差 $16\times1/4=4$、
英語分散 $4\times4=16$、 英語変動係数 $4/28\fallingdotseq0.143$
・数学平均 $48\times1/2=24$、 数学標準偏差 $10\times1/2=5$、
数学分散 $5\times5=25$、 数学変動係数 $5/24\fallingdotseq0.208$
問5 解答
(偏差、標準偏差)
$\boxed{ \ \mathsf{6}\ }$ ③
試験結果の平均、標準偏差はそれぞれ、
$\displaystyle \bar x=\frac1n\sum_{i=1}^n x_i=\frac1{40}\times2,400=60$
$\displaystyle s=\sqrt{s^2}=\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}=\sqrt{\frac1{40}\times4,840}=\sqrt{121}=11$
となります。
点数から平均点を引いたものは(平均からの)偏差といいます。偏差の合計は、
$\displaystyle \sum_{i=1}^n(x_i-\bar x)=\sum_{i=1}^nx_i-n\bar x=n\bar x-n\bar x=0$
となります。
また、偏差の2乗の合計の式は、変形すると、
$\displaystyle \begin{eqnarray}\sum_{i=1}^n(x_i-\bar x)^2=\sum_{i=1}^n(x_i^2-2x_i\bar x+\bar x^2)&=&\sum_{i=1}^nx_i^2-\sum_{i=1}^n2x_i\bar x+\sum_{i=1}^n\bar x^2\\&=&\sum_{i=1}^nx_i^2-2\bar x\sum_{i=1}^nx_i+n\bar x^2\\&=&\sum_{i=1}^nx_i^2-2n\bar x^2+n\bar x^2\\&=&\sum_{i=1}^nx_i^2-n\bar x^2\end{eqnarray}$
となるので、
$\displaystyle \sum_{i=1}^nx_i^2+n\bar x^2=4,840+40\times60^2=148,840$
となります。
※)偏差の2乗の合計の式の変形をつかって分散を求めると、
$\displaystyle s^2=\frac1n\sum_{i=1}^n(x_i-\bar x)^2=\frac1n\left(\sum_{i=1}^nx_i^2-n\bar x^2\right)=\frac1n\sum_{i=1}^nx_i^2-\bar x^2$
となり、「データの2乗の平均」から「データの平均の2乗」を差し引いて分散を求めることができます。
問6 解答
(中央値、四分位範囲、箱ひげ図、散布図)
[1]
$\boxed{ \ \mathsf{7}\ }$ ②
データと小さい順に並べ、$4$分の$1$ずつの場所にある値を、第1四分位数、第2四分位数、第3四分位数といいます。第2四分位数はいわゆる中央値となります。また第3四分位数と第1四分位数の差を四分位範囲といいます。
審査員1の点数を小さい順に並べると、
$84\quad86\quad88\quad90\quad90\quad92\quad93\quad93\quad93\quad94$
となるので、
第1四分位数$=88$、中央値$=$第2四分位数$=(90+92)/2=91$、第3四分位数$=93$
となります。四分位範囲は$93-88=5$となります。
[2]
$\boxed{ \ \mathsf{8}\ }$ ①
与えられたデータから各審査員の得点の5数要約を求めると、次のようになります。
審査員1 最小値$=84$、第1四分位数$=88$、中央値$=91$、第3四分位数$=93$、最大値$=94$
審査員2 最小値$=84$、第1四分位数$=87$、中央値$=91$、第3四分位数$=93$、最大値$=94$
審査員3 最小値$=81$、第1四分位数$=85$、中央値$=90.5$、第3四分位数$=92$、最大値$=98$
これにより、箱ひげ図の最小値、最大値をみると、$C$が審査員3、第1四分位数をみると、$B$が審査員2、$A$が審査員1であることがわかります。
[3]
$\boxed{ \ \mathsf{9}\ }$ ④
1組目の芸人の点数は審査員1が$84$点、審査員2が$87$点となっており、この点が描かれているグラフは④のみとなります。ほかの点数についても④のグラフに正しく反映されています。
なお、②は審査員2と審査員3の点数、③は審査員1と審査員3の点数の散布図となっています。
問7 解答
(散布図、相関係数、共分散)
[1]
$\boxed{ \ \mathsf{10}\ }$ ③
散布図からりんごの支出額とバナナの支出額の間には相関関係が見られないことから、相関係数は$0$に近い値となります。(相関関係が強くなるほど、散布図上の点は直線状に分布することになります。)
[2]
$\boxed{ \ \mathsf{11}\ }$ ③
$n$個のデータの組$(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$としたとき、共分散は次のように計算します。
$\displaystyle \begin{eqnarray}s_{xy}&=&\frac1n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\\&=&\frac1n\{(x_1-\bar x)(y_1-\bar y)+(x_2-\bar x)(y_2-\bar y)+\cdots+(x_n-\bar x)(y_n-\bar y)\}\end{eqnarray}$
ここで、$\displaystyle \bar x=\frac1n\sum_{i=1}^n x_i,\quad \bar y=\frac1n\sum_{i=1}^n y_i$です。
また、相関係数は次のように計算します。
$\displaystyle r_{xy}=\frac{s_{xy}}{s_xs_y}=\frac{\frac1n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}\sqrt{\frac1n\sum_{i=1}^n(y_i-\bar y)^2}}$
Ⅰ.7月の支出額はバナナは6月の支出額の$1.2$倍、りんごは6月の支出額の$1.1$倍となります。したがって分散は、バナナは$1.2^2=1.44$倍、りんごは$1.1^2=1.21$倍になります。(問4[2]参照)
Ⅱ.7月のバナナの支出額とりんごの支出額の共分散は、
$\displaystyle \begin{eqnarray}\frac1n\sum_{i=1}^n(1.2x_i-1.2\bar x)(1.1y_i-1.1\bar y)&=&\frac1n\sum_{i=1}^n\left\{1.2\times(x_i-\bar x)\times1.1\times(y_i-\bar y)\right\}\\&=&1.2\times1.1\times\frac1n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\\&=&1.32s_{xy}\end{eqnarray}$
となります。
Ⅲ.7月のバナナの支出額とりんごの支出額の相関係数は、
$\displaystyle \frac{1.32s_{xy}}{(1.2s_x)(1.1s_y)}=\frac{s_{xy}}{s_xs_y}$
となり、6月の支出額の相関係数と同じになります。
問8 解答
(散布図、相関)
$\boxed{ \ \mathsf{12}\ }$ ①
散布図から、得失点差が大きいほど勝利数も大きい傾向にあります。したがって、得失点差と勝利数には強い正の相関があります。(強い正の相関があるときは、散布図の点は左下から右上への直線状に分布します。)したがって、Ⅰのみ正しい記述となります。
問9 解答
(乱数表)
$\boxed{ \ \mathsf{13}\ }$ ③
Ⅰ.乱数表全体で考えると、ある特定の数字列が出現する可能性がないとは言い切れません。(出現するかもしれません。)
Ⅱ.乱数表に出現する数字には、特定の規則性があってはなりません。
Ⅲ.指定された数字から、1文字ずつ数字を見ていくと、$3\ 8\ 8\ 5\ 8\ 1\ 4\ 1\ 6\cdots$となっています。これを3文字ずつ順番に抽出すると、$388,\ 581,\ 416,\cdots$となります。
問10 解答
(散布図、最頻値、箱ひげ図)
[1]
$\boxed{ \ \mathsf{14}\ }$ ⑤
散布図の点を縦方向に見ていくと、点の数が最も多いのは$9$点で$5$人です。よって、国語の点数の最頻値は$9$点となります。
散布図の点を横方向に見ていくと、点の数が最も多いのは$9$点で$4$人です。よって、数学の点数の最頻値は$9$点となります。
[2]
$\boxed{ \ \mathsf{15}\ }$ ②
人数(データ数)が$15$人なので、データを小さい順に並べたときに、中央値は下から$8$人目の値、第1四分位数は下から$4$人目と$5$人目の平均値、第3四分位数は下から$11$人目と$12$人目の平均値となります。
以上を踏まえて、国語および数学の点数の5数要約を求めると、次のようになります。
国語 最小値$=5$、第1四分位数$=7$、中央値$=8$、第3四分位数$=9$、最大値$=10$
数学 最小値$=4$、第1四分位数$=6$、中央値$=8$、第3四分位数$=9$、最大値$=10$
これにより、箱ひげ図をみると、②が正しい箱ひげ図となります。(①は国語の最小値が、③は数学の第1四分位数が、④は数学の中央値がそれぞれ間違っています。)