ブログ

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜9. カイ二乗検定〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$9$「カイ二乗検定」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

適合度検定

Q.1

ア)
$1$等、$2$等、ハズレの$3$パターンあるので自由度は$3-1=2$である。

イ)
検定統計量の値$\chi^2$は下記のように計算できる。
$$
\large
\begin{align}
\chi^2 &= \frac{(5-0.2 \cdot 50)^2}{0.2 \cdot 50} + \frac{(12-0.3 \cdot 50)^2}{0.3 \cdot 50} + \frac{(5-0.5 \cdot 50)^2}{0.5 \cdot 50} \\
&= \frac{(5-10)^2}{10} + \frac{(12-15)^2}{15} + \frac{(33-25)^2}{25} \\
&= 5.66
\end{align}
$$

ウ)
自由度$2$の$\chi^2$分布$\chi^2(2)$の上側$5$%点は約$5.99$であるので帰無仮説は棄却できない。

上記より、④が正解である。

Q.2

ア)
確率が$p=1/6$のように既知であるので自由度は$6-1=5$である。

イ)
自由度$5$の$\chi^2$分布の上側$5$%点は$\chi^2_{\alpha=0.05}(5)=11.07>2.59$であるので帰無仮説は棄却できない。

上記より③が正解である。

Q.3

ア)
期待度数は夏季と冬季の値を元に下記のように計算できる。
$$
\large
\begin{align}
\frac{42+25}{2} = 33.5
\end{align}
$$

イ)
自由度$(2-1)(5-1)=4$の$\chi^2$分布の上側$5$%点は$\chi^2_{\alpha=0.05}(4)=9.49$であり、$9.49<20.41$であるので帰無仮説は棄却でき、$2$つの分布は同等でないといえる。

以上より④が正解である。

・参考
下記のような計算を実行することで検定統計量の計算や仮説検定を行うことができる。

import numpy as np
from scipy import stats

observed_x = np.array([[18., 42., 24., 11., 1.], [13., 25., 23., 19., 16.]])
expected_x = np.mean(observed_x,axis=0)
expected_x_mat = np.repeat(expected_x,2).reshape([5,2]).T

chi2 = np.sum((observed_x-expected_x_mat)**2/expected_x_mat)

if stats.chi2.ppf(1-0.05,4) < chi2:
    print("chi^2: {:.2f}, reject H_0.".format(chi2))
else:
    print("chi^2: {:.2f}, accept H_0.".format(chi2))

・実行結果

chi^2: 20.51, reject H_0.

Q.4

ア)
自由度は$5-1=4$である。

イ)
自由度$4$の$\chi^2$分布$\chi^2(4)$の上側$5$%点$\chi^2_{\alpha=0.05}(4)=9.49$であり、$9.49<12.0$より帰無仮説は棄却できるので「平均$2$のポアソン分布に従わない」といえる。

以上より、③が正しい。

・参考
下記のような計算を実行することでポアソン分布の確率関数に基づいて期待度数の計算を行うことができる。

import numpy as np
import math

lamb = 2.
prob = np.zeros(5)

for i in range(prob.shape[0]-1):
    prob[i] = lamb**i * np.e**(-lamb) / math.factorial(i)

prob[-1] = 1. - np.sum(prob[:-1])

print(prob*100)

・実行結果

[ 13.53352832  27.06705665  27.06705665  18.04470443  14.28765395]

独立性検定

Q.1

ア)
期待度数は下記のように計算できる。
$$
\large
\begin{align}
100 \times \frac{27}{100} \times \frac{49}{100} = 13.23
\end{align}
$$


自由度は$(2-1)(2-1)=1$である。

よって①が正解である。

・参考
自由度$1$の$\chi^2$分布$\chi^2(1)$を用いた検定は下記より行うことができる。

import numpy as np
from scipy import stats

observed = np.array([[19., 30.], [8., 43.]])
expected_p = np.array([[(27.*49.)/(100.**2), (73.*49.)/(100.**2)], [(27.*51.)/(100.**2), (73.*51.)/(100.**2)]])

chi2 = np.sum((observed-expected_p*100.)**2/(expected_p*100.))

if stats.chi2.ppf(1-0.05,1) < chi2:
    print("chi^2: {:.3f}, reject H_0.".format(chi2))
else:
    print("chi^2: {:.3f}, accept H_0.".format(chi2))

・実行結果

chi^2: 6.759, reject H_0.

Q.2

検定統計量の$\chi^2$の値は表$B$の総和の$6.60$である。また、自由度$(2-1)(3-1)=2$の片側$5$%検定を考えるので、$\chi^2_{\alpha=0.05}=5.99 < 6.60$より帰無仮説は棄却される。よって②が正解である。

・参考
表$B$は下記のような計算を行うことで作成できる。

import numpy as np

observed_x = np.array([[5., 10., 15.], [10., 5., 5.]])
expected_x = np.array([[15.*30./50., 15.*30./50., 20.*30./50.], [15.*20./50., 15.*20./50., 20.*20./50.]])

chi2_mat = (observed_x-expected_x)**2/expected_x

print(chi2_mat)

・実行結果

[[ 1.77777778  0.11111111  0.75      ]
 [ 2.66666667  0.16666667  1.125     ]]

Q.3

ア)
期待度数は下記のように計算できる。
$$
\large
\begin{align}
120 \times \frac{90}{120} \times \frac{64}{120} = 48
\end{align}
$$

イ)
下記のような計算を実行することで帰無仮説$H_0が$5$%で棄却できることが確認できる。

import numpy as np
from scipy import stats

observed_x = np.array([[53., 11.], [37., 19.]])
expected_x = np.array([[90.*64./120., 30.*64./120.], [90.*56./120., 30.*56./120.]])

chi2 = np.sum((observed_x-expected_x)**2/expected_x)

if stats.chi2.ppf(1.-0.05,1) < chi2:
    print("chi^2: {:.2f} > {:.2f}, reject H_0".format(chi2, stats.chi2.ppf(1.-0.05,1)))
else:
    print("chi^2: {:.2f} < {:.2f}, accept H_0".format(chi2, stats.chi2.ppf(1.-0.05,1)))

・実行結果

chi^2: 4.46 > 3.84, reject H_0

以上より、③が正解である。

Q.4

自由度$1$の$\chi^2$分布の上側$5$%点は$\chi^2_{\alpha=0.05}(1)=3.84$であり、$3.84<69.04$であるので有意水準$5$%で帰無仮説を棄却し、「風向きと季節には関連がある」といえる。よって⑤が正解である。

・参考
$\chi^2$統計量は下記のように計算できる。

import numpy as np

observed_x = np.array([[105., 15.], [102., 143.]])
n = np.sum(observed_x)
expected_x = np.array([[207.*120./n, 158.*120./n], [207.*245./n, 158.*245./n]])

chi2 = np.sum((observed_x-expected_x)**2/expected_x)

print("chi^2: {:.2f}".format(chi2))

・実行結果

chi^2: 69.03

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

4.4.1 母平均の差の検定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$4.4.1$節「母平均の差の検定」の内容を元に母分散既知・未知の場合の母平均の差の検定の方法について確認を行います。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「母平均の差の検定」の概要

概要

$L$ $90$$76$$90$$64$$86$$51$$72$$90$$95$$78$
$H$ $73$$102$$118$$104$$81$$107$$100$$87$$117$$111$
$C$ $116$$68$$32$$142$$110$$56$$94$$64$$92$$104$
「統計検定$2$級対応 統計学基礎」 第$4$章 例$6$

上記のように$L$、$H$、$C$の$3$つのグループに関して観測値が得られたとき、$2$グループを選んでそれぞれのグループの母平均に差があるかを調べる場合を考えます。

このときの一連の手順が「母平均の差の検定」であり、次節で「母分散既知の場合」、「母分散未知かつ等しい場合」、「母分散未知かつ等しくない場合」の$3$つに場合分けし、それぞれについて検定の手順を確認します。

必要な数学

$\sqrt{x}$や$x^2$の取り扱いなど、基本的な計算を抑えておけば十分です。

母平均の検定

母分散既知の場合

$L$からの標本の実現値$x_1, \cdots , x_m$が$\mathcal{N}(\mu_1,\sigma^2)$に基づいて生成され、$H$からの標本の実現値$y_1, \cdots , y_n$が$\mathcal{N}(\mu_2,\sigma^2)$に基づいて生成されると仮定します。

このとき、標本平均$\overline{X}, \overline{Y}$を下記のように定めます。
$$
\large
\begin{align}
\overline{X} &= \frac{1}{m} \sum_{i=1}^{m} X_i \\
\overline{Y} &= \frac{1}{n} \sum_{j=1}^{n} Y_j \\
\overline{X} & \sim \mathcal{N} \left( \mu_1,\frac{\sigma^2}{m} \right), \quad \overline{Y} \sim \mathcal{N} \left( \mu_2,\frac{\sigma^2}{n} \right)
\end{align}
$$

ここで標本平均の差の$\overline{X}-\overline{Y}$を考えるとき、正規分布のモーメント母関数などを用いることで下記を示すことができます。
$$
\large
\begin{align}
\overline{X}-\overline{Y} \sim \mathcal{N} \left( \mu_1-\mu_2, \frac{\sigma^2}{m}+\frac{\sigma^2}{n} \right)
\end{align}
$$

上記より、$\displaystyle \overline{X}-\overline{Y} \sim \mathcal{N} \left( \mu_1-\mu_2, \left(\frac{1}{m}+\frac{1}{n}\right)\sigma^2 \right)$が成立します。よって、検定統計量$Z$を下記のように定義することができます。
$$
\large
\begin{align}
Z &= \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{1}{m}+\frac{1}{n}}\sigma} \\
Z & \sim \mathcal{N}(0,1)
\end{align}
$$

上記に対し$\mu_1-\mu_2$に対して帰無仮説$H_0: \, \mu_1-\mu_2=0$などを仮定し、$z_{\alpha=0.025}=1.96$などを用いることで両側$5$%検定を行うことができます。

発展事項

$\displaystyle \overline{X}-\overline{Y} \sim \mathcal{N} \left( \mu_1-\mu_2, \left(\frac{1}{m}+\frac{1}{n}\right)\sigma^2 \right)$が成立することは正規分布のモーメント母関数を用いることで示すことができます。詳しくは下記で取り扱いました。

上記の導出にはモーメント母関数の理解が必須なので、統計検定$2$級範囲では下記のように$E[\overline{X}-\overline{Y}], V[\overline{X}-\overline{Y}]$の計算で抑えておくでも十分です。
$$
\large
\begin{align}
E[\overline{X}-\overline{Y}] &= E[\overline{X}] – E[\overline{Y}] \\
V[\overline{X}-\overline{Y}] &= V[\overline{X}] + V[-\overline{Y}] \\
&= V[\overline{X}] + (-1)^2V[\overline{Y}] = V[\overline{X}] + V[\overline{Y}]
\end{align}
$$

母分散未知かつ等しい場合

母分散未知かつ等しくない場合

1.2.2 ①幹葉図 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.2.2$節「幹葉図」の内容を元にヒストグラムと同様の目的で用いられる幹葉図に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

幹葉図の概要

概要

幹葉図(stem and leaf plots)はヒストグラムと同様に、度数分布の可視化にあたってよく用いられます。幹葉図は下記のように表されます。

stem: 4, leaves: 5599
stem: 5, leaves: 22599
stem: 6, leaves: 0244445557777
stem: 7, leaves: 022224445555577999
stem: 8, leaves: 01359

上記は「人文・社会科学の統計学の演習$2.1$」の結果を用いました。図を元に$6$〜$7$の間のサンプルが多いことが確認できます。このように幹葉図はヒストグラムと同様な用途で用いることができます。

必要な数学

幹葉図の作成にあたって必要な数学知識は特にありませんが、プログラムを用いて作成する場合は割り算の商と余りの演算を重点的に抑えておくと良いと思います。

幹葉図

幹葉図のプログラム

幹葉図は下記のようなプログラムを実行することで作成できます。

import numpy as np

x = np.array([5.6, 8.8, 7.5, 6.2, 9.2, 7.2, 7.1, 7.7, 8.2, 7.5, 6.8, 8.5, 6.8, 8.8, 7.6])

stem = np.unique(x//1)
leaf = x%1

leaves = dict()

for i in range(stem.shape[0]):
    leaves[int(stem[i])] = list()

for i in range(x.shape[0]):
    leaves[int(x[i]//1)].append(int(np.floor(((x[i]+0.01)%1)*10)))

for i in range(stem.shape[0]):
    leaves[int(stem[i])] = np.sort(leaves[int(stem[i])])
    l = ""
    for j in range(len(leaves[int(stem[i])])):
        l += str(leaves[int(stem[i])][j])
    print("stem: {}, leaves: {}".format(int(stem[i]),l))

・実行結果

stem: 5, leaves: 6
stem: 6, leaves: 288
stem: 7, leaves: 125567
stem: 8, leaves: 2588
stem: 9, leaves: 2

9.29.1999999などのように表されたので、$14$行目でx[i]+0.01を計算しました。厳密な取り扱いではないので、プログラム自体は修正を行う可能性があります。

1.2.2 ④ローレンツ曲線とジニ係数 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$1.2.2$節「ローレンツ曲線」の内容を元に経済などの分野でよく用いられるローレンツ曲線とジニ係数の概要に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

ローレンツ曲線・ジニ係数の概要

概要

ローレンツ曲線(Lorenz curve)はM.O.ローレンツが考案した「所得などの量の集中度や格差を表すグラフ」です。ローレンツ曲線は下記のようなグラフで表されます。

統計検定$2$級 公式問題集 CBT対応版 Q.$1.8$より

上図は日本、アメリカ、スウェーデン、中国、ドイツの$5$か国の五分位所得割合に基づくローレンツ曲線を表したものです。ローレンツ曲線は上にいくほど「平等」で下にいくほど「不平等」であることを表します。図ではスウェーデン、ドイツ、日本、アメリカ、中国の順で平等であることが読み取れます。

ジニ係数(Gini’s coefficient)はグラフの$(0,0)$と$(5,100)$を通る直線とそれぞれのローレンツ曲線の間の面積の$2$倍で定義される指標であり、ジニ係数が大きいほど「不平等」であると考えられます。なお、グラフは$2011$〜$2014$年を元に作成されているので、その点には注意が必要です。

必要な数学

ジニ係数は「完全平等曲線」と「ローレンツ曲線」の間の面積の$2$倍で定義されるので、積分の定義や台形公式に基づく数値積分の基本的な計算法に関しては抑えておくと良いです。

ローレンツ曲線とジニ係数

ローレンツ曲線

ローレンツ曲線の描画にあたっては、まず所得の順に家計を並べ、世帯数を元に五等分します。たとえば$1$億世帯ある場合は所得の順に$1$億世帯をソートし、$2,000$万世帯ずつで五等分を行います。このときにそれぞれの$2,000$万世帯ずつが全体の所得に占める割合を計算します。計算結果は度数分布表と同様の要領で、表で表すことが可能です。前節で確認したローレンツ曲線に対応する表を作成すると、下記のように表せます。

階級 第$1$階級第$2$階級第$3$階級第$4$階級第$5$階級
日本 $5.4$$10.7$$16.3$$24.1$$43.5$
アメリカ $5.1$$10.3$$15.4$$22.7$$46.4$
スウェーデン $8.7$$14.3$$17.8$$23.0$$36.2$
中国 $5.2$$9.8$$14.9$$22.3$$47.9$
ドイツ $8.4$$13.1$$17.2$$22.7$$38.6$
統計検定$2$級 公式問題集 CBT対応版 Q.$1.8$より

上記の表を確認するにあたっては、どの行も「左から右にいくにつれて数字が必ず大きくなる」という点は抑えておく必要があります。このことは元々所得の順にソートを行なった上でグループ分けし、割合を計算したことを鑑みれば必然です。

次に「確率の累積」を左から順に計算します。左から「第$1$階級の数字」、「第$1$階級の数字+第$2$階級の数字」〜「第$1$階級の数字+第$2$階級の数字+$\cdots$+第$5$階級の数字」の数字を並べます。五カ国の例に基づいて計算すると下記のような結果が得られます。

階級 第$1$階級第$2$階級第$3$階級第$4$階級第$5$階級
日本 $5.4$$16.1$ $32.4$$56.5$$100$
アメリカ $5.1$$15.4$$30.8$$53.5$$99.9$
スウェーデン $8.7$$23$ $40.8$$63.8$$100$
中国 $5.2$$15$ $29.9$$52.2$$100.1$
ドイツ $8.4$$21.5$ $38.7$$61.4$$100$
統計検定$2$級 公式問題集 CBT対応版 Q.$1.8$より

上記を元にローレンツ曲線の描画を行うことができます。累積を計算するので一番右の列は$100$に近い値になりますが、有効数字や四捨五入を行う都合上、必ずしも$100$に一致しないことにも注意が必要です。一連の流れは下記を実行することでグラフを描くことができます。

import numpy as np
import matplotlib.pyplot as plt

x = np.array([[5.4, 10.7, 16.3, 24.1, 43.5], [5.1, 10.3, 15.4, 22.7, 46.4], [8.7, 14.3, 17.8, 23.0, 36.2], [5.2, 9.8, 14.9, 22.3, 47.9], [8.4, 13.1, 17.2, 22.7, 38.6]])

x_cum = np.zeros([x.shape[0],x.shape[0]+1])
x_cum[:,1:] = np.cumsum(x,axis=1)

nation_label = ["JPN", "USA", "SWE", "CHN", "DEU"]
for i in range(x_cum.shape[0]):
    plt.plot(np.arange(6),x_cum[i,:],label=nation_label[i])

plt.legend(loc="upper left")
plt.show()

・実行結果

統計検定$2$級 公式問題集 CBT対応版 Q.$1.8$より

ジニ係数

ジニ係数は全世帯が平等である場合の完全平等線(complete equality line)とローレンツ曲線の間の面積の$2$倍に対応します。下記を実行することで前項の例に完全平等線を追加することができます。

import numpy as np
import matplotlib.pyplot as plt

x = np.array([[5.4, 10.7, 16.3, 24.1, 43.5], [5.1, 10.3, 15.4, 22.7, 46.4], [8.7, 14.3, 17.8, 23.0, 36.2], [5.2, 9.8, 14.9, 22.3, 47.9], [8.4, 13.1, 17.2, 22.7, 38.6]])

x_cum = np.zeros([x.shape[0],x.shape[0]+1])
x_cum[:,1:] = np.cumsum(x,axis=1)

nation_label = ["JPN", "USA", "SWE", "CHN", "DEU"]
for i in range(x_cum.shape[0]):
    plt.plot(np.arange(6)/5.,x_cum[i,:]/100.,label=nation_label[i])

plt.plot(np.array([0.,1.]), np.array([0., 1.]), color="black",label="equality line")

plt.legend(loc="upper left")
plt.show()

・実行結果

ジニ係数の計算にあたって目盛りの範囲を$[0,1]$に調整を行なった

上図のようなローレンツ曲線を元に「不平等」かどうかを論じることができますが、前項の表では第$1$階級では相対確率がアメリカ<中国である一方で、それ以外ではアメリカ>中国が成立するなど、取り扱いが難しい場合があります。

このような場合に面積に基づいて定量化を行うジニ係数のような指標があると用いやすいです。各国のジニ係数は台形公式に基づいて下記のような処理を行うことで計算することができます。

import numpy as np

x = np.array([[5.4, 10.7, 16.3, 24.1, 43.5], [5.1, 10.3, 15.4, 22.7, 46.4], [8.7, 14.3, 17.8, 23.0, 36.2], [5.2, 9.8, 14.9, 22.3, 47.9], [8.4, 13.1, 17.2, 22.7, 38.6]])

x_cum = np.zeros([x.shape[0],x.shape[0]+1])
x_cum[:,1:] = np.cumsum(x,axis=1)/100.

s = np.repeat(1.*1./2.,5)
for i in range(x.shape[1]):
    s -= 0.2*(x_cum[:,i]+x_cum[:,i+1])/2.

Gini = 2*s

print(Gini)

・実行結果

[ 0.3584  0.381   0.2548  0.3906  0.28  ]

上記より、ジニ係数を大きい順に並べると、「中国」、「アメリカ」、「日本」、「ドイツ」、「スウェーデン」であることが確認できます。

Ch.23 「対称行列の固有値と固有ベクトル」の演習問題の解答例 〜統計学のための数学入門30講〜

当記事は「統計学のための数学入門$30$講(朝倉書店)」の読解サポートにあたってChapter.$23$の「対称行列の固有値と固有ベクトル」の章末問題の解答の作成を行いました。
基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

・書籍解答まとめ
https://www.hello-statisticians.com/answer_textbook_math#math_stat

本章のまとめ

対称行列の固有値・固有ベクトルの性質

問題$23.1$で使用するので、$23.1$節、P.$144$の「対称行列の固有値・固有ベクトルの性質」の内容を以下にまとめる。

$p$次の正方行列$A$の固有値$\lambda_i$に関して下記が成立する。
$(1) \,$ 対称行列の固有値は全て実数である。
$(2) \,$ 対称行列の相異なる固有値に対応する固有ベクトルは直交する

上記の導出については下記で詳しく取り扱った。

対称行列の対角化とスペクトル分解

$p$次の対称行列$A$について下記の$(1)$と$(2)$が成立する。
・$(1) \,$ $p$次の対称行列$A$は$A$の固有ベクトルによって作成される直交行列$U$を用いて下記のように対角化が可能である。
$$
\large
\begin{align}
U^{\mathrm{T}} A U &= \Lambda = \left(\begin{array}{ccccc} \lambda_1 & 0 & 0 & \cdots & 0 \\ 0 & \lambda_2 & 0 & \cdots & 0 \\ 0 & 0 & \lambda_3 & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & \lambda_{p} \end{array} \right)
\end{align}
$$

・$(2) \,$

・$2)$ $p$次の対称行列$A$は固有値$\lambda_1, \cdots , \lambda_{p}$とそれぞれの固有値に対応する長さ$1$の固有ベクトル$\mathbf{u}_{1}, \cdots , \mathbf{u}_{p}$を用いて次のように表せる。
$$
\large
\begin{align}
A &= U \Lambda U^{\mathrm{T}} = \sum_{i=1}^{p} \lambda_{i} \mathbf{u}_{i} \mathbf{u}_{i}^{\mathrm{T}}
\end{align}
$$

この変形をスペクトル分解という。上記の式変形や導出の詳細については下記で取り扱った。

演習問題解答

問題$23.1$

$$
\large
\begin{align}
A = \left(\begin{array}{ccc} 1 & 0 & 2 \\ 0 & 1 & 0 \\ 2 & 0 & 1 \end{array} \right)
\end{align}
$$

上記の行列$A$に対し、固有方程式$\det(\lambda I_3 – A)=0$は下記のように解くことができる。
$$
\large
\begin{align}
\det(\lambda I_3 – A) &= \left| \begin{array}{ccc} \lambda-1 & 0 & -2 \\ 0 & \lambda-1 & 0 \\ -2 & 0 & \lambda-1 \end{array} \right| \\
&= (\lambda-1) \cdot (-1)^{2+2} \cdot \left| \begin{array}{cc} \lambda-1 & -2 \\ -2 & \lambda-1 \end{array} \right| \\
&= (\lambda-1)[(\lambda-1)^2 – (-2)^2] = 0 \\
(\lambda-1)[(\lambda-1)^2 – 2^2] &= 0 \\
(\lambda-1)(\lambda-1+2)(\lambda-1-2) &= 0 \\
(\lambda+1)(\lambda-1)(\lambda-3) &= 0 \\
\lambda &= -1, \, 1 ,\ 3
\end{align}
$$

以下、上記で得られたそれぞれの固有値に対し、長さ$1$の固有ベクトル$\left(\begin{array}{c} x \\ y \\ z \end{array} \right)$の計算を行う。

・$\lambda_1=3$
$$
\large
\begin{align}
\left(\begin{array}{ccc} 1 & 0 & 2 \\ 0 & 1 & 0 \\ 2 & 0 & 1 \end{array} \right) \left(\begin{array}{c} x \\ y \\ z \end{array} \right) &= -\left(\begin{array}{c} x \\ y \\ z \end{array} \right) \\
\left(\begin{array}{c} x+2z \\ y \\ 2x+z \end{array} \right) &= \left(\begin{array}{c} 3x \\ 3y \\ 3z \end{array} \right)
\end{align}
$$

上記より$x=z, y=0$が得られるので、$\lambda_1=3$に対応する長さ$1$の固有ベクトル$\mathbf{u}_{1}=\left(\begin{array}{c} x \\ y \\ z \end{array} \right)$は下記のように得られる。
$$
\large
\begin{align}
\mathbf{u}_{1} = \frac{1}{\sqrt{2}} \left(\begin{array}{c} 1 \\ 0 \\ 1 \end{array} \right)
\end{align}
$$

・$\lambda_2=1$
$$
\large
\begin{align}
\left(\begin{array}{ccc} 1 & 0 & 2 \\ 0 & 1 & 0 \\ 2 & 0 & 1 \end{array} \right) \left(\begin{array}{c} x \\ y \\ z \end{array} \right) &= \left(\begin{array}{c} x \\ y \\ z \end{array} \right) \\
\left(\begin{array}{c} x+2z \\ y \\ 2x+z \end{array} \right) &= \left(\begin{array}{c} x \\ y \\ z \end{array} \right)
\end{align}
$$

上記より$x=z=0$が得られるので、$\lambda_2=1$に対応する長さ$1$の固有ベクトル$\mathbf{u}_{2}=\left(\begin{array}{c} x \\ y \\ z \end{array} \right)$は下記のように得られる。
$$
\large
\begin{align}
\mathbf{u}_{2} = \left(\begin{array}{c} 0 \\ 1 \\ 0 \end{array} \right)
\end{align}
$$

・$\lambda_1=-1$
$$
\large
\begin{align}
\left(\begin{array}{ccc} 1 & 0 & 2 \\ 0 & 1 & 0 \\ 2 & 0 & 1 \end{array} \right) \left(\begin{array}{c} x \\ y \\ z \end{array} \right) &= -\left(\begin{array}{c} x \\ y \\ z \end{array} \right) \\
\left(\begin{array}{c} x+2z \\ y \\ 2x+z \end{array} \right) &= \left(\begin{array}{c} -x \\ -y \\ -z \end{array} \right)
\end{align}
$$

上記より$x=-z, y=0$が得られるので、$\lambda_3=-1$に対応する長さ$1$の固有ベクトル$\mathbf{u}_{3}=\left(\begin{array}{c} x \\ y \\ z \end{array} \right)$は下記のように得られる。
$$
\large
\begin{align}
\mathbf{v}_{3} = \frac{1}{\sqrt{2}} \left(\begin{array}{c} 1 \\ 0 \\ -1 \end{array} \right)
\end{align}
$$

ここまでの導出結果に対し、$\lambda = 3, \, 1 ,\ -1$が全て実数で、固有ベクトル$\mathbf{u}_{1}, \mathbf{u}_{2}, \mathbf{u}_{3}$に対してそれぞれ内積を取ると$0$に一致することが確認できる。

よって行列$A$に対してP.$144$でまとめられた「対称行列の固有値・固有ベクトルの性質」が成立することが確認できる。

問題$23.2$

$$
\large
\begin{align}
U = \left(\begin{array}{ccc} \mathbf{u}_{1} & \mathbf{u}_{2} & \mathbf{u}_{3} \end{array} \right) = \frac{1}{\sqrt{2}} \left(\begin{array}{ccc} 1 & 0 & 1 \\ 0 & \sqrt{2} & 0 \\ 1 & 0 & -1 \end{array} \right)
\end{align}
$$

上記のように$U$を定義すると、「問題$23.1$の解答」より$U$が直交行列であるので、$U^{\mathrm{T}} = U^{-1}$は下記のように表すことができる。
$$
\large
\begin{align}
U^{\mathrm{T}} = \frac{1}{\sqrt{2}} \left(\begin{array}{ccc} 1 & 0 & 1 \\ 0 & \sqrt{2} & 0 \\ 1 & 0 & -1 \end{array} \right)
\end{align}
$$

よって$A$の対角化は下記のように$U^{\mathrm{T}} A U$を計算することで行うことができる。
$$
\large
\begin{align}
U^{\mathrm{T}} A U &= \frac{1}{\sqrt{2}} \left(\begin{array}{ccc} 1 & 0 & 1 \\ 0 & \sqrt{2} & 0 \\ 1 & 0 & -1 \end{array} \right)\left(\begin{array}{ccc} 1 & 0 & 2 \\ 0 & 1 & 0 \\ 2 & 0 & 1 \end{array} \right) U \\
&= \frac{1}{\sqrt{2}} \left(\begin{array}{ccc} 3 & 0 & 3 \\ 0 & \sqrt{2} & 0 \\ -1 & 0 & 1 \end{array} \right) U \\
&= \frac{1}{2} \left(\begin{array}{ccc} 3 & 0 & 3 \\ 0 & \sqrt{2} & 0 \\ -1 & 0 & 1 \end{array} \right) \left(\begin{array}{ccc} 1 & 0 & 1 \\ 0 & \sqrt{2} & 0 \\ 1 & 0 & -1 \end{array} \right) \\
&= \frac{1}{2} \left(\begin{array}{ccc} 6 & 0 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & -2 \end{array} \right) \\
&= \left(\begin{array}{ccc} 3 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & -1 \end{array} \right) = \Lambda
\end{align}
$$

また、$A$は下記のようにスペクトル分解を行うことができる。
$$
\large
\begin{align}
A &= \lambda_{1} \mathbf{u}_{1} \mathbf{u}_{1}^{\mathrm{T}} + \lambda_{2} \mathbf{u}_{2} \mathbf{u}_{2}^{\mathrm{T}} + \lambda_{3} \mathbf{u}_{3} \mathbf{u}_{3}^{\mathrm{T}} \\
&= \frac{3}{2} \left( \begin{array}{c} 1 \\ 0 \\ 1 \end{array} \right) \left( \begin{array}{ccc} 1 & 0 & 1 \end{array} \right) + \left(\begin{array}{c} 0 \\ 1 \\ 0 \end{array} \right) \left(\begin{array}{ccc} 0 & 1 & 0 \end{array} \right) + \frac{-1}{2} \left(\begin{array}{c} 1 \\ 0 \\ -1 \end{array} \right) \left(\begin{array}{ccc} 1 & 0 & -1 \end{array} \right) \\
&= \frac{3}{2} \left( \begin{array}{ccc} 1 & 0 & 1 \\ 0 & 0 & 0 \\ 1 & 0 & 1 \end{array} \right) + \left(\begin{array}{ccc} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{array} \right) \, – \, \frac{1}{2} \left(\begin{array}{ccc} 1 & 0 & -1 \\ 0 & 0 & 0 \\ -1 & 0 & 1 \end{array} \right)
\end{align}
$$

同様に$A^{-1}$は下記のように得ることができる。
$$
\large
\begin{align}
A^{-1} &= \frac{1}{\lambda_{1}} \mathbf{u}_{1} \mathbf{u}_{1}^{\mathrm{T}} + \frac{1}{\lambda_{2}} \mathbf{u}_{2} \mathbf{u}_{2}^{\mathrm{T}} + \frac{1}{\lambda_{3}} \mathbf{u}_{3} \mathbf{u}_{3}^{\mathrm{T}} \\
&= \frac{1}{6} \left( \begin{array}{c} 1 \\ 0 \\ 1 \end{array} \right) \frac{1}{\sqrt{2}} \left( \begin{array}{ccc} 1 & 0 & 1 \end{array} \right) + \left(\begin{array}{c} 0 \\ 1 \\ 0 \end{array} \right) \left(\begin{array}{ccc} 0 & 1 & 0 \end{array} \right) + \frac{-1}{2} \left(\begin{array}{c} 1 \\ 0 \\ -1 \end{array} \right) \left(\begin{array}{ccc} 1 & 0 & -1 \end{array} \right) \\
&= \frac{1}{6} \left( \begin{array}{ccc} 1 & 0 & 1 \\ 0 & 0 & 0 \\ 1 & 0 & 1 \end{array} \right) + \left(\begin{array}{ccc} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 0 \end{array} \right) \, – \, \frac{1}{2} \left(\begin{array}{ccc} 1 & 0 & -1 \\ 0 & 0 & 0 \\ -1 & 0 & 1 \end{array} \right) \\
&= \frac{1}{6} \left(\begin{array}{ccc} 1 \, – \, 3 & 0 & 1+3 \\ 0 & 6 & 0 \\ 1+3 & 0 & 1 \, – \, 3 \end{array} \right) \\
&= \frac{1}{6} \left(\begin{array}{ccc} -2 & 0 & 4 \\ 0 & 6 & 0 \\ 4 & 0 & -2 \end{array} \right) \\
&= \frac{1}{3} \left(\begin{array}{ccc} -1 & 0 & 2 \\ 0 & 3 & 0 \\ 2 & 0 & -1 \end{array} \right)
\end{align}
$$

・解説
$A^{-1} A$が下記のように計算できることも合わせて確認しておくと良いと思います。
$$
\large
\begin{align}
A^{-1} A &= \frac{1}{3} \left(\begin{array}{ccc} -1 & 0 & 2 \\ 0 & 3 & 0 \\ 2 & 0 & -1 \end{array} \right) \left(\begin{array}{ccc} 1 & 0 & 2 \\ 0 & 1 & 0 \\ 2 & 0 & 1 \end{array} \right) \\
&= \frac{1}{3} \left(\begin{array}{ccc} 3 & 0 & 0 \\ 0 & 3 & 0 \\ 0 & 0 & 3 \end{array} \right) \\
&= \left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right) = I
\end{align}
$$

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜3. データ収集〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$3$「データ収集」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

Ⅰ 母集団に対応する全ての搭乗客に対して無作為に$200$名抽出し調査を行ったので「単純無作為抽出法」である。
Ⅱ 母集団に対応する全ての搭乗客を「重複しないグループ」に分け、それぞれの層から無作為に標本抽出し調査を行ったので「層化抽出法」である。
Ⅲ 母集団に対応する全ての搭乗客に対し「重複のないグループ」に分け、グループ単位で無作為に抽出し調査を行ったので「集落抽出法」である。

上記より、正解は④である。

Q.2

標本に対し、何らかの「介入」を行うのが「実験研究」、「介入」を行わないのが「観察研究」である。
A 費用に関する調査であり、「介入」を行っていないので「観察研究」
B 被験者に対して治療法を適用する「介入」を行ったので「実験研究」
C 被験者に対して「介入」は行っていないので「観察研究」

よって④が正解である。

Q.3

Ⅰ 「無作為化」により制御できない要因を偶然誤差に転化できるので正しい。
Ⅱ 臨床試験では個体差があるので多くの被験者に対して調査が必要であり、多くの被験者に対する調査も「繰り返し」であると見なされるので正しくない。
Ⅲ 「局所管理」は実験条件をできる限り均一に保つように管理されたブロックに実験を分けることを意味するので正しくない。

上記より。正解は①である。

Q.4

標本調査の際の「標本誤差」は「標本の取り方によって偶然に生じる誤差」であり、「非標本誤差」は「誤回答や未回答などに起因する誤差」である。①が標本の取り方に起因する誤差であるので、①が正解である。

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜8. 検定〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$8$「検定」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

ア)
検定統計量$Z$に関して$Z \sim \mathcal{N}(0,1)$が成立するので、有意水準$5$%の両側検定を考えると$|Z|>1.96$が棄却域となる。

イ)
検定統計量$T$に関して$T \sim t(20)$が成立するので、有意水準$5$%の両側検定を考えると$|T|>2.086$が棄却域となる。

ウ)
$T$に関して中心極限定理に基づく世紀近似を用いる場合の有意水準$5$%の両側検定の棄却域は$|T|>1.96$となる。

上記より、①が正解である。

Q.2

「第$1$種の過誤」は「帰無仮説$H_0$が正しいにも関わらず棄却すること」に該当するので、この問題では「$p=0.62$が正しいにも関わらず棄却すること」に対応する。よって①か②に絞られる。また、有意水準$\alpha$は棄却する確率に対応するので$0.62^3+0.38^3=0.2932$であり、②が正解である。

Q.3

検定統計量$T$の実現値を$t$とおくと、下記のように計算できる。
$$
\large
\begin{align}
t &= \frac{\bar{x}-\mu}{\hat{\sigma}/\sqrt{n}} \\
&= \frac{3.23 \times 2 \sqrt{6}}{8.72} \\
&= 1.81 \cdots
\end{align}
$$

自由度$n-1=23$の$t$分布$t(23)$の上側$\alpha’$点を$t_{\alpha=\alpha’}(23)$とおくとき、$t_{\alpha=0.01}(23)$〜$t_{\alpha=0.1}(23)$は下記のような値を持つ。
$$
\large
\begin{align}
t_{\alpha=0.01}(23) &= 2.500 \\
t_{\alpha=0.025}(23) &= 2.069 \\
t_{\alpha=0.05}(23) &= 1.714 \\
t_{\alpha=0.1}(23) &= 1.319
\end{align}
$$

$t_{\alpha=0.05}(23) < 1.81 < t_{\alpha=0.025}(23)$より、③が正解である。

Q.4

ア)
対立仮説が$H_1: \, p \neq p_0$であるので、両側検定を行う。

イ)
両側検定なので$|Z|>z_{\alpha=0.025}=1.96$が棄却域である。

ウ)
$|Z|>1.96$のとき棄却されるのは帰無仮説である。

よって、⑤が正解である。

Q.5

標本の不良品率を$\hat{r}$とおくとき、検定統計量$Z$と実現値$z$に関して下記が成り立つ。
$$
\large
\begin{align}
Z \sim \mathcal{N} \left( r, np(1-p) \right) \\
z &= \frac{\hat{r}-r}{\sqrt{p(1-p)/n}} \quad (1) \\
\hat{r} &= \frac{x}{n}
\end{align}
$$

上記の$(1)$式に$x=16, n=200, r=0.05$を代入すると下記が得られる。
$$
\large
\begin{align}
z &= \frac{\hat{r}-r}{\sqrt{p(1-p)/n}} \quad (1) \\
&= \frac{16/200-0.05}{\sqrt{0.05 \cdot 0.95 / 200}} \\
&= 1.946 \cdots
\end{align}
$$

$P$値は$P(Z \geq z)=P(Z \geq 1.95)=0.0256$が対応するので、正解は②である。

Q.6

セリーグの不偏標本分散を$\hat{\sigma}_{1}^{2}$、パリーグの不偏標本分散を$\hat{\sigma}_{2}^{2}$、共通の不偏標本分散を$\hat{\sigma}^{2}$とおくと、$\hat{\sigma}^{2}$は下記のように表される。
$$
\large
\begin{align}
\hat{\sigma}^{2} &= \frac{(m-1)\hat{\sigma}_{1}^{2} + (n-1)\hat{\sigma}_{2}^{2}}{m+n-2} \\
&= \frac{\sum(x_i-\bar{x})^2 + \sum(y_i-\bar{y})^2}{m+n-2}
\end{align}
$$

また、検定統計量の実現値を$t$とおくと、$t$は下記のように表される。
$$
\large
\begin{align}
t &= \frac{(\bar{x}-\bar{y}) – 0}{\displaystyle \sqrt{\frac{1}{m}+\frac{1}{n}} \hat{\sigma}} \\
&= \frac{\bar{x}-\bar{y}}{\displaystyle \sqrt{ \left( \frac{1}{m}+\frac{1}{n} \right) \frac{\sum(x_i-\bar{x})^2 + \sum(y_i-\bar{y})^2}{m+n-2}}}
\end{align}
$$

上記に$\displaystyle \sum(x_i-\bar{x})^2 = 13549, \sum(y_i-\bar{y})^2 = 7763, \bar{x}=233.7, \bar{y}=185.3, m=n=6$を代入すると下記のような計算結果が得られる。
$$
\large
\begin{align}
t &= \frac{\bar{x}-\bar{y}}{\displaystyle \sqrt{ \left( \frac{1}{m}+\frac{1}{n} \right) \frac{\sum(x_i-\bar{x})^2 + \sum(y_i-\bar{y})^2}{m+n-2}}} \\
&= \frac{233.7-185.3}{\displaystyle \sqrt{ \left( \frac{1}{6}+\frac{1}{6} \right) \frac{13549 + 7763}{6+6-2}}} \\
&= 1.815 \cdots
\end{align}
$$

上記より正解は④である。

Q.7

No. $1$$2$$3$$4$$5$$6$$7$$8$$9$$10$平均
$130$$118$$128$$135$$126$$120$$126$$140$$127$$130$$128.0$
$135$$120$$132$$135$$129$$128$$135$$139$$135$$132$$132.0$

「対応のある場合」なので、前後の差を$X$と起き、$X$の母平均を$\mu$、母分散を$\sigma^2$と考え、$H_{0}: \, \mu=0$と$H_{1}: \, \mu>0$の片側検定を行う。よって自由度は$9$、$t_{\alpha=0.05}(9)=1.833$であるので①が正解である。

Q.8

標本の不良品の比率を$\hat{p}_A, \hat{p}_B$、母集団の不良品の比率を$p_A, p_B$、標本の抽出数を$n_A, n_B$とおく。このとき二項分布の正規近似より下記が成立する。
$$
\large
\begin{align}
\hat{p}_A-\hat{p}_B \sim \mathcal{N} \left( p_A-p_B, \frac{\hat{p}_A(1-\hat{p}_A)}{n_A}+\frac{\hat{p}_B(1-\hat{p}_B)}{n_B} \right)
\end{align}
$$

ここで帰無仮説$H_0: \, d = p_A-p_B = 0$に対する検定統計量の実現値を$z$とおくと、$z$は下記のように計算できる。
$$
\large
\begin{align}
z &= \frac{\hat{p}_A-\hat{p}_B}{\displaystyle \sqrt{\frac{\hat{p}_A(1-\hat{p}_A)}{n_A}+\frac{\hat{p}_B(1-\hat{p}_B)}{n_B}}} \\
&= -0.181 \cdots
\end{align}
$$

上記の計算にあたっては$\displaystyle \hat{p}_A=\frac{16}{200}, \hat{p}_B=\frac{17}{200}, n_A=n_B=200$を代入し、計算を行なった。ここで$P$値は$P(|Z| \geq |z|) = P(|Z| \geq 0.18)$に対応するので下記のように計算できる。
$$
\large
\begin{align}
P(|Z| \geq |z|) &= P(|Z| \geq 0.18) \\
&= 2 P(Z \geq 0.18) \\
& \simeq 2 \times 0.4286 = 0.8572
\end{align}
$$

以上より、正解は⑤である。

Q.9

$F$値は下記のように計算できる。
$$
\large
\begin{align}
F &= \frac{19.5^2}{14.5^2} \\
&= 1.808 \cdots
\end{align}
$$

ここで、$F_{\alpha=0.025}(20,40)=2.068$であり、$\displaystyle \frac{1}{F_{\alpha=0.025}(40,20)}=\frac{1}{2.287}$であるので下記が成立する。
$$
\large
\begin{align}
\frac{1}{F_{\alpha=0.025}(40,20)} = \frac{1}{2.287} < F < 2.068 = F_{\alpha=0.025}(20,40)
\end{align}
$$

よって帰無仮説の「クラス間の分散が等しい」は$5$%で棄却できない。

上記より、②が正解である。

Q.10

$\alpha$と$\beta$が閾値$x_0$の定め方によりトレードオフであることから①か②に絞られる。

ここで$\alpha$は上図の青の面積、$\beta$が上図の緑の面積に対応する。上図より$\alpha+\beta$が閾値$x_0$の取り方により一定ではないことが確認できるので、②は不適切であり①が正解である。

・参考
有意水準や検出力に関しては抽象的で難しいので、下記で図を元に取りまとめました。

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜2. 2変数記述統計〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$2$「$2$変数記述統計」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

$8$〜$10$にサンプルがあることから、①か③に絞られ、$10$〜$12$に多数サンプルがあることから③が正しいことが確認できる。

Q.2

散布図の目盛りを確認することで④が正しいことが確認できる。

Q.3

相関係数$r$は下記のように計算できる。
$$
\large
\begin{align}
r &= \frac{133.1}{\sqrt{236.6 \times 170.1}} \\
&= 0.66 \cdots
\end{align}
$$

相関係数$r=0.66$に対応する図を選べば良いので①が正解である。

Q.4

Ⅰ 真ん中のグラフより正しいことが確認できる
Ⅱ 右側のグラフより正しいことが確認できる
Ⅲ 左側のグラフより正の相関があることが確認できるので正しくない

よって、正解は④である。

Q.5

国語の得点を$X$、数学の得点を$Y$、国語の標準偏差を$\sigma_X$、数学の標準偏差を$\sigma_Y$、共分散を$\sigma_{XY}$、相関係数を$\rho_{XY}$とおく。このとき、下記より$\sigma_{XY}$の計算を行える。
$$
\large
\begin{align}
\rho_{XY} &= \frac{\sigma_{XY}}{\sqrt{\sigma_X^2 \sigma_Y^2}} \\
\sigma_{XY} &= \rho_{XY} \sigma_{X} \sigma_{Y} \\
&= 0.72 \times 12.5 \times 16.4 = 147.6
\end{align}
$$

よって②が正解である。

Q.6

⑤が正しい。④は「強い負の相関」ではないので正しくない。この問題は「切断効果」の事例であると考えることができる。

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜1. 1変数記述統計〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$1$「$1$変数記述統計」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

相対度数表の定義より、それぞれ下記のように計算できる。
ア)
$$
\large
\begin{align}
100 – (85.1+2.1) = 12.8
\end{align}
$$

イ)
$$
\large
\begin{align}
100 – (76.6+17.0+2.1) = 4.3
\end{align}
$$

よって、正解は⑤である。

Q.2

累積相対度数を考えればよい。

階級 相対度数(%)累積相対度数(%)
〜$100$ $13.2$$13.2$
$100$〜$200$ $7.2$$20.4$
$200$〜$300$ $7.0$$27.4$
$300$〜$400$ $6.1$$33.5$
$400$〜$500$ $5.6$$39.1$
$500$〜$600$ $5.5$$44.6$
$600$〜$700$ $4.5$$49.1$
$700$〜$800$ $4.2$$53.3$

上記より、正解は①である。

Q.3

東京の箱ひげ図には$16$〜$18$度のサンプルが$2$つあるが、$(A)$のみが対応する。よって正解は①である。

Q.4

① 最高得点は$90$点であるので×
② 最低得点は$40$点であるので×
③ 正しい
④ 上位$20$%の最低得点は$78$点であるので×
⑤ 最頻値は$58$点であるので×

上記より正解は③である。

Q.5

Ⅰ 傾向変動は長期の動きであるが、常に直線であるとは限らないので×
Ⅱ 正しい
Ⅲ 不規則変動は傾向変動と季節変動以外の変動を指すので、予測が困難な偶然運動も含むので×

上記より正解は②である。

Q.6

平均変化率$r$に関して下記が成立する。
$$
\large
\begin{align}
102.6 \left( 1+\frac{r}{100} \right)^3 &= 105.6 \\
1+\frac{r}{100} &= \left( \frac{105.6}{102.6} \right)^{\frac{1}{3}} \\
r &= 100 \left[ \left( \frac{105.6}{102.6} \right)^{\frac{1}{3}} – 1 \right]
\end{align}
$$

上記より正解は④である。

Q.7

$\overline{F}$は下記のように計算できる。
$$
\large
\begin{align}
\overline{F} &= 1.8 \overline{C} + 32 \\
&= 1.8 \times 2.4 + 32 \\
&= 36.32
\end{align}
$$

また、$s_F$は下記のように計算できる。
$$
\large
\begin{align}
s_F &= \sqrt{\frac{1}{16} \sum_{i=1}^{17}((1.8C_i+32)-(1.8\overline{C}-32))^2} \\
&= \sqrt{\frac{1.8^2}{16} \sum_{i=1}^{17}(C_i-\overline{C})^2} \\
&= \sqrt{1.8^2 \times 7^2} \\
&= 1.8 \times 7 \\
&= 12.6
\end{align}
$$

上記より正解は④である。

Q.8

累積相対度数は下記を実行することで作成できる。

import numpy as np

x = np.array([[5.4, 10.7, 16.3, 24.1, 43.5], [5.1, 10.3, 15.4, 22.7, 46.4], [8.7, 14.3, 17.8, 23.0, 36.2], [5.2, 9.8, 14.9, 22.3, 47.9], [8.4, 13.1, 17.2, 22.7, 38.6]])
print(np.cumsum(x,axis=1))

・実行結果

array([[   5.4,   16.1,   32.4,   56.5,  100. ],
       [   5.1,   15.4,   30.8,   53.5,   99.9],
       [   8.7,   23. ,   40.8,   63.8,  100. ],
       [   5.2,   15. ,   29.9,   52.2,  100.1],
       [   8.4,   21.5,   38.7,   61.4,  100. ]])

また、ローレンツ曲線は下記を実行することで得られる。

import numpy as np
import matplotlib.pyplot as plt

x = np.array([[5.4, 10.7, 16.3, 24.1, 43.5], [5.1, 10.3, 15.4, 22.7, 46.4], [8.7, 14.3, 17.8, 23.0, 36.2], [5.2, 9.8, 14.9, 22.3, 47.9], [8.4, 13.1, 17.2, 22.7, 38.6]])
x_cum = np.zeros([x.shape[0],x.shape[0]+1])
x_cum[:,1:] = np.cumsum(x,axis=1)

nation_label = ["JPN", "USA", "SWE", "CHN", "DEU"]
for i in range(x_cum.shape[0]):
    plt.plot(np.arange(6),x_cum[i,:],label=nation_label[i])

plt.legend(loc="upper left")
plt.show()

・実行結果

上記より、下記のように考えることができる。
Ⅰ 完全平等線は$(0,0)$と$(5,100)$を通る直線なので、いずれの国のローレンツ曲線も完全平等線の下に弧を描く。よって正しい。
Ⅱ ジニ係数は完全平等線とローレンツ曲線の間の面積に対応するので、アメリカ>日本>ドイツである。よって正しくない。
Ⅲ 中国のローレンツ曲線はスウェーデンのローレンツ曲線の下を通る。よって正しい。

したがって、正解は⑤である。

Q.9

$12n$か月ごとに正の相関と$12n+6$か月ごとに負の相関があることから正解は②である。ACFはAuto Correlatino Functionの略であり、自己相関係数に対応することは抑えておくと良い。

Q.10

基準年の第$i$財の価格を$p_{0i}$、購入数量を$q_{0i}$、対象年の第$i$財の価格を$p_{ti}$、購入数量を$q_{ti}$とおく。このとき「対象年に基準年と同じ購入量を購入した場合の総購入金額の比率」を表すラスパイレス価格指数$L_{t}$は下記のように定義される。
$$
\large
\begin{align}
L_{t} = \frac{\displaystyle \sum_{i=1}^{n} p_{ti} q_{0i}}{\displaystyle \sum_{i=1}^{n} p_{0i} q_{0i}} \times 100
\end{align}
$$

上記の定義に対応するのが②であるので、正解は②である。また、計算結果は$107.6$であり、平均価格が上昇したと考えることができる。

・考察
ラスパイレス指数は「価格の調査は標本抽出を元に行うことができコストがそれほどかからないが、数量調査は全数調査が必要でありコストがかかる」ことから、広く用いられることが多いと抑えておくと良いです。

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

統計検定2級 公式問題集 CBT対応版 解答例まとめ 〜4. 確率〜

「統計検定$2$級 公式問題集 CBT対応版」の解答例を取りまとめるにあたって、当記事では「PART.$2$ 分野・項目別 問題・解説」のCategory.$4$「確率」の解答例を作成しました。解答例は「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

解答例

Q.1

受講する事象を$X$、合格する事象を$Y$で定める。このとき$P(X \cap Y)$は下記のように計算できる。
$$
\large
\begin{align}
P(X \cap Y) &= P(Y|X)P(X) \\
&= 0.7 \times 0.2 \\
&= 0.14
\end{align}
$$

上記より、正解は①の$0.14$である。

Q.2

クッキーが工場$A, B$で生成されたという事象をそれぞれ$A, B$、カモノハシの絵がプリントされている事象を$C$とおく。このとき$P(A|C)$はベイズの定理に基づいて下記のように計算できる。
$$
\large
\begin{align}
P(A|C) &= \frac{P(C|A)P(A)}{P(C)} \\
&= \frac{P(C|A)P(A)}{P(C|A)P(A) + P(C|B)P(B)} \\
&= \frac{0.02 \times 0.7}{0.02 \times 0.7 + 0.08 \times 0.3} \\
&= \frac{7}{19} \\
&= 0.368 \cdots
\end{align}
$$

上記より、正解は②である。

Q.3

無作為復元抽出であるので、$1$回ごとの確率は一定の$1/10$である。よってくじを引く回数の期待値は$10$回であるので正解は②である。

・別解
幾何分布に基づいて考えても良い。くじを引く回数を$X$、$p=1/10$とおくと、$X \sim \mathrm{Geo}(p)$であるので、$P(X=k)$は下記のように表せる。
$$
\large
\begin{align}
P(X=k) = p(1-p)^{k-1}
\end{align}
$$

また、$P(X=5+k|X>5)$は下記のように計算できる。
$$
\large
\begin{align}
P(X=5+k|X>5) &= \frac{P(X=5+k)}{P(X>5)} \\
&= \frac{p(1-p)^{5+k-1}}{(1-p)^{5}} \\
&= p(1-p)^{k-1} = P(X=k)
\end{align}
$$

上記より$P(X=5+k|X>5)=P(X=k)$が成立するので、すでに外れだった分はリセットし$X$を考えれば良い。幾何分布の期待値は$\displaystyle E[X] = \frac{1}{p}$より、$E[X]$は下記のように計算できる。
$$
\large
\begin{align}
E[X] &= \frac{1}{p} \\
&= \frac{1}{1/10} = 10
\end{align}
$$

Q.4

$P(A)=0.4, P(B)=0.35, P(A \cup B)=0.61$より、$P(A \cap B)$は下記のように計算できる。
$$
\large
\begin{align}
P(A \cap B) &= P(A) + P(B) – P(A \cup B) \\
&= 0.35 + 0.4 – 0.61 \\
&= 0.14
\end{align}
$$

上記より、$P(A \cap B) \neq 0$であるので、$A$と$B$が排反ではないことが確認できる。また、$P(A)P(B)$は下記のように計算できる。
$$
\large
\begin{align}
P(A)P(B) &= 0.4 \times 0.35 \\
&= 0.14 = P(A \cap B) \\
\end{align}
$$

上記より$P(A \cap B)=P(A)P(B)$であるので$A$と$B$が独立であることが確認できる。よって正解は②である。

Q.5

下記のように$X$の期待値$E[X]$を計算できる。
$$
\large
\begin{align}
E[X] &= \frac{1}{3} \times 2 \times \frac{2}{5} + \frac{2}{3} \times 2 \times \frac{1}{5} \\
&= \frac{8}{15}
\end{align}
$$

よって正解は⑤である。

Q.6

参考

・【統計検定$2$級対応】統計学入門まとめ
https://www.hello-statisticians.com/stat_basic