ブログ

統計検定3級問題解説 ~2019年6月実施~ (問9~問16)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問9 解答

(クロス集計表、グラフ)

[1]

$\boxed{ \ \mathsf{17}\ }$ ③

$A_1$のチーズの販売個数が、合計で$78$、そのうち平日で$47$なので、土日の個数は$a=78-47=31$、
平日の販売個数の合計が$170$で、$C$のチーズ以外は販売個数がわかっているので、$C$のチーズの個数は$b=170-(47+23+17+33+35)=15$、
$C$のチーズの販売個数が、合計で$28$、そのうち平日で$15$なので、土日の個数は$a=28-15=13$
となります。

[2]

$\boxed{ \ \mathsf{18}\ }$ ②

割合を表すのに適しているグラフは、円グラフや帯グラフです。
※)①の左側のような立体のグラフは、値の大きさなど見た目から誤解を生みやすくなりますので、使うときは非常に注意が必要です。(通常のグラフ表現では滅多に用いることはありません。)


問10 解答

(棒グラフ、帯グラフ)

$\boxed{ \ \mathsf{19}\ }$ ④

問題のグラフは、各階級別の値を棒グラフで表しているほか、個別の階級では正規と非正規の割合を帯グラフ的に表現しています。
各階級の「非正規の職員・従業員」の割合を求めると以下のようになります。

年齢階級男性女性女性ー男性
$15$-$24$歳$42\div(138+42)$
$=0.233$
$55\div(122+55)$
$=0.311$
$0.311-0.233=0.078$
$25$-$34$歳$89\div(493+89)$
$=0.153$
$185\div(291+185)$
$=0.389$
$0.389-0.153=0.236$
$35$-$44$歳$66\div(652+66)$
$=0.092$
$306\div(277+306)$
$=0.525$
$0.525-0.092=0.433$
$45$-$54$歳$59\div(616+59)$
$=0.087$
$354\div(250+354)$
$=0.586$
$0.586-0.087=0.499$
$55$-$64$歳$149\div(342+149)$
$=0.303$
$273\div(131+273)$
$=0.676$
$0.676-0.303=0.373$
$65$歳以上$170\div(68+170)$
$=0.714$
$146\div(41+146)$
$=0.781$
$0.781-0.714=0.067$

Ⅰ.$65$歳以上では、「非正規の職員・従業員」の数が男性で$170$人、女性で$146$人で、男性のほうが多くなっています。
Ⅱ.上表の結果より、非正規の割合は男性より女性のほうが大きいことがわかります。
Ⅲ.上表の結果より、非正規の割合の男女差が最も大きいのは、$45$-$54$歳であることがわかります。


問11 解答

(確率)

[1]

$\boxed{ \ \mathsf{20}\ }$ ③

クラスからある$1$人を選んだとき、$3$月生まれでない確率は$(365-31)/365=334/365$となります。
各生徒の誕生日の確率は独立(ほかの生徒の誕生日に依らない)なので、$16$人の生徒の誕生日がすべて$3$月生まれでない確率は、$(334/365)^{16}\fallingdotseq0.24$となります。

[2]

$\boxed{ \ \mathsf{21}\ }$ ⑤

クラスの中で誕生日が同一のペアが少なくとも$1$組以上存在する確率は、クラス全員が全く別の誕生日となっていない確率と考えることができます。クラス全員$16$人が全く別の誕生日となる確率は、
 $\displaystyle\begin{eqnarray}&\frac{365}{365}&\times\frac{365-1}{365}\times\frac{365-2}{365}\times\cdots\times\frac{365-14}{365}\times\frac{365-15}{365}\\=&\frac{364}{365}&\times\frac{363}{365}\times\cdots\times\frac{351}{365}\times\frac{350}{365}\end{eqnarray}$
ですので、クラス全員が全く別の誕生日となっていない確率は、
 $\displaystyle1-\frac{364}{365}\times\frac{363}{365}\times\cdots\times\frac{351}{365}\times\frac{350}{365}$
となります。


問12 解答

(確率)

$\boxed{ \ \mathsf{22}\ }$ ③

サイコロを投げてからコインを振ったときに求められる数字は、コインで表が出た場合は$2,4,6,8,10,12$、コインで裏が出た場合は$3,5,7,9,11,13$となり、全部で$12$通りあります。このうち、素数になるのは$2,3,5,7,11,13$の$6$通りで、各数字の出る確率は同じなので、求める確率は、$6/12=1/2$となります。


問13 解答

(相関係数、散布図)

[1]

$\boxed{ \ \mathsf{23}\ }$ ②

与えられた要約から、相関係数を求めると、
 $\displaystyle\frac{-29.05}{6.90\times5.45}\fallingdotseq-0.773$
となり、やや強い負の相関がみられますので、散布図の点の分布は、左上から右下にやや直線的になります。

[2]

$\boxed{ \ \mathsf{24}\ }$ ④

相関係数を求める式は
 $\displaystyle r=\frac{s_{xy}}{s_xs_y}=\frac{\frac1n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}\cdot\sqrt{\frac1n\sum_{i=1}^n(y_i-\bar y)^2}}$
となります。
Ⅰ.どちらの変数もデータの単位を同じように変えた場合は、元のデータを正の実数倍したということなので、上の式で各変数を$\alpha$倍$(\alpha>0)$すると、平均も$\alpha$倍になるので、
 $\displaystyle\begin{eqnarray} &&\frac{\frac1n\sum_{i=1}^n(\alpha x_i-\alpha\bar x)(\alpha y_i-\alpha\bar y)}{\sqrt{\frac1n\sum_{i=1}^n(\alpha x_i-\alpha\bar x)^2}\cdot\sqrt{\frac1n\sum_{i=1}^n(\alpha y_i-\alpha\bar y)^2}}\\&=&\frac{\frac{\alpha^2}n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt{\frac{\alpha^2}n\sum_{i=1}^n(x_i-\bar x)^2}\cdot\sqrt{\frac{\alpha^2}n\sum_{i=1}^n(y_i-\bar y)^2}}\\&=&\frac{\frac1n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}\cdot\sqrt{\frac1n\sum_{i=1}^n(y_i-\bar y)^2}}=r\end{eqnarray}$
となり、相関係数の値は変わりません。
Ⅱ.一方の変数$\{x_i\}$を、元のデータの平均から個々のデータを引いた値$\{\bar x-x_i\}$に置き換えると、この平均は$0$になるので、相関係数は、
 $\displaystyle\begin{eqnarray} &&\frac{\frac1n\sum_{i=1}^n(\bar x-x_i)(y_i-\bar y)}{\sqrt{\frac1n\sum_{i=1}^n(\bar x-x_i)^2}\cdot\sqrt{\frac1n\sum_{i=1}^n(y_i-\bar y)^2}}\\&=&\frac{\frac1n\sum_{i=1}^n\{-(x_i-\bar x)(y_i-\bar y)\}}{\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}\cdot\sqrt{\frac1n\sum_{i=1}^n(y_i-\bar y)^2}}\\&=&-\frac{\frac1n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}\cdot\sqrt{\frac1n\sum_{i=1}^n(y_i-\bar y)^2}}=-r\end{eqnarray}$ 
となり、相関係数の符号が反転します。
Ⅲ.標準化すると、平均が$0$、分散は$1$となるので、標準化した変数の相関係数は、
 $\displaystyle\begin{eqnarray}
&&\frac{\frac1n\sum_{i=1}^n\left(\frac{x_i-\bar x}{s_x}-0\right)\left(\frac{y_i-\bar y}{s_y}-0\right)}{\sqrt{1}\cdot\sqrt{1}}\\&=&\frac{\frac1n\sum_{i=1}^n{(x_i-\bar x)(y_i-\bar y)}}{s_xs_y}=r\end{eqnarray}$ 
となり、相関係数の値は変わりません。

[3]

$\boxed{ \ \mathsf{25}\ }$ ②

Ⅰ.相関係数の絶対値が最も大きいのは、通勤・通学の$-0.773$なので、最も相関が強いと言えます。
Ⅱ.正の相関関係がみられるということは、片方の変数が大きくなるにつれて、もう片方の変数も大きくなる傾向がみられることになります。
Ⅲ.強い負の相関関係がみられるということは、片方の変数が大きくなるにつれて、もう片方の変数も小さくなる傾向がみられることになりますが、だからと言って、この相関関係から変数間に因果関係が存在するとは、必ずしもいうことができません。


問14 解答

(時系列データ、前年同月比)

[1]

$\boxed{ \ \mathsf{26}\ }$ ②

Ⅰ.$2015$年以外では、$65$万人を下回る月が存在しています。
Ⅱ.各年とも●で表示されている$3$月が最も利用者数が多くなっています。
Ⅲ.$2018$年では$10$月の利用者数が$11$月の利用者数を下回っています。

[2]

$\boxed{ \ \mathsf{27}\ }$ ①

対前年同月比(%)は、ある年ある月の値を前年の同じ月の値を$100$としたときの比率を表したものです。よって、前年同月よりも値が下回っていれば、対前年同月比は$100$を下回り、前年同月よりも値が上回っていれば、対前年同月比は$100$を上回ります。
時系列の推移のグラフをみると、まず、$3$月の値に注目してみると、$16$年の値は$15$年の値を下回っており、$17$年の値は$16$年の値を下回っていることがわかります。よって、対前年同月比は$16$年$3$月と$17$年$3$月は$100$を下回ることになります。次に、$11$月の値に注目してみると、$16$年の値は$15$年の値を下回っており、$17$年の値は$16$年の値を上回っていることがわかります。よって、対前年同月比は$16$年$11$月は$100$を下回り、$17$年$3$月は$100$を上回ることになります。これらを満たすのは、①のグラフのみとなります。

[3]

$\boxed{ \ \mathsf{28}\ }$ ②

3か年分の幾何平均は
 $\sqrt[3]{0.9292\times1.0455\times0.9613}\fallingdotseq\sqrt[3]{0.9339}\fallingdotseq0.9775$
となります。
※)3乗根の計算は、試験会場に持ち込める電卓では計算できないので、選択肢の値の3乗を求めて$0.9339$に最も近い値となるのが正解と考えます。


問15 解答

(標本調査、誤差)

$\boxed{ \ \mathsf{29}\ }$ ① or ⑤

Ⅰ.誤差には、標本誤差のような統計的な誤差のほか、計測誤差や調査の入力ミスなどに起因する誤差のようなものが存在します。標本調査の結果には標本誤差はありますが、全数調査の結果にも標本誤差でない誤差が含まれることがあります。標本調査では標本誤差が含まれますが、全数調査では標本調査は含まれません。しかし、標本調査以外の誤差は全数調査であっても起こりうるので、全数調査であっても誤差が全くないとは言えません。
当初、この問題の「誤差」は、ここでいう標本誤差を意識していたので、Ⅰは正しいのですが、上述の理由から標本誤差以外の誤差も考えられることから、Ⅰは間違いといえます。
Ⅱ.全数名簿がなくても標本を抽出する方法はあります。
Ⅲ.全数調査はコストや時間の観点から実施が困難なことが多いので、標本調査を行うことが多いです。


問16 解答

(無作為抽出法)

$\boxed{ \ \mathsf{30}\ }$ ①

無作為抽出法は、母集団の中から全く偏りがなくどの個体も同じ確率で抽出され、さらにどんな抽出の組も同じ確率で選択されるような抽出方法です。乱数を用いて抽出する方法が一般的です。
②③は名簿の順番によるバイアスがかかるので無作為抽出であるとは言えません。
④は調査に協力してくれる(特定の)生徒だけを対象としているので、無作為抽出であるとは言えません。
⑤はグループ間に偏りがあると見込まれることと、希望者を対象としているので、無作為抽出であるとは言えません。

統計検定3級問題解説 ~2019年6月実施~ (問1~問8)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(量的変数)

$\boxed{ \ \mathsf{1}\ }$ ② or ④

量的変数は計算できる数量を扱う変数です。問題では、Ⅱ.特急料金は明らかに量的変数です。
一方、すべてが数字で構成されている変数であっても、「郵便番号」や「商品コード」のような計算できない変数は、量的変数ではなく質的変数になります。
ただし、問題のⅠ.発車時刻のような「日付・時刻」は、月別や時間帯別といったデータの分類に用いることが多いので、質的変数とすることが一般的ですが、例えば、日数や時間間隔などを求めるために用いるなど、数量として取り扱う場面が想定される場合は、量的変数と見ることがあります。
当初、この問題の正解は「②Ⅱのみ」でしたが、そういった理由から「④ⅠとⅡのみ」も正解となりました。


問2 解答

(ヒストグラム)

[1]

$\boxed{ \ \mathsf{2}\ }$ ②

問題の頻度表から、
・最も度数が大きい階級は$81$以上$90$以下。
・$0$以上$30$以下の階級だけ、他の階級と階級幅が違う。
ということがわかります。ヒストグラムでは、各階級の棒の大きさは、面積が度数に比例するよう描かなければなりませんので、他の階級の約$3$倍の階級幅となっている$0$以上$30$以下の階級の棒の高さは、$6\div3=2$となり、棒の幅は他の階級の3倍になります。

[2]

$\boxed{ \ \mathsf{3}\ }$ ①

Ⅰ.中央値は、データを小さい順に並べたときにちょうど中央に来るデータの値です。問題の場合、人数が$100$人ですので、中央値は下から$50$番目と$51$番目の中間の値になります。
ここで、$60$以下の人数は、$6+10+14+16=46$人、$70$以下の人数は、$6+10+14+16+15=61$人なので、下から$50$番目と$51$番目は、$61$以上の$70$以下の階級に含まれています。
Ⅱ.第3四分位数は、下から$3/4$の位置にあるデータの値です。人数が$100$人の場合、第3四分位数は下から$75$番目と$76$番目の中間の値、すなわち、上から$25$番目と$26$番目の中間の値になります。
ここで、$91$以上の人数は、$11$人、$81$以上の人数は、$11+18=29$人なので、上から$25$番目と$26$番目は、$81$以上の$90$以下の階級に含まれています。
Ⅲ.第1四分位数は、下から$1/4$の位置にあるデータの値です。人数が$100$人の場合、第1四分位数は下から$25$番目と$26$番目の中間の値になります。度数分布表から、第1四分位数は$41$以上の$50$以下の階級に含まれています。四分位範囲は、(第3四分位数)$-$(第1四分位数)で求められますので、四分位範囲は最小で、第3四分位数の下端から第1四分位数の上端を差し引いた$81-50=31$となります。


問3 解答

(幹葉図)

幹葉図は左端の値を10の位以上、右にある数字を1の位としてデータを表したものです。例えば2列目の
 $1|1\ 1\ 1\ 2\ 3\ 3\ 4\ 4\ 5\ 6\ 6\ 7\ 8\ 8\ 8\ 9$

 $11\ 11\ 11\ 12\ 13\ 13\ 14\ 14\ 15\ 16\ 16\ 17\ 18\ 18\ 18\ 19$
というデータ列を表しています。このような幹葉図で表すと、10の位ごとの度数の分布の形がぱっと見で分かるようになっていることに加え、データの詳細も把握することができます。

[1]

$\boxed{ \ \mathsf{4}\ }$ ③

中央値は、データを小さい順に並べたときにちょうど中央に来るデータの値なので、データ数が$47$件の場合は、中央値は下から$24$番目の値になります。幹葉図から、$0$~$9$の階級が$4$件、$10$~$19$の階級が$16$件あることがわかるので、下から$24$番目は、$20$~$29$の階級の$4$番目になる$22$ということになります。

[2]

$\boxed{ \ \mathsf{5}\ }$ ③

平均は、データの合計をデータの件数で割ったものになるので、まずデータの合計を求めます。(計算のやり方は、他にもいろいろありますが、ここでは1例を挙げておきます。)
$$\begin{eqnarray}5&+&7+7+8=27\\
11&+&11+11+12+13+13+14+14+15+16+16+17+18+18+18+19=236\\
21&+&22+22+22+22+22+24+25+25+26+29+29=289\\
30&+&31+32+33+37+37+38+39=277\\
43&+&43+44+54+63+85+95=427\\
27&+&236+289+277+427=1256\end{eqnarray}$$よって、平均は、
 $1256\div47=26.7$
となります。


問4 解答

(データの分布、最頻値、中央値、平均値)

$\boxed{ \ \mathsf{6}\ }$ ④

Ⅰ.このデータでヒストグラムを作ると、グラフは右側にピークがあり、左側に分布が伸びている形状になり、左に裾が長い分布になります。
Ⅱ.最頻値は最もデータの件数が多い$9$、中央値は下から$7$番目の値である$9$で、両者は等しくなります。
Ⅲ.データから平均値は$9$より小さい値になります。このデータに$9$を追加すると、平均値は$9$に近づくので値は変化します。一方、中央値は下から$7$番目の値と$8$番目の値の中間値で$9$になります。よって中央値は変化しません。


問5 解答

(度数分布表からの中央値、箱ひげ図)

[1]

$\boxed{ \ \mathsf{7}\ }$ ②

人数が$30$人ですので、中央値は下から$15$番目と$16$番目の中間の値になります。
ここで、$50$点以下の人数は、$1+6+6=13$人、$60$点以下の人数は、$1+6+6+5=18$人なので、下から$15$番目と$16$番目は、$51$点以上の$60$点以下の階級に含まれています。

[2]

$\boxed{ \ \mathsf{8}\ }$ ⑤

箱ひげ図をみると、最小値が$A$では$31$点以上の$40$点以下の階級に、$B$では$21$点以上の$30$点以下の階級にあります。これを踏まえて度数分布表をみると、$A$は$3$回目、$B$は$1$回目のグラフであることがわかります。

[3]

$\boxed{ \ \mathsf{9}\ }$ ②

Ⅰ.2つの箱ひげ図から中央値(箱の中の線)を読み取ると、間隔が$30$点以下となっています。
Ⅱ.$B$の四分位範囲は$40$点以上$70$以下の範囲に入っています。また四分位範囲に入るデータは、下から$8$番目から$23$番目のデータなので、$16$人含まれていることになります。
Ⅲ.$A$のグラフでは、中央値がほぼ$80$点付近にあることから全体の半数である$15$以上が$80$点以上を取っていることがわかります。一方、$B$のグラフでは、第3四分位数の位置が$70$点以下となっていることから、$80$点以上を取っている人数は全体の$1/4$の$8$人以下となっていることがわかります。


問6 解答

(標準偏差、偏差値)

[1]

$\boxed{ \ \mathsf{10}\ }$ ④

平均を$\bar x$、標準偏差を$s$とすると、得点$x_i$の偏差値は、
 $\displaystyle 50+10\times\frac{x_i-\bar x}{s}$
で求められます。よって、$A$さんの理科の偏差値は、
 $\displaystyle 50+10\times\frac{78-66.0}{16}=57.5$
となります。

[2]

$\boxed{ \ \mathsf{11}\ }$ ②

数学の標準偏差を$s$とすると、理科と数学の偏差値が同じなので、
 $\displaystyle 50+10\times\frac{69-60}{s}=57.5$
 $\displaystyle \therefore s=\frac{10\times(69-60)}{57.5-50}=12.0$

[3]

$\boxed{ \ \mathsf{12}\ }$ ④

元のデータを$1.1$倍すると、中央値、平均及び標準偏差も$1.1$倍になります。その結果、偏差値は
 $\displaystyle 50+10\times\frac{1.1\times x_i-1.1\times\bar x}{1.1\times s}=50+10\times\frac{x_i-\bar x}{s}$
となりますので、変更前と変更後の点数で偏差値は変わりません。


問7 解答

(はずれ値)

[1]

$\boxed{ \ \mathsf{13}\ }$ ①

問題のような場合、はずれ値が発生する原因としては、製品そのものに異常があるほかに、測定誤差やデータの記載ミスなども考えられます。また、計測結果にはずれ値が含まれる数は決まっていません。なので、はずれ値が含まれない場合もあります。

[2]

$\boxed{ \ \mathsf{14}\ }$ ⑤

はずれ値は、必ずしも大きい値ではずれるとは限りませんので、はずれ値が存在すると平均値や中央値が大きくなるとは限りません。また、はずれ値は他のデータに比べ極端にはずれている値なので、データのばらつきが大きくなり、分散が大きくなります。


問8 解答

(5数要約、はずれ値を含む箱ひげ図)

[1]

$\boxed{ \ \mathsf{15}\ }$ ④

範囲及び四分位範囲は、以下の式で求められます。
 (範囲)$=$(最大値)$-$(最小値)$=100-22=78$
 (四分位範囲)$=$(第3四分位数)$-$(第1四分位数)$=86-68=18$

[2]

$\boxed{ \ \mathsf{16}\ }$ ②

(第1四分位数)$-$(四分位範囲)$\times1.5=68-18\times1.5=41$
(第3四分位数)$+$(四分位範囲)$\times1.5=86+18\times1.5=113$
となりますので、はずれ値は$22$となります。この結果、ひげの範囲は$44$から$100$になります。

Ch.14 「ベイズ法」の章末問題の解答例 〜現代数理統計学(学術図書出版社)〜

当記事は「現代数理統計学(学術図書出版社)」の読解サポートにあたってChapter.14の「ベイズ法」の章末問題の解説について行います。

基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

↓下記が公式の解答なので、正確にはこちらを参照ください。
https://www.gakujutsu.co.jp/text/isbn978-4-7806-0860-1/

章末の演習問題について

問題14.1の解答例

問題14.2の解答例

問題14.3の解答例

問題14.4の解答例

・ポアソン分布
ポアソン分布$Po(\lambda)$の確率関数を$p(x)=P(X=x|\lambda)$とおくと、$p(x)$は下記のように表すことができる。
$$
\large
\begin{align}
p(x) = \frac{\lambda^{x}e^{-\lambda}}{x!} \quad (1)
\end{align}
$$

上記を$\lambda$の関数と見ると、$\lambda^{x}e^{-\lambda}$より、ガンマ分布の確率密度関数と同様の形状をしていることがわかる。よって、ガンマ分布$Ga(\nu,\alpha)$を事前分布に考えて、事後分布の導出を行う。$Ga(\nu,\alpha)$の確率密度関数を$f(\lambda|\nu,\alpha)$のようにおくと、$f(\lambda|\nu,\alpha)$は下記のように表すことができる。
$$
\large
\begin{align}
f(\lambda|\nu,\alpha) = \frac{1}{\alpha^{\nu} \Gamma(\nu)} \lambda^{\nu-1} e^{-\frac{\lambda}{\alpha}} \quad (2)
\end{align}
$$

(1)式、(2)式を用いて$f(\lambda|\nu,\alpha)p(x)$を考えると、事後分布$P(\lambda|x)$は$f(\lambda|\nu,\alpha)p(x)$に比例する。
$$
\large
\begin{align}
P(\lambda|x) & \propto f(\lambda|\nu,\alpha) p(x) \\
&= \frac{1}{\alpha^{\nu} \Gamma(\nu)} \lambda^{\nu-1} e^{-\frac{\lambda}{\alpha}} \times \frac{\lambda^{x}e^{-\lambda}}{x!} \\
& \propto \lambda^{\nu-1} e^{-\frac{\lambda}{\alpha}} \times \lambda^{x}e^{-\lambda} \\
&= \lambda^{\nu-1+x} e^{-\frac{\lambda}{\alpha} -\lambda} \\
&= \lambda^{\nu+x-1} e^{-\lambda \left(1+\frac{\lambda}{\alpha} \right)}
\end{align}
$$
上記より、事後分布は$\displaystyle Ga \left( \nu+x,\left(1+\frac{\lambda}{\alpha} \right)^{-1} \right)$に従うことがわかる。

サンプルサイズ$n$の場合も(1)式のように同時確率関数$p(x_1,…,.x_n)$を計算することで同様に考えることができる。$p(x_1,…,.x_n)$は下記のように表すことができる。
$$
\large
\begin{align}
p(x_1,…,.x_n) &= \prod_{i=1}^{n} \frac{\lambda^{x_i}e^{-\lambda}}{x_i!} \\
&= \lambda^{\sum_{i=1}^{n} x_i} e^{-n \lambda} \prod_{i=1}^{n} (x_i!)^{-1} \quad (3)
\end{align}
$$

(2)式と(3)式に基づいて、事後分布$P(\lambda|x_1,…,x_n)$は下記のように求めることができる。
$$
\large
\begin{align}
P(\lambda|x_1,…,x_n) & \propto f(\lambda|\nu,\alpha) p(x_1,…,.x_n) \\
&= \frac{1}{\alpha^{\nu} \Gamma(\nu)} \lambda^{\nu-1} e^{-\frac{\lambda}{\alpha}} \times \lambda^{\sum_{i=1}^{n} x_i} e^{-n \lambda} \prod_{i=1}^{n} (x_i!)^{-1} \\
& \propto \lambda^{\nu-1} e^{-\frac{\lambda}{\alpha}} \times \lambda^{\sum_{i=1}^{n} x_i} e^{-n \lambda} \\
&= \lambda^{\nu-1+\sum_{i=1}^{n} x_i} e^{-\frac{\lambda}{\alpha}-n \lambda} \\
&= \lambda^{\nu + \sum_{i=1}^{n} x_i – 1} e^{-\lambda \left(n+\frac{\lambda}{\alpha} \right)}
\end{align}
$$
上記より、サンプルサイズ$n$の場合の事後分布は$\displaystyle Ga \left( \nu+\sum_{i=1}^{n} x_i,\left(n+\frac{\lambda}{\alpha} \right)^{-1} \right)$に従うことがわかる。

問題14.5の解答例

問題14.6の解答例

問題14.7の解答例

問題14.8の解答例

問題14.9の解答例

問題14.10の解答例

問題14.11の解答例

問題14.12の解答例

式$(14.3)$を$p$に関してのみ着目した関数を$f(p)$とおくと、$f(p)$は下記のように表すことができる。
$$
\large
\begin{align}
f(p) &= p^{\alpha – 1} (1-p)^{\beta – 1} \times p^{x} (1-p)^{n – x} \\
&= p^{\alpha – 1 + x} (1-p)^{\beta – 1 + n – x}
\end{align}
$$

MAP推定にあたっては上記が最大となる$p$を求めれば良いので、$\log{f(p)}$を考え、$p$に関して偏微分を行う。
$$
\large
\begin{align}
\frac{\partial \log{f(p)}}{\partial p} &= \frac{\partial}{\partial p} \left( (\alpha – 1 + x) \log{p} + (\beta – 1 + n – x) \log{(1-p)} \right) \\
&= \frac{\alpha – 1 + x}{p} – \frac{\beta – 1 + n – x}{1-p}
\end{align}
$$

上記の偏微分の結果が$0$となるような$p$は下記のように求めることができる。
$$
\large
\begin{align}
\frac{\alpha – 1 + x}{p} – \frac{\beta – 1 + n – x}{1-p} &= 0 \\
\frac{\alpha – 1 + x}{p} &= \frac{\beta – 1 + n – x}{1-p} \\
p(\beta – 1 + n – x) &= (1-p)(\alpha – 1 + x) \\
p(\beta – 1 + n – x + \alpha – 1 + x) &= \alpha + x – 1 \\
p(\alpha + \beta + n – 2) &= \alpha + x – 1 \\
p &= \frac{\alpha + x – 1}{\alpha + \beta + n – 2}
\end{align}
$$

上記より、MAP推定値$\hat{p}$は下記のように与えられる。
$$
\large
\begin{align}
\hat{p} = \frac{\alpha + x – 1}{\alpha + \beta + n – 2}
\end{align}
$$

問題14.13の解答例

統計検定3級問題解説 ~2019年11月実施~ (問11~問18)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問11 解答

(ヒストグラム、度数分布、四分位数)

[1]

$\boxed{ \ \mathsf{16}\ }$ ③

人数が$300$人なので、中央値は下から$150$人目と$151$人目の平均、第1四分位数は下から$75$人目と$76$人目の平均となります。
$60$点未満の人数が$3+6+7+10+16+20=62$、$70$点未満の人数が$3+6+7+10+16+20+30=92$となるので、第1四分位数が入る階級は、$60$点以上$70$点未満の階級となります。
さらに、$80$点未満の人数が$3+6+7+10+16+20+30+52=144$で、$90$点未満の人数は$144+70=214$人以上となるので、中央値の入る階級は、$80$点以上$90$点未満の階級となります。

[2]

$\boxed{ \ \mathsf{17}\ }$ ⑤

英語のグラフに度数(人数)の記載がない階級は、$80$点以上$90$点未満の階級のみなので、全体の人数から記載されているすべての人数の計を差し引いたものが、$80$点以上$90$点未満の階級の人数となります。
 $300-(3+5+10+14+25+29+54+70)=90$人

[3]

$\boxed{ \ \mathsf{18}\ }$ ④

各階級の下限値で平均値を求めると、
 $\begin{eqnarray}(10\times3&+&20\times5+30\times10+40\times14+50\times25\\&+&60\times29+70\times54+80\times90+90\times70)/300\fallingdotseq70.9\end{eqnarray}$
となり、各階級の上限値で平均値を求めると、
 $\begin{eqnarray}(19\times3&+&29\times5+39\times10+49\times14+59\times25\\&+&69\times29+79\times54+89\times90+99\times70)/300\fallingdotseq79.9\end{eqnarray}$
となるので、いずれにしても平均値は$70$点以上$80$点未満の階級に含まれます。
なお、各階級の階級値(階級の中間の値)で平均値を求めると、
 $\begin{eqnarray}(15\times3&+&25\times5+35\times10+45\times14+55\times25\\&+&65\times29+75\times54+85\times90+95\times70)/300\fallingdotseq75.9\end{eqnarray}$
となります。

[4]

$\boxed{ \ \mathsf{19}\ }$ ④

得点が含まれる階級値に属するの人数が、下位パーセントの場合は下から、上位パーセントの場合は上から何人目になるかを求めて何パーセント以内に入るかを判断します。
Ⅰ.数学$45$点→$40$点以上$50$点未満→下から$34$~$61$人目→下位$25\%$以内に入る
Ⅱ.国語$72$点→$70$点以上$80$点未満→下から$93$~$144$人目
         →上から$157$~$208$人目→上位$50\%$以内に入らない
Ⅲ.数学$91$点→$90$点以上$100$点未満→上から$1$~$70$人目→上位$25\%$以内に入る


問12 解答

(散布図、相関)

[1]

$\boxed{ \ \mathsf{20}\ }$ ③

①は、散布図だけでは$80$歳以上の観測値を外れ値として除外することの判断はできません。
②は、女性の投票率をみると、$75$-$79$歳のほうが$70$-$74$歳よりも小さくなっているので、年齢が上がるにつれて投票率が高くなっているとはいえません。
③は、$20$-$24$歳で男性、女性とも投票率が$40\%$未満になっています。
④⑤は、正の相関があることと、男女の投票率の大小関係には関連はありません。グラフ中の斜め線($(0,0)$と$(100,100)$を結ぶ線)より上に来るか下に来るかで、男女の投票率の大小関係は分かります。

[2]

$\boxed{ \ \mathsf{21}\ }$ ④

①は、$20$-$24$歳で比較すると、男女とも村部の方が市部よりも投票率が高くなっています。
②は、市部の$70$-$74$歳は、$65$-$69$歳よりも投票率が高くなっています。
③は、男性の投票率をみると、市部の範囲はおおよそ$50\%$程度となっているのに対して、村部の範囲はおおよそ$40\%$程度と、市部の範囲より小さくなっています。
④は、$20$-$24$歳、$25$-$29$歳ともに、男女とも村部の方が市部よりも投票率が高くなっています。
⑤は、村部の$20$-$24$歳は、男女ともに投票率が$50\%$を下回っています。


問13 解答

(クロス集計表、条件付き確率)

[1]

$\boxed{ \ \mathsf{22}\ }$ ①

問題の条件からクロス集計表を作成すると以下の通りになります。

統計学は卒業後の自分にとって有用だと思いますか
はいいいえ
統計学に
興味はあ
りますか
はい(ア)(イ)120 
いいえ(ウ)10 (エ)
135 (オ)150 

表中の(ア)~(オ)を計算していきます。
(オ)$=150-135=15$、(エ)$=150-120=30$、
(ウ)$=$(エ)$-10=30-10=20$、(イ)$=$(オ)$-10=15-10=5$、
(ア)$=150-$(イ)$-$(ウ)$-10=150-5-20-10=115$
よって、値を埋めたクロス集計表は以下の通りになります。

統計学は卒業後の自分にとって有用だと思いますか
はいいいえ
統計学に
興味はあ
りますか
はい115 5 120 
いいえ20 10 30 
135 15 150 

[2]

$\boxed{ \ \mathsf{23}\ }$ ④

「統計学は卒業後の自分にとって有用だと思いますか」という質問に「いいえ」と答えた人数は$15$人で、そのうち、「統計学に興味はありますか」という質問に「いいえ」と答えた人数は$10$人なので、「統計学は卒業後の自分にとって有用だと思いますか」という質問に「いいえ」と答えたときに「統計学に興味はありますか」という質問に「いいえ」と答える確率は、
 $\displaystyle\frac{10}{15}=\frac{2}{3}$
となります。


問14 解答

(確率)

[1]

$\boxed{ \ \mathsf{24}\ }$ ②

$52$枚のカードから無作為に$5$枚のカードを引く組み合わせの数は、
 $\displaystyle\frac{52\times51\times50\times49\times48}{5\times4\times3\times2\times1}=2598960$通り
となります。また同じ種類の10,J,Q,K,Aの組となる組み合わせは、マークが$4$種類あるので、$4$通りとなります。よって、$5$枚のカードが同じ種類の10,J,Q,K,Aの組となる確率は、
 $\displaystyle\frac{4}{2598960}\fallingdotseq0.0000015=0.00015\%$
となります。

[2]

$\boxed{ \ \mathsf{25}\ }$ ①

同じ数字やアルファベットのカードが$4$枚になる組み合わせは、A,2,3,…,10,J,Q,Kの$13$通りとなります。
$5$枚のカードのうち同じ数字やアルファベットのカードが$4$枚になる組み合わせは、$4$枚以外の残り$1$枚のカードは$52-4=48$枚のカードがあるので、$13\times48=624$通りになります。
よって、$5$枚のカードのうち同じ数字やアルファベットのカードが$4$枚になる確率は、
 $\displaystyle\frac{624}{2598960}\fallingdotseq0.00024=0.024\%$
となります。


問15 解答

(時系列データ、変化率)

[1]

$\boxed{ \ \mathsf{26}\ }$ ②

問題の式で定義される変化率を使って、ある年の消費支出額を、その前年の消費支出額から求めるには、
(ある年の消費支出額)$=$(その前年の消費支出額)$\times\{$(変化率)$(\%)\div100+1\}$
で求められます。したがって、2002年の消費支出額は、
 $3808000\times(-2.61\div100+1)\times(-1.00\div100+1)=3671525$
になります。

[2]

$\boxed{ \ \mathsf{27}\ }$ ③

Ⅰ.$2000$年を$10000$として、各年の値を求めると、次のようになります。
 $2001$年:$10000\times(1-0.0261)=9739$、$2002$年:$9739\times(1-0.0100)=9642$、
 $2003$年:$9642\times(1-0.0134)=9513$、$2004$年:$9513\times(1+0.0038)=9549$、
 $2005$年:$9549\times(1-0.0081)=9472$、$2006$年:$9472\times(1-0.0186)=9296$、
 $2007$年:$9296\times(1+0.0096)=9385$、$2008$年:$9385\times(1-0.0029)=9358$、
 $2009$年:$9358\times(1-0.0175)=9194$、$2010$年:$9194\times(1-0.0051)=9147$、
 $2011$年:$9147\times(1-0.0251)=8917$、$2012$年:$8917\times(1+0.0113)=9018$、
 $2013$年:$9018\times(1+0.0150)=9153$、$2014$年:$9153\times(1+0.0025)=9176$、
 $2015$年:$9176\times(1-0.0131)=9056$、$2016$年:$9056\times(1-0.0180)=8893$、
 $2017$年:$8893\times(1+0.0030)=8920$、$2018$年:$8920\times(1+0.0151)=9055$
よって、$2000$年が最も消費支出額が多くなります。
Ⅱ.Ⅰ.で求めた指数から各年の指数の増減を求めると、次のようになります。
 $2001$年:$9739-10000=-261$、$2002$年:$9642-9739=-97$、
 $2003$年:$9513-9642=-129$、$2004$年:$9549-9513=36$、
 $2005$年:$9472-9549=-77$、$2006$年:$9296-9472=-176$、
 $2007$年:$9385-9296=89$、$2008$年:$9358-9385=-27$、
 $2009$年:$9194-9358=-164$、$2010$年:$9147-9194=-47$、
 $2011$年:$8917-9147=-230$、$2012$年:$9018-8917=101$、
 $2013$年:$9153-9018=135$、$2014$年:$9176-9153=23$、
 $2015$年:$9056-9176=-120$、$2016$年:$8893-9056=-163$、
 $2017$年:$8920-8893=27$、$2018$年:$9055-8920=135$
よって、$2000$年から$2001$年にかけてが最も消費支出額が大きく減ったことになります。
Ⅲ.Ⅰ.で求めた結果から、$2015$年の消費支出額は、$2011$年の消費支出額を上回っています。


問16 解答

(クロス集計表、条件付き確率)

$\boxed{ \ \mathsf{28}\ }$ ②

通学校の大学等進学率が$50\%$以上の人数は$233+290$になります。
その中から数学について得意もしくはやや得意と答えた人数は$72+32+69+34$になります。
よって、求める割合は$(72+32+69+34)/(233+290)$で求められます。


問17 解答

(国勢調査)

$\boxed{ \ \mathsf{29}\ }$ ④

国勢調査は人口および世帯に関する各種属性のデータを調べる全数調査です。基本的には5年ごとに、なおかつ「西暦が5の倍数の年」に実施され、1920年に第1回の調査が行われています。調査対象は「日本国内の外国籍を含むすべての人及び世帯」です。調査方法は、従来から行われている「国勢調査員が各家庭に調査票を配布・回収する」方法のほか、$2015$年以降からはインターネットによる回答も実施されました。


問18 解答

(母集団)

$\boxed{ \ \mathsf{30}\ }$ ③

母集団は調査の対象になる対象全体の集まりのことを言います。問題の場合は、A大学に今年入学した1年生全体が母集団になります。この中から、調査用紙を回収した1年生が標本となります。 

統計検定3級問題解説 ~2019年11月実施~ (問1~問10)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問1 解答

(量的変数)

$\boxed{ \ \mathsf{1}\ }$ ②

量的変数は計算できる数量を扱う変数です。すべてが数字で構成されている変数であっても、「郵便番号」や「商品コード」のような計算できない変数は、量的変数ではなく質的変数になります。


問2 解答

(量的変数と棒グラフ)

$\boxed{ \ \mathsf{2}\ }$ ④

質的変数の度数を表すのには、棒グラフがよく用いられます。棒の高さで度数を表すので、棒の高さの比率が崩れないのであれば、必ずしも度数そのものではなく、全カテゴリの度数の合計で割った値で描いてもかまいません。
Ⅱは、カテゴリ間に順序がある場合、その順序は情報として必要なことが多いので、棒の順番は自由に変えることはできません。逆にカテゴリ間に順序がない場合は、むしろ度数の多い順番で並び替えるなど、情報を伝えやすい工夫をすることが重要です。


問3 解答

(ヒストグラム)

$\boxed{ \ \mathsf{3}\ }$ ⑤

ヒストグラフは棒グラフと似ていますが、連続変数に対しては、「階級の順番」や「階級の幅」も重要な情報となるので、柱の順番は階級の順番に従いますし、柱の幅は階級の幅に応じて変えて描きます。また、柱の高さは、柱の面積が度数に比例するように描く必要があります。


問4 解答

(平均、標準偏差、変動係数)

$n$個のデータ$x_1,x_2,\cdots,x_n$の平均、分散、標準偏差は次のように計算します。
・平均 $\displaystyle \bar x=\frac1n\sum_{i=1}^n x_i=\frac1n(x_1+x_2+\cdots+x_n)$
・分散 $\displaystyle s^2=\frac1n\sum_{i=1}^n(x_i-\bar x)^2=\frac1n\left\{(x_1-\bar x)^2+(x_2-\bar x)^2+\cdots+(x_n-\bar x)^2\right\}$
・標準偏差 $\displaystyle s=\sqrt{s^2}=\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}$
また、変動係数は平均のサイズが大きく異なるときに、標準偏差を平均で標準化したものです。
・変動係数 $\displaystyle CV=\frac{s}{\bar x}$

[1]

$\boxed{ \ \mathsf{4}\ }$ ③

元のデータに定数$a$を加算した場合、平均の値は
$\displaystyle \bar x_a=\frac1n\sum_{i=1}^n (x_i+a)=\frac1n(x_1+x_2+\cdots+x_n+na)=\bar x+a$
となり、加算した定数分が元の平均に加算されます。
一方、分散は
$\displaystyle s_a^2=\frac1n\sum_{i=1}^n(x_i+a-\bar x_a)^2=\frac1n\sum_{i=1}^n\{x_i+a-(\bar x+a)\}^2=\frac1n\sum_{i=1}^n(x_i-\bar x)^2=s^2$
となり、元の分散を同じ値になるので、標準偏差も元の値と変わりません。

[2]

$\boxed{ \ \mathsf{5}\ }$ ①

元のデータを実数$b$倍した場合、平均の値は
$\displaystyle \bar x_b=\frac1n\sum_{i=1}^n bx_i=\frac1n(bx_1+bx_2+\cdots+bx_n)=\frac1nb(x_1+x_2+\cdots+x_n)=b\bar x$
となり、元の平均の$b$倍になります。
一方、分散は
$\displaystyle s_b^2=\frac1n\sum_{i=1}^n(bx_i-\bar x_b)^2=\frac1n\sum_{i=1}^n(bx_i-b\bar x)^2=\frac1nb^2\sum_{i=1}^n(x_i-\bar x)^2=b^2s^2$
となり、元の分散の実数の$b^2$倍になります。したがって、標準偏差は元の標準偏差の$b$倍になります。
平均も標準偏差も同じ実数倍となりますので、変動係数の値は変化しません。
英語、数学の点数を$50$点満点になるようにすると、英語は$1/4$倍、数学は$1/2$倍となるので、
・英語平均 $112\times1/4=28$、 英語標準偏差 $16\times1/4=4$、
 英語分散 $4\times4=16$、 英語変動係数 $4/28\fallingdotseq0.143$
・数学平均 $48\times1/2=24$、 数学標準偏差 $10\times1/2=5$、
 数学分散 $5\times5=25$、 数学変動係数 $5/24\fallingdotseq0.208$


問5 解答

(偏差、標準偏差)

$\boxed{ \ \mathsf{6}\ }$ ③

試験結果の平均、標準偏差はそれぞれ、
 $\displaystyle \bar x=\frac1n\sum_{i=1}^n x_i=\frac1{40}\times2,400=60$
 $\displaystyle s=\sqrt{s^2}=\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}=\sqrt{\frac1{40}\times4,840}=\sqrt{121}=11$
となります。
点数から平均点を引いたものは(平均からの)偏差といいます。偏差の合計は、
 $\displaystyle \sum_{i=1}^n(x_i-\bar x)=\sum_{i=1}^nx_i-n\bar x=n\bar x-n\bar x=0$
となります。
また、偏差の2乗の合計の式は、変形すると、
 $\displaystyle \begin{eqnarray}\sum_{i=1}^n(x_i-\bar x)^2=\sum_{i=1}^n(x_i^2-2x_i\bar x+\bar x^2)&=&\sum_{i=1}^nx_i^2-\sum_{i=1}^n2x_i\bar x+\sum_{i=1}^n\bar x^2\\&=&\sum_{i=1}^nx_i^2-2\bar x\sum_{i=1}^nx_i+n\bar x^2\\&=&\sum_{i=1}^nx_i^2-2n\bar x^2+n\bar x^2\\&=&\sum_{i=1}^nx_i^2-n\bar x^2\end{eqnarray}$
となるので、
 $\displaystyle \sum_{i=1}^nx_i^2+n\bar x^2=4,840+40\times60^2=148,840$
となります。

※)偏差の2乗の合計の式の変形をつかって分散を求めると、
 $\displaystyle s^2=\frac1n\sum_{i=1}^n(x_i-\bar x)^2=\frac1n\left(\sum_{i=1}^nx_i^2-n\bar x^2\right)=\frac1n\sum_{i=1}^nx_i^2-\bar x^2$
となり、「データの2乗の平均」から「データの平均の2乗」を差し引いて分散を求めることができます。


問6 解答

(中央値、四分位範囲、箱ひげ図、散布図)

[1]

$\boxed{ \ \mathsf{7}\ }$ ②

データと小さい順に並べ、$4$分の$1$ずつの場所にある値を、第1四分位数、第2四分位数、第3四分位数といいます。第2四分位数はいわゆる中央値となります。また第3四分位数と第1四分位数の差を四分位範囲といいます。
審査員1の点数を小さい順に並べると、
 $84\quad86\quad88\quad90\quad90\quad92\quad93\quad93\quad93\quad94$
となるので、
 第1四分位数$=88$、中央値$=$第2四分位数$=(90+92)/2=91$、第3四分位数$=93$
となります。四分位範囲は$93-88=5$となります。

[2]

$\boxed{ \ \mathsf{8}\ }$ ①

与えられたデータから各審査員の得点の5数要約を求めると、次のようになります。
審査員1 最小値$=84$、第1四分位数$=88$、中央値$=91$、第3四分位数$=93$、最大値$=94$
審査員2 最小値$=84$、第1四分位数$=87$、中央値$=91$、第3四分位数$=93$、最大値$=94$
審査員3 最小値$=81$、第1四分位数$=85$、中央値$=90.5$、第3四分位数$=92$、最大値$=98$
これにより、箱ひげ図の最小値、最大値をみると、$C$が審査員3、第1四分位数をみると、$B$が審査員2、$A$が審査員1であることがわかります。

[3]

$\boxed{ \ \mathsf{9}\ }$ ④

1組目の芸人の点数は審査員1が$84$点、審査員2が$87$点となっており、この点が描かれているグラフは④のみとなります。ほかの点数についても④のグラフに正しく反映されています。
なお、②は審査員2と審査員3の点数、③は審査員1と審査員3の点数の散布図となっています。


問7 解答

(散布図、相関係数、共分散)

[1]

$\boxed{ \ \mathsf{10}\ }$ ③

散布図からりんごの支出額とバナナの支出額の間には相関関係が見られないことから、相関係数は$0$に近い値となります。(相関関係が強くなるほど、散布図上の点は直線状に分布することになります。)

[2]

$\boxed{ \ \mathsf{11}\ }$ ③

$n$個のデータの組$(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$としたとき、共分散は次のように計算します。
 $\displaystyle \begin{eqnarray}s_{xy}&=&\frac1n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\\&=&\frac1n\{(x_1-\bar x)(y_1-\bar y)+(x_2-\bar x)(y_2-\bar y)+\cdots+(x_n-\bar x)(y_n-\bar y)\}\end{eqnarray}$
ここで、$\displaystyle \bar x=\frac1n\sum_{i=1}^n x_i,\quad \bar y=\frac1n\sum_{i=1}^n y_i$です。
また、相関係数は次のように計算します。
 $\displaystyle r_{xy}=\frac{s_{xy}}{s_xs_y}=\frac{\frac1n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt{\frac1n\sum_{i=1}^n(x_i-\bar x)^2}\sqrt{\frac1n\sum_{i=1}^n(y_i-\bar y)^2}}$

Ⅰ.7月の支出額はバナナは6月の支出額の$1.2$倍、りんごは6月の支出額の$1.1$倍となります。したがって分散は、バナナは$1.2^2=1.44$倍、りんごは$1.1^2=1.21$倍になります。(問4[2]参照)
Ⅱ.7月のバナナの支出額とりんごの支出額の共分散は、
 $\displaystyle \begin{eqnarray}\frac1n\sum_{i=1}^n(1.2x_i-1.2\bar x)(1.1y_i-1.1\bar y)&=&\frac1n\sum_{i=1}^n\left\{1.2\times(x_i-\bar x)\times1.1\times(y_i-\bar y)\right\}\\&=&1.2\times1.1\times\frac1n\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\\&=&1.32s_{xy}\end{eqnarray}$
となります。
Ⅲ.7月のバナナの支出額とりんごの支出額の相関係数は、
 $\displaystyle \frac{1.32s_{xy}}{(1.2s_x)(1.1s_y)}=\frac{s_{xy}}{s_xs_y}$
となり、6月の支出額の相関係数と同じになります。


問8 解答

(散布図、相関)

$\boxed{ \ \mathsf{12}\ }$ ①

散布図から、得失点差が大きいほど勝利数も大きい傾向にあります。したがって、得失点差と勝利数には強いの相関があります。(強い正の相関があるときは、散布図の点は左下から右上への直線状に分布します。)したがって、Ⅰのみ正しい記述となります。


問9 解答

(乱数表)

$\boxed{ \ \mathsf{13}\ }$ ③

Ⅰ.乱数表全体で考えると、ある特定の数字列が出現する可能性がないとは言い切れません。(出現するかもしれません。)
Ⅱ.乱数表に出現する数字には、特定の規則性があってはなりません。
Ⅲ.指定された数字から、1文字ずつ数字を見ていくと、$3\ 8\ 8\ 5\ 8\ 1\ 4\ 1\ 6\cdots$となっています。これを3文字ずつ順番に抽出すると、$388,\ 581,\ 416,\cdots$となります。


問10 解答

(散布図、最頻値、箱ひげ図)

[1]

$\boxed{ \ \mathsf{14}\ }$ ⑤

散布図の点を縦方向に見ていくと、点の数が最も多いのは$9$点で$5$人です。よって、国語の点数の最頻値は$9$点となります。
散布図の点を横方向に見ていくと、点の数が最も多いのは$9$点で$4$人です。よって、数学の点数の最頻値は$9$点となります。

[2]

$\boxed{ \ \mathsf{15}\ }$ ②

人数(データ数)が$15$人なので、データを小さい順に並べたときに、中央値は下から$8$人目の値、第1四分位数は下から$4$人目と$5$人目の平均値、第3四分位数は下から$11$人目と$12$人目の平均値となります。
以上を踏まえて、国語および数学の点数の5数要約を求めると、次のようになります。
国語 最小値$=5$、第1四分位数$=7$、中央値$=8$、第3四分位数$=9$、最大値$=10$
数学 最小値$=4$、第1四分位数$=6$、中央値$=8$、第3四分位数$=9$、最大値$=10$
これにより、箱ひげ図をみると、②が正しい箱ひげ図となります。(①は国語の最小値が、③は数学の第1四分位数が、④は数学の中央値がそれぞれ間違っています。)

Ch.3 「実験データの分析」の章末問題の解答例 〜自然科学の統計学(東京大学出版会)〜

当記事は「基礎統計学Ⅲ 自然科学の統計学(東京大学出版会)」の読解サポートにあたってChapter.3の「実験データの分析」の章末問題の解説について行います。
基本的には書籍の購入者向けの解答例・解説なので、まだ入手されていない方は下記より入手をご検討ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。

章末の演習問題について

問題3.1の解答例

i)
標本平均を$\bar{x}_1$、$\bar{x}_2$、不偏標本分散を$s_1^2$、$s_2^2$、母分散を$\sigma_1^2$、$\sigma_2^2$とする。このとき、$F$値は下記のように計算できる。
$$
\begin{align}
F = \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2}
\end{align}
$$
上記で計算した$F$値は自由度$(m-1, n-1)=(9-1, 9-1)=(8, 8)$の$F$分布$F(8, 8)$に従う。ここで等分散の検定を行うにあたって、$\sigma_1^2=\sigma_2^2$を帰無仮説とする。これを有意水準$5$%で検定するにあたっては、$\displaystyle F = \frac{s_1^2}{s_2^2}$が$F(8, 8)$の$95$%区間に含まれるかどうかを確認すればよい。ここで$\bar{x}_1$、$\bar{x}_2$、$s_1^2$、$s_2^2$、$F$は下記のように計算できる。
$$
\begin{align}
\bar{x}_1 &= \frac{1}{9}(0.813+0.820+0.771+0.908+0.944+0.771+0.763+0.996+0.886) \\
&= 0.8524… \\
\bar{x}_2 &= \frac{1}{9}(1.045+1.100+1.013+1.009+1.204+0.996+1.352+1.173+0.934) \\
&= 1.09177… \\
s_1^2 &= \frac{9}{8}(E[X^2]-E[X]^2) \\
&= \frac{9}{8}((0.813^2+0.820^2+0.771^2+0.908^2+0.944^2+0.771^2+0.763^2+0.996^2+0.886^2)/9-\bar{x}_1^2) \\
&= 0.0071… \\
s_2^2 &= \frac{9}{8}((1.045^2+1.100^2+1.013^2+1.009^2+1.204^2+0.996^2+1.352^2+1.173^2+0.934^2)/9-\bar{x}_2^2) \\
&= 0.0170… \\
F &= \frac{s_1^2}{s_2^2} \\
&= \frac{0.00713…}{0.0170…} \\
&= 0.4194…
\end{align}
$$
$F$分布において上側確率が$100\alpha$%となるパーセント点に対応する$F$の値を$F_{\alpha}$とする。
等分散の検定にあたっては、$F_{\alpha=0.975}(8,8) \leq F \leq F_{\alpha=0.025}(8,8)$となるかを確認すればよい。$F_{\alpha=0.975}(8,8)$についての$F$分布表は用意されないことが多いが、$F$分布の性質より$F_{\alpha=0.975}(8,8)=1/F_{\alpha=0.025}(8,8)$が成立するためこのことを利用する。
ここで$F_{\alpha=0.025}(8,8)=4.433$、$1/F_{\alpha=0.025}(8,8)=0.2256$だから有意水準$5$%では等分散を前提とする帰無仮説を棄却できず、有意ではない。そのため、以降の問題では等分散を仮定する。

ⅱ)
i)の結果より、等分散を仮定する。ここで全体の不偏標本分散を$s^2$とすると下記のように計算することができる。
$$
\begin{align}
s^2 &= \frac{(m-1)s_1^2+(n-1)s_2^2}{m+n-2} \\
&= 0.01208…
\end{align}
$$
このとき、$t$値を下記のように計算できる。
$$
\begin{align}
t &= \frac{\bar{x}_1-\bar{x}_2}{s\sqrt{(1/m)+(1/n)}} \\
&= -4.6182…
\end{align}
$$
上記が自由度$16$の$t$分布$t(16)$に従う。ここで、$t$分布において上側確率が$100\alpha$%となるパーセント点に対応する$t$の値を$t{\alpha}$とする。このとき$t_{\alpha=0.025}(16)=2.120$、$t_{\alpha=0.975}(16)=-t_{\alpha=0.025}(16)=-2.120$であるので、母平均が等しいとする帰無仮説は棄却できる。よって、平均には有意な差があると考えることができる。

ⅲ)
$$
\begin{align}
t = \frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{s\sqrt{(1/m)+(1/n)}}
\end{align}
$$
上記のように$t$値を計算すると、上記は自由度16の$t$分布$t(16)$に従う。ここで、$t$分布において上側確率が$100\alpha$%となるパーセント点に対応する$t$の値を$t{\alpha}$とすると、下記が成立する。
$$
\begin{align}
t_{\alpha=0.975}(16) \leq t \leq t_{\alpha=0.025}(16)
\end{align}
$$
上記において、$t_{\alpha=0.025}(16)=2.120$、$t_{\alpha=0.975}(16)=-t_{\alpha=0.025}(16)=-2.120$が成立する。これに基づいて$\mu_1-\mu_2$の区間の推定を行う。
$$
\begin{align}
t_{\alpha=0.975}(16) \leq &t \leq t_{\alpha=0.025}(16) \\
t_{\alpha=0.975}(16) \leq &\frac{(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2)}{s\sqrt{(1/m)+(1/n)}} \leq t_{\alpha=0.025}(16) \\
t_{\alpha=0.975}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \leq &(\bar{x}_1-\bar{x}_2)-(\mu_1-\mu_2) \leq t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \\
-t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \leq &(\mu_1-\mu_2)-(\bar{x}_1-\bar{x}_2) \leq -t_{\alpha=0.975}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \\
(\bar{x}_1-\bar{x}_2)-t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \leq &(\mu_1-\mu_2) \leq (\bar{x}_1-\bar{x}_2)+t_{\alpha=0.025}(16)s\sqrt{\frac{1}{m}+\frac{1}{n}} \\
(\bar{x}_1-\bar{x}_2)-2.120s\sqrt{\frac{1}{9}+\frac{1}{9}} \leq &(\mu_1-\mu_2) \leq (\bar{x}_1-\bar{x}_2)+2.120s\sqrt{\frac{1}{9}+\frac{1}{9}} \\
-0.349… \leq &(\mu_1-\mu_2) \leq -0.129…
\end{align}
$$
よって求める区間は$[-0.349…, -0.129…]$となる。

問題3.2の解答例

温度$A_1$〜$A_4$に対応する得られたサンプルの平均を$\mu_1$〜$\mu_4$、全体の平均を$\mu$とする。それぞれは下記のように計算できる。
$$
\begin{align}
\mu_1 &= \frac{1}{4}(70+73+75+72) \\
&= 72.5 \\
\mu_2 &= \frac{1}{4}(74+74+77+75) \\
&= 75 \\
\mu_3 &= \frac{1}{4}(78+75+79+80) \\
&= 78 \\
\mu_4 &= \frac{1}{4}(76+78+75+75) \\
&= 76 \\
\mu &= \frac{1}{16}(70+73+75+72+74+74+77+75+78+75+79+80+76+78+75+75) \\
&= 75.375
\end{align}
$$
級間平方和を$S_A$、誤差平方和を$S_e$とおくと、それぞれ下記のように計算することができる。
$$
\begin{align}
S_A &= 4(72.5-75.375)^2+4(75-75.375)^2+4(78-75.375)^2+4(76-75.375)^2 \\
&= 62.75
\end{align}
$$
$$
\begin{align}
S_e &= (70-72.5)^2+(73-72.5)^2+(75-72.5)^2+(72-72.5)^2 \\
&+ (74-75)^2+(74-75)^2+(77-75)^2+(75-75)^2 \\
&+ (78-78)^2+(75-78)^2+(79-78)^2+(80-78)^2 \\
&+ (76-76)^2+(78-76)^2+(75-76)^2+(75-76)^2 \\
&= 39
\end{align}
$$
ここでそれぞれの自由度を$\nu_A=4-1=3$、$\nu_e=16-4=12$なので、下記のように$F$値が計算できる。
$$
\begin{align}
F &= \frac{S_A/\nu_A}{S_e/\nu_e} \\
&= \frac{62.75/3}{39/12} \\
&= 6.43589…
\end{align}
$$
ここで、$F$分布において上側確率が$100\alpha$%となるパーセント点に対応する$F$の値を$F_{\alpha}$とする。$F_{\alpha=0.025}(3,12)=4.474$より帰無仮説は棄却できる。よって、4水準の平均は異なると考えられる。

問題3.3の解答例

$$
\large
\begin{align}
S_{T} = S_{A} + S_{B} + S_{A \times B} + S_{e}
\end{align}
$$
以下、上記で表される(3.27)式が成立することを確認する。

$S_{T}, S_{A}, S_{B}, S_{A \times B}, S_{e}$はそれぞれ下記のように定義される。
$$
\large
\begin{align}
S_{T} &= \sum_{i} \sum_{j} \sum_{k} (y_{ijk}-\bar{y})^2 \\
S_{A} &= \sum_{i} \sum_{j} \sum_{k} (\bar{y}_{A_{i}}-\bar{y})^2 \\
S_{B} &= \sum_{i} \sum_{j} \sum_{k} (\bar{y}_{B_{j}}-\bar{y})^2 \\
S_{A \times B} &= \sum_{j} \sum_{k} (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y})^2 \\
S_{e} &= \sum_{j} \sum_{k} (y_{ijk}-\bar{y}_{A_{i}B_{j}})^2
\end{align}
$$

上記を元に下記のような変形を行うことで$(1)$式が成立することを示すことができる。
$$
\large
\begin{align}
S_{T} &= \sum_{i} \sum_{j} \sum_{k} (y_{ijk}-\bar{y})^2 \\
&= \sum_{i} \sum_{j} \sum_{k} ((y_{ijk}-\bar{y}_{A_{i}B_{j}}) + (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y}) + (\bar{y}_{A_{i}}-\bar{y}) + (\bar{y}_{B_{j}}-\bar{y}))^2 \\
&= \sum_{i} \sum_{j} \sum_{k} \left( (y_{ijk}-\bar{y}_{A_{i}B_{j}})^2 + (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y})^2 + (\bar{y}_{A_{i}}-\bar{y})^2 + (\bar{y}_{B_{j}}-\bar{y})^2 \right) \\
&+ \sum_{i} \sum_{j} \sum_{k} \left( (y_{ijk}-\bar{y}_{A_{i}B_{j}})(\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y}) + … (\bar{y}_{A_{i}}-\bar{y})(\bar{y}_{B_{j}}-\bar{y}) \right) \\
&= S_{A} + S_{B} + S_{A \times B} + S_{e}
\end{align}
$$

上記の導出にあたっては下記が成立することを利用した。
$$
\large
\begin{align}
\sum_{i} \sum_{j} \sum_{k} (\bar{y}_{A_{i}}-\bar{y}) &= 0 \\
\sum_{i} \sum_{j} \sum_{k} (\bar{y}_{B_{j}}-\bar{y}) &= 0 \\
\sum_{j} \sum_{k} (\bar{y}_{A_{i}B_{j}}-\bar{y}_{A_{i}}-\bar{y}_{B_{j}}+\bar{y})^2 &= 0 \\
\sum_{j} \sum_{k} (y_{ijk}-\bar{y}_{A_{i}B_{j}})^2 &= 0
\end{align}
$$

問題3.4の解答例

問題3.5の解答例

問題3.6の解答例

下記を実行することで諸々の値を得ることができる。

import numpy as np

observed = np.array([[[54.,55.],[63.,60.],[61.,58.],[51.,53.]], [[64.,67.],[70.,70.],[67.,62.],[58.,61.]], [[54.,50.],[48.,64.],[57.,47.],[47.,42.]]])

S_A = 8.*(np.mean(observed[0,:,:])-np.mean(observed))**2 + 8.*(np.mean(observed[1,:,:])-np.mean(observed))**2 + 8.*(np.mean(observed[2,:,:])-np.mean(observed))**2
S_B = 6.*(np.mean(observed[:,0,:])-np.mean(observed))**2 + 6.*(np.mean(observed[:,1,:])-np.mean(observed))**2 + 6.*(np.mean(observed[:,2,:])-np.mean(observed))**2 + 6.*(np.mean(observed[:,3,:])-np.mean(observed))**2
S_AB = 0
S_e = 0
for i in range(observed.shape[0]):
    for j in range(observed.shape[1]):
        S_AB += 2.*(np.mean(observed[i,j,:])-np.mean(observed[i,:,:])-np.mean(observed[:,j,:])+np.mean(observed))**2
        S_e += np.sum((observed[i,j,:]-np.mean(observed[i,j,:]))**2)

print("S_A, S_B, S_AB, S_e: {}, {}, {}, {}".format(S_A, S_B, S_AB, S_e))
print("V_A, V_B, V_AB, V_e: {}, {}, {}, {}".format(S_A/2., S_B/3., S_AB/6., S_e/12.))
print("F_A, F_B, F_AB: {}, {}, {}".format((S_A/2.)/(S_e/12.), (S_B/3.)/(S_e/12.), (S_AB/6./(S_e/12.))))

・実行結果

> print("S_A, S_B, S_AB, S_e: {}, {}, {}, {}".format(S_A, S_B, S_AB, S_e))
S_A, S_B, S_AB, S_e: 763.0, 339.458333333, 25.6666666667, 231.5
> print("V_A, V_B, V_AB, V_e: {}, {}, {}, {}".format(S_A/2., S_B/3., S_AB/6., S_e/12.))
V_A, V_B, V_AB, V_e: 381.5, 113.152777778, 4.27777777778, 19.2916666667
> print("F_A, F_B, F_AB: {}, {}, {}".format((S_A/2.)/(S_e/12.), (S_B/3.)/(S_e/12.), (S_AB/6./(S_e/12.))))
F_A, F_B, F_AB: 19.7753779698, 5.86537077034, 0.221742260619

上記より、下記のような分散分析表を作成することができる。
$$
\large
\begin{array}{|c|*4{c|}}\hline & S & \phi & V & F \\
\hline A & 763.0 & 2 & 381.5 & 19.78 \\
\hline B & 339.5 & 3 & 113.2 & 5.87 \\
\hline A \times B & 25.7 & 6 & 4.28 & 0.22 \\
\hline \mathrm{error} & 231.5 & 12 & 19.29 & \\
\hline \mathrm{Total} & 1359.6 & 23 & & \\
\hline
\end{array}
$$

上記より主効果$A, B$に関して有意水準$5$%で有意であることが確認できる。

まとめ

Chapter.3の「実験データの分析」の演習について取り扱いました。

https://www.amazon.co.jp/dp/4130420674

Ch.10 「正規分布、2項分布に関する推測」の章末問題の解答例 〜現代数理統計学〜

当記事は「現代数理統計学(学術図書出版社)」の読解サポートにあたってChapter.10の「正規分布、2項分布に関する推測」の章末問題の解説について行います。

基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

↓下記が公式の解答なので、正確にはこちらを参照ください。
https://www.gakujutsu.co.jp/text/isbn978-4-7806-0860-1/

章末の演習問題について

問題10.1の解答例

自由度$\nu$の$\chi^2$分布$\chi^2(\nu)$はガンマ分布$\displaystyle Ga \left( \frac{\nu}{2},2 \right)$に一致する。ガンマ分布$\displaystyle Ga(\nu,\alpha)$の期待値$E[X]$は$E[X] = \nu \alpha$なので、$\chi^2$の期待値は自由度に一致する。

ここで$V$を自由度$k$の$\chi^2$分布$\chi^2(k)$に従うと考えるとき、確率変数$\displaystyle \frac{1}{V}$の期待値を考える。$\chi^2(k)$の確率密度関数を$f(v)$と定義するとき、期待値$\displaystyle E \left[ \frac{1}{V} \right]$は下記のように計算できる。
$$
\large
\begin{align}
E \left[ \frac{1}{V} \right] &= \int_{0}^{\infty} \frac{1}{v} \times f(v) dv \\
&= \int_{0}^{\infty} \frac{1}{v} \times \frac{1}{2^{\frac{k}{2}} \Gamma \left( \frac{k}{2} \right)} v^{\frac{k}{2}-1} e^{-\frac{v}{2}} dv \\
&= \frac{1}{2^{\frac{k}{2}} \Gamma \left( \frac{k}{2} \right)} \int_{0}^{\infty} v^{\left( \frac{k}{2}-1 \right)-1} e^{-\frac{v}{2}} dv \\
&= \frac{2^{\frac{k}{2}-1} \Gamma \left( \frac{k}{2}-1 \right)}{2^{\frac{k}{2}} \Gamma \left( \frac{k}{2} \right)} \int_{0}^{\infty} \frac{1}{2^{\frac{k}{2}-1} \Gamma \left( \frac{k}{2}-1 \right)} v^{\left( \frac{k}{2}-1 \right)-1} e^{-\frac{v}{2}} dv \\
&= \frac{\Gamma \left( \frac{k}{2}-1 \right)}{2 \Gamma \left( \frac{k}{2} \right)} \times 1 \\
&= \frac{\Gamma \left( \frac{k}{2}-1 \right)}{2 \left( \frac{k}{2}-1 \right) \Gamma \left( \frac{k}{2}-1 \right)} \\
&= \frac{1}{k-2}
\end{align}
$$

上記を元に考えることで、$\displaystyle \sigma_2^2 / \sigma_1^2$に関する不偏推定量$\displaystyle \widehat{ \sigma_2^2 / \sigma_1^2}$は$(10.14)$式のように表される。

問題10.2の解答例

問題10.3の解答例

正規分布$N(\mu,\sigma^2)$の確率密度関数を$f(x)$のようにおくと、下記のように表すことができる。
$$
\large
\begin{align}
f(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( – \frac{(x-\mu)^2}{2 \sigma^2} \right) \quad (1)
\end{align}
$$

(1)式に対して下記で表す$(10.38)$式を用いて変形を行うことを考える。
$$
\large
\begin{align}
T(x) &= – \frac{(x-\mu)^2}{2} \quad (2) \\
\psi &= \frac{1}{\sigma^2} \quad (3)
\end{align}
$$

(2)式、(3)式を元に(1)式は下記のように変形を行うことができる。
$$
\large
\begin{align}
f(x) &= \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( – \frac{(x-\mu)^2}{2 \sigma^2} \right) \\
&= \exp \left( \log{\sqrt{\frac{\psi}{2 \pi}}} \right) \exp \left( T(x) \psi \right) \\
&= \exp \left( – \frac{1}{2} \log{ \left( \frac{2 \pi}{\psi} \right)} \right) \exp \left( T(x) \psi \right) \\
&= \exp \left( T(x) \psi – \frac{1}{2} \log{ \left( \frac{2 \pi}{\psi} \right)} \right)
\end{align}
$$

上記を$(8.63)$式と見比べることにより下記が得られる。
$$
\large
\begin{align}
h(x) &= 1 \\
c(\psi) &= – \frac{1}{2} \log{ \left( \frac{2 \pi}{\psi} \right)}
\end{align}
$$

問題10.4の解答例

問題10.5の解答例

問題10.6の解答例

問題10.7の解答例

問題10.8の解答例

問題10.9の解答例

問題10.10の解答例

問題10.11の解答例

問題10.12の解答例

Ch.13 「漸近理論」の章末問題の解答例 〜現代数理統計学(学術図書出版社)〜

当記事は「現代数理統計学(学術図書出版社)」の読解サポートにあたってChapter.13の「漸近理論」の章末問題の解説について行います。

基本的には書籍の購入者向けの解説なので、まだ入手されていない方は購入の上ご確認ください。また、解説はあくまでサイト運営者が独自に作成したものであり、書籍の公式ページではないことにご注意ください。(そのため著者の意図とは異なる解説となる可能性はあります)

↓下記が公式の解答なので、正確にはこちらを参照ください。
https://www.gakujutsu.co.jp/text/isbn978-4-7806-0860-1/

章末の演習問題について

問題13.1の解答例

(13.10)式では確率密度関数$f(x,\theta)$を元に、$\eta(\theta_0,\theta)$を下記のように定義される。
$$
\large
\begin{align}
\eta(\theta_0,\theta) = \int_{-\infty}^{\infty} \log(f(x,\theta))f(x,\theta_0) dx \quad (13.10)
\end{align}
$$

ここでKLダイバージェンスの式が$0$以上であることに基づいて、下記の(13.11)式も成立する。
$$
\large
\begin{align}
\eta(\theta_0,\theta) \leq \eta(\theta_0,\theta) \quad (13.11)
\end{align}
$$

ここで$\mathit{I}(\theta_0,\theta)=\mathit{I}(f(x,\theta_0),f(x,\theta))=\eta(\theta_0,\theta_0)-\eta(\theta_0,\theta)$のようにおくとき、この問題では(13.12)式で表される下記の3つの式を示すことが目標となる。
$$
\large
\begin{align}
& \mathit{I}(\theta_0,\theta_0) = 0 \quad (1) \\
& \frac{\partial}{\partial \theta} \mathit{I}(\theta_0,\theta) \Bigg|_{\theta=\theta_0} = 0 \quad (2) \\
& \frac{\partial^2}{\partial \theta^2} \mathit{I}(\theta_0,\theta) \Bigg|_{\theta=\theta_0} = \mathit{I}(\theta_0) \quad (3)
\end{align}
$$
上記の$\mathit{I}(\theta_0,\theta)$がKLダイバージェンスで、$\mathit{I}(\theta_0)$がフィッシャー情報量を表すことに注意が必要である。

以下、(1)〜(3)式が成立することをそれぞれ示す。
・$(1)$式の導出
$\mathit{I}(\theta_0,\theta)=\mathit{I}(f(x,\theta_0),f(x,\theta))=\eta(\theta_0,\theta_0)-\eta(\theta_0,\theta)$のように定義したことから、下記のように示すことができる。
$$
\large
\begin{align}
\mathit{I}(\theta_0,\theta_0) &= \eta(\theta_0,\theta_0)-\eta(\theta_0,\theta_0) \\
&= 0
\end{align}
$$

・$(2)$式の導出
$(1)$式が成立するならば、$\mathit{I}(\theta_0,\theta) \geq 0$より、$\mathit{I}(\theta_0,\theta)$は$\theta_0$で極大値を取る。よって、$\theta=\theta_0$における$\mathit{I}(\theta_0,\theta)$の傾きは$0$であり、下記で表す$(2)$式が成立する。
$$
\large
\begin{align}
\frac{\partial}{\partial \theta} \mathit{I}(\theta_0,\theta) \Bigg|_{\theta=\theta_0} = 0
\end{align}
$$

・$(3)$式の導出
$\mathit{I}(\theta_0,\theta)$を$\theta$で2階微分する。
$$
\large
\begin{align}
\frac{\partial^2}{\partial \theta^2} \mathit{I}(\theta_0,\theta) &= \frac{\partial^2}{\partial \theta^2} (\eta(\theta_0,\theta_0)-\eta(\theta_0,\theta)) \\
&= – \frac{\partial^2}{\partial \theta^2} \eta(\theta_0,\theta) \\
&= – \frac{\partial^2}{\partial \theta^2} \int_{-\infty}^{\infty} \log(f(x,\theta))f(x,\theta_0) dx \\
&= – \int_{-\infty}^{\infty} \left( \frac{\partial^2}{\partial \theta^2} \log(f(x,\theta)) \right) f(x,\theta_0) dx
\end{align}
$$

よって、$\displaystyle \frac{\partial^2}{\partial \theta^2} \mathit{I}(\theta_0,\theta) \Bigg|_{\theta=\theta_0}$に関して下記が成立する。
$$
\large
\begin{align}
\frac{\partial^2}{\partial \theta^2} \mathit{I}(\theta_0,\theta) \Bigg|_{\theta=\theta_0} &= – \int_{-\infty}^{\infty} \left( \frac{\partial^2}{\partial \theta^2} \log(f(x,\theta)) \right) \Bigg|_{\theta=\theta_0} f(x,\theta_0) dx \\
&= \mathit{I}(\theta_0)
\end{align}
$$
上記より、$(3)$式を示すことができる。

問題13.2の解答例

問題13.3の解答例

問題13.4の解答例

問題13.5の解答例

問題13.6の解答例

問題13.7の解答例

問題13.8の解答例

問題13.9の解答例

問題13.10の解答例

問題13.11の解答例

問題13.12の解答例

問題13.13の解答例

マルコフの不等式・チェビシェフの不等式を用いた大数の法則の導出と確率収束・一致性の定義

大数の法則(law of large numbers)や確率収束(convergence in probability)を考えるにあたって、マルコフの不等式(Markov’s inequality)とチェビシェフの不等式(Chebyshev’s inequality)について抑えておくとよい。
当記事では、マルコフの不等式・チェビシェフの不等式について取り扱ったのちに、大数の法則の導出や確率収束・一致性の定義について確認を行う。「現代数理統計学」の4.5節の「確率論のいくつかの基本的な極限定理」を参考に作成を行った。

不等式の導出

マルコフの不等式(Markov’s inequality)

非負の確率変数$X \geq 0$を定義し、この期待値$E[X]$が$E[X] < \infty$のように収束すると考える。このとき任意の$c>0$に関して、下記で表すマルコフの不等式(Markov’s inequality)が成立する。
$$
\large
\begin{align}
P(X \geq c) \leq \frac{E[X]}{c} \quad (1)
\end{align}
$$
以下、マルコフの不等式が成立することを示す。

確率変数$Y$を下記のように定義する。
$$
\large
\begin{align}
Y &= 0, \quad if \quad X < c \\
&= c, \quad if \quad X \geq c
\end{align}
$$

このとき全ての$Y$に関して$Y \leq X$であるので、$E[Y] \leq E[X]$が成立する。また、ここで$E[Y]$を下記のように期待値の定義に基づいて求める。
$$
\large
\begin{align}
E[Y] &= 0 \times P(Y=0) + c \times P(Y=c) \\
&= c P(Y=c) \\
&= c P(X \geq c) \leq E[X]
\end{align}
$$

上記より、$c P(X \geq c) \leq E[X]$が成立する。ここで最終行を$c$で割ることで下記が導出できる。
$$
\large
\begin{align}
P(X \geq c) \leq \frac{E[X]}{c}
\end{align}
$$

上記が(1)式に一致するので、マルコフの不等式が成立することを示すことができた。

・マルコフの不等式の解釈
非負の確率変数$X \geq 0$に関して$c$を閾値に設定する場合の上側確率$P(X \geq c)$は、$\displaystyle \frac{E[X]}{c}$よりも小さくなる。
これは、期待値$E[X]$が大きい場合、上側確率$P(X \geq c)$の上限も大きくなる一方で、閾値$c$が大きくなると上側確率$P(X \geq c)$の上限が小さくなることを意味する。このことは直感的にも正しいと考えることができると思われる。

チェビシェフの不等式(Chebyshev’s inequality)

有限な確率変数$X$に関して$E[X]=\mu, V[X]=\sigma^2$が成立する場合を考える。このとき任意の$c>0$に対して、下記で表すチェビシェフの不等式が成立する。
$$
\large
\begin{align}
P(|X-\mu| \geq c) \leq \frac{\sigma^2}{c^2} \quad (2)
\end{align}
$$
以下、チェビシェフの不等式が成立することを示す。

確率変数$Y$を下記のように定義する。
$$
\large
\begin{align}
Y = (X-\mu)^2
\end{align}
$$
このとき$Y$は非負の確率変数であるので、$Y$と$c^2$に関してマルコフの不等式より下記が成立する。
$$
\large
\begin{align}
P(Y \geq c^2) &\leq \frac{E[Y]}{c^2} \\
&= \frac{E[(X-\mu)^2]}{c^2} \\
&= \frac{V[X]}{c^2} \\
&= \frac{\sigma^2}{c^2}
\end{align}
$$

上記より、下記が成立する。
$$
\large
\begin{align}
P(Y \geq c^2) &\leq \frac{\sigma^2}{c^2} \\
P((X-\mu)^2 \geq c^2) &\leq \frac{\sigma^2}{c^2} \\
P(|X-\mu| \geq c) &\leq \frac{\sigma^2}{c^2}
\end{align}
$$

上記が(2)式に一致するので、チェビシェフの不等式が成立することを示すことができた。

・チェビシェフの不等式の解釈
有限な確率変数$X$に関して$c$を閾値に設定する場合の期待値$E[X]$を中心と考えた際の両端の確率$P(|X-E[X]| \geq c)$は、$\displaystyle \frac{V[X]}{c^2}$よりも小さくなる。
これは、確率変数の分散$V[X]$が大きい場合、$E[X]$を中心に考えた際の両端の確率$P(|X-E[X]| \geq c)$の上限も大きくなる一方で、閾値$c$が大きくなると両端の確率$P(|X-E[X]| \geq c)$の上限が小さくなることを意味する。このことは直感的にも正しいと考えることができると思われる。

大数の法則の導出

大数の法則はチェビシェフの不等式に基づいて導出を行うことができるので、以下詳しく確認を行う。まず、以下のように$n$個の確率変数の平均$\bar{X}_n$を考える。
$$
\large
\begin{align} \bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$

ここで、各確率変数が$E[X_i]=\mu, V[X_i]=\sigma^2$かつ$i.i.d.$である場合、$\bar{X}_n$に関して下記が成立する。
$$
\large
\begin{align}
E[\bar{X}_n] &= E \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n} E \left[ \sum_{i=1}^{n} X_i \right] \\
&= \mu \\
V[\bar{X}_n] &= V \left[ \frac{1}{n} \sum_{i=1}^{n} X_i \right] \\
&= \frac{1}{n^2} V \left[ \sum_{i=1}^{n} X_i \right] \\
&= \frac{\sigma^2}{n}
\end{align}
$$

このとき、任意の$\epsilon > 0$に関して下記のチェビシェフの不等式が成立する。
$$
\large
\begin{align}
P(|\bar{X}_n-E[\bar{X}_n]| \geq \epsilon) \leq \frac{V[\bar{X}_n]}{\epsilon^2}
\end{align}
$$
上記に(3)式、(4)式を代入することで下記を得ることができる。
$$
\large
\begin{align}
P(|\bar{X}_n-E[\bar{X}_n]| &\geq \epsilon) \leq \frac{V[\bar{X}_n]}{\epsilon^2} \\
P(|\bar{X}_n-\mu| &\geq \epsilon) \leq \frac{\sigma^2}{n \epsilon^2} \quad (5)
\end{align}
$$

(5)式に対して$n \to \infty$の極限を考える。
$$
\large
\begin{align}
\lim_{n \to \infty} P(|\bar{X}_n-\mu| \geq \epsilon) &\leq \lim_{n \to \infty} \frac{\sigma^2}{n \epsilon^2} \\
&= 0 \quad (6)
\end{align}
$$
(6)式は大数の弱法則であり、$\mu$の周囲にどれだけ小さい区間の$(\mu-\epsilon,\mu+\epsilon)$を考えても、$n$を大きくすることによって$\bar{X}_n$が区間の外にでる確率を限りなく減らすことができることを表す。

確率収束と一致性

確率収束の定義

確率変数の列$X_n (n=1,2,…)$が確率変数$X$に確率収束する(converges in probability)ことは、下記のように定義される。
$$
\large
\begin{align}
\lim_{n \to \infty} P(|X_n-X| \geq \epsilon) = 0, \quad {}^{\forall} \epsilon > 0 \quad (7)
\end{align}
$$

(7)式の$X$は定数を考えてもよく、前項の(6)式では母平均$\mu$への標本平均$\bar{X}_n$を考えた。このことから大数の弱法則は確率収束の一例であると考えることができる。

また、確率変数列$X_n (n=1,2,…)$が$X$に確率収束することを下記のように表すこともできる。
$$
\large
\begin{align}
X_n \xrightarrow{p} X
\end{align}
$$

一致性の定義

パラメータ$\theta$に関する推定量$\hat{\theta}_n$に関して下記が成立するとき、$\hat{\theta}$は一致性(consistency)を持つ。
$$
\large
\begin{align}
\hat{\theta}_n \xrightarrow{p} \theta \quad (8)
\end{align}
$$

また、(8)式が成立する$\hat{\theta}_n$は一致推定量(consistent estimator)といわれる。

統計検定3級問題解説 ~2021年6月実施~ (問11~問20)

過去問題

過去問題は統計検定公式問題集が問題と解答例を公開しています。こちらを参照してください。


問11 解答

(クロス集計表)

$\boxed{ \ \mathsf{18}\ }$ ①

Ⅰ.こどもの数は、$2019$年では$785+748=1533$、$2018$年では$795+757=1552$と、$2018$年から減少しています。一方で、こどもの女の数に対する男の数の比は、$2019$年では$785\div748\fallingdotseq1.049$、$2018$年では$795\div757\fallingdotseq1.050$となっており、大きな差はありませんでした。
Ⅱ.このクロス集計表からは$65$歳以上の人口の動向を知ることはできません。
Ⅲ.$2019$年の総人口は男の数のほうが女の数よりも少ないため、女の数に対する男の数の比は$1$より小さくなります。


問12 解答

(相関関係、因果関係、擬相関)

$\boxed{ \ \mathsf{19}\ }$ ②

Ⅰ.相関係数からはやや強い負の相関がありますが、日平均気温の変動と推計人口の変動の間には因果関係が見られないので、気温が上がると人口が減るとは言えません。
Ⅱ.警察官定員と$1$年間の刑法犯認知件数の間には弱い相関があるので、警察官定員が多いからといって、$1$年間の刑法犯認知件数が少ない傾向にあるとは言えません。
Ⅲ.二人以上世帯の$1$世帯当たりのミネラルウォーターに対する支出額と海浜事故に遭った人数の間に強い相関がみられたとしても、支出額と海浜事故の間には直接の因果関係が見られず、どちらも気温と強い相関関係があるため擬相関の可能性が高いと言えます。


問13 解答

(母集団と標本、無作為抽出)

[1]

$\boxed{ \ \mathsf{20}\ }$ ④

母集団は調査の対象になる対象全体の集まり、標本は母集団の中から実際に調査を行うために抽出した対象のことを言います。
問題の場合は、母集団は$A$県のすべての小学校に通う小学生$5$万人で、標本は$A$県のすべての小学校から選ばれた小学生$1,200$人となります。
(回答は小学生の保護者が行いますが、あくまで調査対象となるのは小学生のほうです。)

[2]

$\boxed{ \ \mathsf{21}\ }$ ①

標本の抽出に当たっては、単純無作為抽出するので、母集団全体から全く同じ確率で標本を抽出する必要があります。したがって、学校による偏りがあったり、性別、生年月日や保護者がPTA役員といった調査に直接関係ない事柄で標本の抽出に影響を与えてはいけません。


問14 解答

(実験研究)

$\boxed{ \ \mathsf{22}\ }$ ③

問題の調査は、新開発のシューズと従来のシューズのゴールタイムを比較するものなので、それ以外の事項についてはできるだけ差が出ないようにする必要があります。また、調査対象の抽出に当たっては、新開発のシューズを履くか従来のシューズを履くかは、無作為に割り振る必要があります。
①②は特定の$A$さんと$B$さんだけを対象としているので、二人の能力に結果が左右されてしまうので好ましくありません。
④は自己ベストの早い$10$人に新開発のシューズを、残りの$10$人に従来のシューズを履いてもらうため、シューズの性能以外の要因でタイムが変わる可能性があるので好ましくありません。
⑤はマラソンの中間地点まで新開発のシューズを、残りの距離で従来のシューズを履いてもらうため、コースの前半と後半では走路の条件や体力の変化などの要因でタイムが変わる可能性があるので好ましくありません。


問15 解答

(条件付き確率)

[1]

$\boxed{ \ \mathsf{23}\ }$ ②

$1$回目に赤玉、$2$回目に白玉を取り出したので、$3$回目を引く前の袋の中身は、赤玉$6$個と白玉$3$個になっています。この中から白玉を取り出す確率は$\displaystyle\frac39=\frac13$となります。

[2]

$\boxed{ \ \mathsf{24}\ }$ ⑤

$1$回目に赤玉を取り出す確率は$\displaystyle\frac57$。
$2$回目に白玉を取り出す確率は$\displaystyle\frac28=\frac14$。
したがって、$1$回目に赤玉、$2$回目に白玉、$3$回目に白玉を引く確率は$$\frac57\times\frac14\times\frac13=\frac5{84}$$となります。

[3]

$\boxed{ \ \mathsf{25}\ }$ ①

$1$回目赤玉~$2$回目赤玉~$3$回目白玉を取り出す確率は$$\frac57\times\frac68\times\frac29=\frac{10}{84}$$
$1$回目赤玉~$2$回目白玉~$3$回目白玉を取り出す確率は$$\frac57\times\frac28\times\frac39=\frac{5}{84}$$
$1$回目白玉~$2$回目白玉~$3$回目白玉を取り出す確率は$$\frac27\times\frac38\times\frac49=\frac{4}{84}$$
$1$回目白玉~$2$回目赤玉~$3$回目白玉を取り出す確率は$$\frac27\times\frac58\times\frac39=\frac{5}{84}$$
したがって、$3$回目白玉を取り出す確率は$$\frac{10}{84}+\frac{5}{84}+\frac{4}{84}+\frac{5}{84}=\frac{24}{84}=\frac{2}{7}$$となります。


問16 解答

(回帰直線、予測)

$\boxed{ \ \mathsf{26}\ }$ ④

単回帰分析では身長を$x$、気管チューブの内径を$y$とおいたとき、その間に$$y=\alpha+\beta x$$という関係式が成り立つと考えて、身長$x$から内径$y$を予測することを考えます。そこで、実際の$x,y$の観測結果から、関係式にある$\alpha,\beta$の予測値$\hat\alpha,\hat\beta$を求めて、これを用いて$x$から$y$の予測値$\hat y$を$$\hat y=\hat\alpha+\hat\beta x$$により求めます。この$\hat\alpha,\hat\beta$は、最小二乗法という手法を用いて、$$\hat\beta=\frac{s_{xy}}{s_x^2}=r_{xy}\frac{s_y}{s_x},\quad \hat\alpha=\bar y-\hat\beta\bar x$$により求められます。ここで、$r_{xy}$は$x$と$y$の相関係数、$s_x$は$x$の標準偏差、$s_y$は$y$の標準偏差、$\bar x$は$x$の平均、$\bar y$は$y$の平均です。(ちなみに$s_{xy}$は$x$と$y$の共分散、$s_x^2$は$x$の分散で、$r_{xy}=s_{xy}/({s_x}{s_y})$の関係があります。)
以上を踏まえ、問題文中の値を代入して$\hat\alpha,\hat\beta$を求めます。問題文から、$$\bar x=110,\ s_x=22,\ \bar y=5.5,\ s_y=1.0,\ r_{xy}=0.94$$なので、$$\begin{eqnarray}\hat\beta&=&r_{xy}\frac{s_y}{s_x}=0.94\times\frac{1.0}{22}\fallingdotseq0.043\\\hat\alpha&=&\bar y-\hat\beta\bar x=5.5-0.043\times110=0.77\end{eqnarray}$$となります。これを用いて$x=122$の時の$\hat y$を求めると、$$\hat y=\hat\alpha+\hat\beta x=0.77+0.043\times122\fallingdotseq6.0$$となります。


問17 解答

(標本平均の標本分布)

$\boxed{ \ \mathsf{27}\ }$ ③

母平均$\mu$,母分散$\sigma^2$をもつ母集団から,大きさ$n$の標本として$X_1,X_2,\cdots,X_n$を無作為抽出するとします。この$X_1,X_2,\cdots,X_n$は確率変数なので,それらの平均$\displaystyle\bar X=\sum_{i=1}^nX_i$もまた確率変数となります。この平均を標本平均といいます。
ここで、$n$が十分大きいとき、標本平均$\bar X$は正規分布$N(\mu$,$\sigma^2/n)$に近似的に従うことがわかっています。よって、分布の散らばり具合は母集団の散らばり具合のおよそ$1/\sqrt{n}$倍となることが見込まれます。
問題では、ヒストグラムから母集団の範囲がおおよそ$20000$なので、標本平均の範囲は$20000/\sqrt{100}=2000$程度になると見込まれます。選択肢のグラフから範囲がおよそ$2000$程度になっているのは③になります。


問18 解答

(標本平均)

$\boxed{ \ \mathsf{28}\ }$ ②

標本平均の標本分布の期待値は$$E(\bar X)=E\left(\frac1n\sum_{i=1}^nX_i\right)=\frac1n\sum_{i=1}^nE(X_i)=\frac1n\sum_{i=1}^n\mu=\mu$$となります。標本平均の標本分布の期待値は必ず$\mu$となりますが、標本平均自体は必ずしも$\mu$に近い値とはなりません。
なお、標本平均の標本分布の分散は$$V(\bar X)=V\left(\frac1n\sum_{i=1}^nX_i\right)=\frac1{n^2}\sum_{i=1}^nV(X_i)=\frac1{n^2}\sum_{i=1}^n\sigma^2=\frac{\sigma^2}{n}$$となり、$n$に依存します。
また、$n$が十分大きいときは標本平均の標本分布は正規分布で近似できますが、$n$が小さいときは必ずしも正規分布とはなりません。


問19 解答

(信頼区間)

$\boxed{ \ \mathsf{29}\ }$ ②

母平均$\mu$,母分散$\sigma^2$をもつ母集団から$n$個の確率変数$X_1,X_2,\cdots,X_n$ が互いに独立に無作為抽出された場合,$n$が十分に大きいとき,標本平均$\bar X$は正規分布$N(\mu$,$\sigma^2/n)$に近似的に従うので、$\bar X$を標準化した$\displaystyle Z=\frac{\bar X−\mu}{\sigma/\sqrt{n}}$は標準正規分布$N(0,1)$に近似的に従います。したがって,母平均$\mu$に対する信頼度$100(1-\alpha)\%$の信頼区間は、$$\bar X-z(\alpha/2)\frac{\sigma}{\sqrt{n}}\le\mu\le\bar X+z(\alpha/2)\frac{\sigma}{\sqrt{n}}$$となり、信頼区間の幅は$$2z(\alpha/2)\frac{\sigma}{\sqrt{n}}$$となります。なお、$z(\alpha)$は標準正規分布の$\alpha$点からの上側確率を表します。

Ⅰ.信頼度が大きくなれば、信頼区間の幅は広がります。
※信頼度$95\%$の信頼区間の幅は、標準正規分布の上側確率の表から$z(0.05/2)=z(0.025)=1.96$なので$$2z(0.025)\frac{\sigma}{\sqrt{n}}=2\times1.96\times\frac{2}{\sqrt{10}}\fallingdotseq2.48$$となり、一方、信頼度$99\%$の信頼区間の幅は、標準正規分布の上側確率の表から$z(0.01/2)=z(0.005)=2.575$なので$$2z(0.005)\frac{\sigma}{\sqrt{n}}=2\times2.575\times\frac{2}{\sqrt{10}}\fallingdotseq3.26$$となります。
Ⅱ.標本の数が大きくなれば、信頼区間の幅は狭くなります。
※標本数が$50$の時の信頼区間の幅は$$2z(0.025)\frac{\sigma}{\sqrt{n}}=2\times1.96\times\frac{2}{\sqrt{50}}\fallingdotseq1.11$$となります。
Ⅲ.パンの見た目で、パンの重さの平均の信頼区間は必ずしも狭くなりません。(信頼区間の幅は母分散の標準偏差と標本数で決まります。)


問20 解答

(仮説検定)

$\boxed{ \ \mathsf{30}\ }$ ④

問題の検定では、有意水準$5\%$で、賛成派の人数が$526$以上のとき帰無仮説を棄却することになっています。したがって、賛成派の人数が$534$人だった場合、帰無仮説は棄却されます。帰無仮説($p=0.5$)が棄却されたので、対立仮説($p>0.5$)が採用され、賛成派の比率は$\underline5$割より高くなります。