ブログ

3.3.2 区間推定 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.3.2$節「区間推定」の内容を元に区間推定の基本的な考え方について取りまとめを行いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

区間推定の概要

概要

「推測統計」では観測された「標本」から母平均などの「母集団」のパラメータの「推定」を行いますが、$1$点でパラメータを推定する「点推定」に対して「区間推定」は「上限」と「下限」に基づく区間を用いて推定を行います。

たとえば全国模試のクラス平均が$75$点だった際に、全国平均も$75$点と推定するのが「点推定」、概ね$70$点〜$80$点の間であると推定するのが「区間推定」に対応すると大まかに考えておくと良いです。

必要な数学

「区間推定」の結果の導出にあたっては不等号に関する計算がよく出てくるので、抑えておく必要があります。
$$
\large
\begin{align}
– 1.96 \frac{\sigma}{\sqrt{n}} \leq \bar{x}-\mu \leq 1.96 \frac{\sigma}{\sqrt{n}}
\end{align}
$$

上記のような数式を$\mu$に関して解く必要があるので、特に$-x<-y$が$x>y$に対応することは必須です。

区間推定

区間推定の基本的な考え方

区間推定(interval estimation)は「確率変数の関数である統計量が特定の確率分布に従う」ことに基づいて区間の推定を行う考え方です。たとえば標本平均$\overline{X}$に関して中心極限定理より下記が成立します。
$$
\large
\begin{align}
T(X_1, \cdots , X_n) &= \overline{X} \sim \mathcal{N} \left( \mu,\frac{\sigma^2}{n} \right) \\
\overline{X} &= \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$

ここで標本平均の実現値を$\overline{x}$、母分散を定数$\sigma^2$、標準正規分布$\mathcal{N}(0,1)$の上側$\alpha’$点を$z_{\alpha=\alpha’}$のようにおくと、$\displaystyle \overline{X} \sim \mathcal{N} \left( \mu,\frac{\sigma^2}{n} \right)$より$\mu$の$95$%区間に関して下記が成立します。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq \frac{\bar{x}-\mu}{\sigma/\sqrt{n}} \leq z_{\alpha=0.025} \quad (1)
\end{align}
$$

標準正規分布$\mathcal{N}(0,1)$に関して$z_{\alpha=0.025}=1.96, z_{\alpha=0.975}=-z_{\alpha=0.025}=-1.96$より、$(1)$式は下記のように変形できます。
$$
\large
\begin{align}
z_{\alpha=0.975} \leq & \frac{\bar{x}-\mu}{\sigma/\sqrt{n}} \leq z_{\alpha=0.025} \quad (1) \\
-1.96 \leq & \frac{\bar{x}-\mu}{\sigma/\sqrt{n}} \leq 1.96 \\
-1.96 \frac{\sigma}{\sqrt{n}} \leq & \bar{x}-\mu \leq 1.96 \frac{\sigma}{\sqrt{n}} \\
-1.96 \frac{\sigma}{\sqrt{n}} \leq & \mu-\bar{x} \leq 1.96 \frac{\sigma}{\sqrt{n}} \\
\bar{x}-1.96 \frac{\sigma}{\sqrt{n}} \leq & \mu \leq \bar{x} + 1.96 \frac{\sigma}{\sqrt{n}}
\end{align}
$$

上記の$\mu$が得られた観測値に基づく母平均$\mu$の$95$%区間であると考えることができます。

発展事項

基本的には「統計量は標本の関数である」と定義されますが、標本が「確率変数」を指すのか「観測値」を指すのかは文脈次第であることが多いように思います。見分け方に関しては確率変数の場合は大文字を用いて$X_i$、観測値の場合は小文字を用いて$x_i$と定義されることが多いです。

同様に統計量が$T(X_1, \cdots , X_n)$と表記されれば確率変数です。また、統計量$T(X_1, \cdots , X_n)$を用いて定義する$\hat{\theta}=T(X_1, \cdots , X_n)$を「推定量」、推定量に具体的な観測値を代入した値を「推定値」という場合が多いです。

本文では統計量$T(X_1, \cdots , X_n)$に関し、$T(X_1, \cdots , X_n) = \overline{X} \sim \mathcal{N}(\mu, \sigma^2)$のような表現を用いるにあたって統計量は確率変数の関数であると定義しました。

具体例:光速の測定値

統計検定準1級 問題解説 ~2017年6月実施 選択問題及び部分記述問題 問14~

過去問題

過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。

解答

[1] 解答

(1) $\boxed{ \ \mathsf{23}\ }$ : ③

(ア)の予測値に対する残差のプロットから、$29$(USA)の予測値はおよそ$84$、残差はおよそ$-5.5$であるとわかる。これに一番近い選択肢は$3$である。

(2) $\boxed{ \ \mathsf{24}\ }$ : ⑤

てこ値が大きい観測値の方がモデルへの影響力は大きいため、誤りである。
(統計学実践ワークブック第$17$章等を参照)

[2] 解答

(1) $\boxed{ 記述\ 8 }$

(ア)を見ると,残差が$-4$より小さい(絶対値が大きい)点の個数がモデル$1$よりもモデル$2$の方が少なく、モデル$2$の方が推定が良くなっていることが読み取れる。
従って、決定係数が大きいのはモデル$2$である。

(2) $\boxed{ 記述\ 9 }$

問の表から、日本の平均寿命は$83.4$である。つまり、残差を$y$、予測値を$x$とすると、$y+x=83.4$の関係式を満たす。

したがって$y=-x+83.4$と変形できることから、点$(83.4,0)$を通り、傾き$-1$の直線上の点がJPNである。(図は省略)

(3) $\boxed{ 記述\ 10 }$

箱髭図は下記の通りとなる。

3.1 母集団と標本 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$3.1$節「母集団と標本」の内容を元に推測統計を考える際に前提となる枠組みについて確認を行います。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

「母集団と標本」の概要

概要

「母集団と標本」は推測統計を学ぶにあたっての基盤となる重要な概念です。「標本」は記述統計で出てくる観測値と同様ですが、推測統計では「標本」から「母集団」の推測を考えます。

たとえば「新製品の企画/マーケティング」を行うにあたって、対象層全員に調査を行うと数百万人の単位になり費用対効果の面で現実的ではありません。このような場合は対象層からランダムに数十人選び出し調査を行い、その結果から全体の結果を推測するということがよく行われます。

このときに数百万人単位の全体を「母集団(population)」、選び出した数十人を「標本(sample)」、「標本」から「母集団」の傾向を推測することを「統計的推測」といいます。「統計的推測」の際に母集団のパラメータの値を計算する場合がありますが、このことを「推定」と表すことも合わせて抑えておくと良いです。「推定」は「区間推定」と「点推定」に分けられ、区間推定では確率分布の%点を元にパラメータの区間を推定し、「点推定」では「最尤推定」のように何らかの基準に沿ってパラメータの値を推定します。

発展事項①

パラメータの点推定で用いられるのが「最尤法」です。最尤法に関しては下記などで詳しく取り扱いました。

必要な数学

推測統計の基盤の「概念の理解」であるので、数学の理解は必要ありませんが、議論が抽象的なので定期的に復習を行うと良いと思います。

用語の整理

標本調査と全数調査

前節では「新製品の企画/マーケティング」を例に標本に基づく統計的推測に関して確認を行いましたが、このような調査を標本調査(sample survey)といいます。一方で国勢調査のように全国民を対象とする調査を行う場合がありますが、このような調査を全数調査(complete survey)といいます。基本的には全数調査はコストがかかることが多いので、標本調査に基づいて統計的推測を行うことが多いと考えておくと良いと思います。

調査と母集団の対応付け

調査にあたって何らかの指標に関して母集団の平均などを知りたい場合があります。このような母集団の平均のような値を母数(パラメータ)といいます。母数は「確率分布のパラメータ」と対応させて考える場合がほとんどであるので、基本的には平均や分散を表す母平均や母分散を取り扱うケースが多いです。

母集団のパラメータに母平均や母分散を考える一方で、母平均や母分散は標本の関数である「統計量」から「推測」を行います。「統計量」の例は「標本平均」や「標本分散」が挙げられ、これらは母平均や母分散と対応します。

発展事項②

数理統計学を学ぶ際に「母数の推定に十分な統計量」を「十分統計量」と定めます。「統計量」が「標本の関数であり、母数の推定に用いる」と理解しておくことで数理統計学も学びやすくなるので、用語の定義を大まかに抑えておくと良いと思います。

2.5 期待値と分散 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.5$節「期待値と分散」の内容を元に期待値と分散の概要と式表記に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

期待値・分散の概要

概要

「確率変数の各値の確率」に対応する「確率分布」が得られたとき、「確率分布に基づいて大体このような値が得られるだろう」や「大体このような範囲の値が得られるだろう」と推測できると様々な場面で役に立ちます。

「大まかな値」に対応するのが「期待値」で、「期待値の周囲の大まかな範囲」に対応するのが「分散」です。当記事では以下、確率分布に対応する「期待値」と「分散」を「確率関数」や「確率密度関数」を用いて定義し、「確率分布」と「期待値・分散」の対応について確認します。

必要な数学

「連続型確率分布」の期待値や分散は「積分」を元に定義されるので、「積分」の概念の理解が必要です。当記事では期待値・分散の定義を中心に取り扱っているので、数Ⅱレベルの積分を抑えておけば十分です。

期待値・分散

期待値

直感的理解

期待値は「確率変数がどのような値を取ると期待されるか」に基づいて定められる値です。たとえば宝くじを$1$万円購入した際の還元される額を確率変数$X$で表すとき、おおよその還元率を$3$割と仮定するなら$X$の期待値は$3000$円となります。

離散型確率分布

離散型確率変数$X$が$X=x_i$を取るときの確率を確率関数$f(x_i)$で表すと、確率変数$X$の期待値$E[X]$は下記のように定義されます。
$$
\large
\begin{align}
E[X] = \sum_{i} x_i f(x_i) = \mu
\end{align}
$$

上記では$E[X]=\mu$のように表しましたが、$\mu$は平均を表すmeanの頭文字のmに対応するギリシア文字であることも合わせて抑えておくと良いです。

連続型確率分布

連続型確率変数$X$に対応する確率密度関数を$f(x)$とおくと、確率変数$X$の期待値$E[X]$は下記のように定義されます。
$$
\large
\begin{align}
E[X] = \int_{-\infty}^{\infty} xf(x) dx = \mu
\end{align}
$$

分散

直感的理解

分散は「確率変数の散らばり度合い」に関して定められる値です。たとえば$2$つのテストの平均が双方$60$点だった場合でも、「予め問題が通知される場合」は散らばりが小さく、「抜き打ちテストの場合」は散らばりが大きいと考えられます。

このように単に平均だけを計算して標本を要約することを考えるのではなく、散らばり度合いも合わせて確認することでより質の高い考察を行えるようになります。

離散型確率分布

離散型確率変数$X$が$X=x_i$を取るときの確率を確率関数$f(x_i)$で表すと、確率変数$X$の分散$V[X]$は下記のように定義されます。
$$
\large
\begin{align}
V[X] = \sum_{i} (x_i-\mu)^2 f(x_i) = \sigma^2
\end{align}
$$

分散は「確率変数$X$の母平均$\mu$からの差分の二乗の期待値」と解釈できるので$V[X]=E[(X-\mu)^2]=E[(X-E[X])^2]$のように表せることも合わせて抑えておくと良いです。

連続型確率分布

連続型確率変数$X$に対応する確率密度関数を$f(x)$とおくと、確率変数$X$の分散$V[X]$は下記のように定義されます。
$$
\large
\begin{align}
V[X] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x) dx = \sigma^2
\end{align}
$$

期待値・分散に関して成立する公式

下記で詳しく取り扱いを行いました。

2.4 確率変数と確率分布 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.4$節「確率変数と確率分布」の内容を元に確率変数・確率分布・確率関数・確率密度関数・累積分布関数の定義や解釈に関して取りまとめました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

確率変数・確率分布の概要

概要

「サイコロを投げる」などの何らかの事象を取り扱うとき、「同様に確からしい」場合は出目の確率が一定であるなど、予め確率の値が考えられる場合が多いです。このような事象を取り扱う際にはサイコロの出目を確率変数$X$で表し、それぞれの出目の確率を確率分布で表すことができます。

「確率変数」や「確率分布」は抽象的な概念であるので、以下の内容が難しい場合は当記事は読み飛ばして先に$2.7$節や$2.8$節で具体的な確率分布を確認すると良いと思います。

必要な数学

確率変数・確率分布・確率関数・確率密度関数・累積分布関数

確率変数

前節でも簡単に確認しましたが、「正六面体サイコロの出目」のように「事象」が「変数の値」で表される場合、サイコロの出目を確率変数$X$で定めることで様々な式表記を行うことが可能になります。六面ダイスでは$X$は$1,2,3,4,5,6$を取りうるので、それぞれの出目の確率を下記のように表せます。
$$
\large
\begin{align}
P(X=1) = P(X=2) = \cdots = P(X=6) = \frac{1}{6}
\end{align}
$$

このように確率変数を定めることで「事象」の確率表記が行いやすくなります。ここで上記の数式のように確率変数の各値の取りうる確率をまとめたものが次項で取り扱う確率分布です。

確率分布

前項で確認した確率変数$X$の取りうる値とそれぞれの確率の対応関係を確率分布(Probability distribution)といいます。前項では「正六面体のサイコロの出目」を考えたので確率は一定ですが、$X$の取りうる値によって確率が異なる場合が一般的です。

$X$の実現値を$x$とおくとき、$x$の値によって確率が変化することから、確率分布を$x$の関数で表すことができると取り扱いやすいです。このことに基づいて定義されるのが「確率関数」や「確率密度関数」です。確率関数・確率密度関数に関して、次項・次々項で詳しく取り扱います。

確率関数

確率変数の$X$が$X=1, 2, \cdots , n$のように離散値をとる場合、$x$に対応する確率は確率関数$p(x)$を用いて定義されることが多いです。ここで確率関数は確率分布に対応することから$p(x)$に関して下記が成立する必要があります。
$$
\large
\begin{align}
0 \leq & \, p(x) \leq 1 \\
\sum_{x=1}^{n} & \, p(x) = 1 \\
P(X= & x) = p(x)
\end{align}
$$

確率密度関数

確率変数の$X$が連続値をとる場合、$x$に対応する確率は確率密度関数$f(x)$を用いて定義されることが多いです。確率密度関数$f(x)$は微小区間$x \leq X \leq x + \Delta x$で下記が成立するように定義されます。
$$
\large
\begin{align}
P(x \leq X \leq x + \Delta x) \simeq f(x) \Delta x
\end{align}
$$

上記のように$f(x)$を考えると、$a \leq X \leq b$である確率$P(a \leq X \leq b)$を下記のように表すことができます。
$$
\large
\begin{align}
P(a \leq X \leq b) = \int_{a}^{b} f(x) dx
\end{align}
$$

また、確率密度関数は確率分布に対応することから$f(x)$に関して下記が成立する必要があります。
$$
\large
\begin{align}
0 \leq & f(x) \leq 1 \\
\int_{-\infty}^{\infty} f(x) dx &= 1
\end{align}
$$

累積分布関数

累積分布関数(cumulative distribution function)は$F(x)=P(X \leq x)$で定義される関数であり、「$x$以下の累積確率」と大まかに理解すると良いです。$F(x)=P(X \leq x)$は$X$が離散値をとる場合も連続値をとる場合も成立します。

また、$X$が連続変数の場合、累積分布関数$F(x) = P(X \leq x)$は下記のように表すこともできます。
$$
\large
\begin{align}
F(x) = P(X \leq x) = \int_{-\infty}^{x} f(u) du
\end{align}
$$

2.3 ベイズの定理 〜統計検定2級対応・統計学入門まとめ〜

当まとめでは統計検定$2$級の公式テキストの副教材に用いることができるように、統計学入門に関して取り扱います。当記事では「統計検定$2$級対応 統計学基礎」の$2.3$節「ベイズの定理」の内容を元にベイズの定理の数式と解釈や具体的な数値計算に関して取り扱いました。
統計検定$2$級のテキストとの対応がわかりやすいように、目次を「統計検定$2$級対応 統計学基礎」と対応させました。学びやすさの観点からあえて目次を対応させましたが、当まとめは「統計の森」オリジナルのコンテンツであり、統計検定の公式とは一切関係ないことにご注意ください。

・統計検定$2$級対応・統計学入門まとめ
https://www.hello-statisticians.com/stat_basic

ベイズの定理の概要

概要

ベイズの定理は統計学における「観測値」に基づく計算に「事前確率」という概念を導入することで、「観測値」に「事前知識」を反映させるにあたって用いられます。数式自体は「積事象の確率」と「条件付き確率」の変形で難しくはありませんが、使用時にカスタマイズされがちであるので注意が必要です。

必要な数学

ベイズの定理

ベイズの定理の数式

事象$A$の原因に互いに排反な$n$個の事象$H_1, H_2, \cdots , H_n$を考えます。このとき条件付き確率$P(H_i|A)$は下記のように表すことができます。
$$
\large
\begin{align}
P(H_i|A) = \frac{P(H_i \cap A)}{P(A)} \quad (1)
\end{align}
$$

上記は「条件付き確率の定義」と見ることもできるし、「乗法定理$P(H_i \cap A)=P(A)P(H_i|A)$の変形」と見ることもできます。ここで$P(H_i \cap A)$に対し、乗法定理$P(H_i \cap A)=P(H_i)P(A|H_i)$を考えると$(1)$式は下記のように変形できます。
$$
\large
\begin{align}
P(H_i|A) &= \frac{P(H_i \cap A)}{P(A)} \quad (1) \\
&= \frac{P(H_i)P(A|H_i)}{P(A)} \quad (2)
\end{align}
$$

上記の$(2)$式がベイズの定理の数式に対応します。また$(2)$式の$P(A)$が$\displaystyle P(A)=\sum_{j=1}^{n} P(A \cap H_j)$であることを元に$P(H_i|A)$は下記のように表すこともできます。
$$
\large
\begin{align}
P(H_i|A) &= \frac{P(H_i)P(A|H_i)}{P(A)} \quad (2) \\
&= \frac{\displaystyle P(H_i)P(A|H_i)}{\displaystyle \sum_{j=1}^{n} P(A \cap H_j)} \quad (3)
\end{align}
$$

上記では分子で$i$、分母で$j$を用いましたが、$P(H_1|A)$のように分子のインデックスが具体的な数字で表される際は分母に$i$を用いる場合があります。$\displaystyle \sum$のインデックスを分子と分けると良いと考えておくと良いと思います。

ベイズの定理の使用例

$i$$H_i$$P(H_i)$$P(A|H_i)$
$1$ 機体$0.307$$0.008$
$2$ ロータ$0.156$$0.048$
$3$ 電気$0.129$$0.040$
$4$ 計器$0.130$$0.052$
$5$ 動力$0.080$$0.100$
$6$ 通信・運行・自動安定$0.030$$0.151$
$7$ その他$0.171$$0.014$
「統計検定$2$級対応 統計学基礎」 表$2.1$

上記の表を元に以下、$P(H_3|A)$の値の計算を行います。
$$
\large
\begin{align}
P(H_3|A) &= \frac{\displaystyle P(H_3)P(A|H_3)}{\displaystyle \sum_{j=1}^{n} P(A \cap H_j)} \\
&= 0.140
\end{align}
$$

具体的な計算は下記を実行することで行ないました。

import numpy as np

P_H = np.array([0.307, 0.156, 0.129, 0.130, 0.080, 0.030, 0.171])
P_A_H = np.array([0.008, 0.048, 0.040, 0.052, 0.100, 0.151, 0.014])

print("Prob: {:.3f}".format(P_H[2]*P_A_H[2]/np.sum(P_H*P_A_H)))

発展事項:ベイズの定理の最尤法への導入と事前確率・事後確率

最尤法を用いたパラメータ推定は$\theta$を元に標本$x$が得られる確率$P(x|\theta)$が最大となる$\theta$を推定値と定めます。この際にベイズ推定ではパラメータ$\theta$の事前確率$P(\theta)$をベイズの定理を用いて導入することで、下記のような事後分布$P(\theta|x)$を得ることができます。
$$
\large
\begin{align}
P(\theta|x) &= \frac{P(\theta)P(x|\theta)}{P(x)} \\
& \propto P(\theta)P(x|\theta)
\end{align}
$$

事後分布の$P(\theta|x)$は分布そのものが$\theta$の推定結果である一方で、推定値が必要な場合はEAP推定量やMAP推定量を考える場合が多いです。また、パラメータの分布を元に新たなサンプルに関して予測分布を作成する場合もあります。

ベイズの定理を用いたパラメータ推定である「ベイズ推定」に関しては下記などで詳しく取り扱いましたので、当記事では詳細は省略します。

【統計の森 独自評価】統計学の参考書のレビュー 〜統計検定 準1級対応 統計学実践ワークブック〜

当記事では「統計検定 準$1$級対応 統計学実践ワークブック」のレビューに関して取りまとめを行いました。

・レビュー一覧
https://www.hello-statisticians.com/textbook_review1

・統計の森作成 準$1$級まとめ
https://www.hello-statisticians.com/toukeikentei-semi1

レビューまとめ

Bestレビュー

「統計の森」運営レビュー

全体評価: $5.0$
統計検定準$1$級対応の公式の参考書であるが、解説に加えて演習の解答例が多く学習にあたって用いやすい。オムニバス形式であるので、どの章からでも読み進めることができるが、一方で「他の章に解説があるように」の場合は著者が変わることが多くいまひとつである。
統計検定準$1$級の対策にあたってはオーバースペックであるが、知らない分野の補強に使えるので、むしろ準$1$級合格後に読み込むと良いと思われる。演習は統計検定の出題からの使い回しが多いが、試験対策の効率が上がると考えればプラスである。
読み進めにあたっては「高校数学+大学教養レベルの微積分・線形代数」の基本的な理解が必須であるので、数学については別途学ぶ必要がある。

読み進める際の参考事項まとめ

【技術書】統計の森が注目している新刊情報まとめ【2022/10~2022/12】

統計の森が注目している新刊をまとめて紹介します。紹介する書籍は統計学、数学、機械学習関連の書籍が中心です。

ここでは、2022年10月から12月に発売される書籍を紹介します。気になった書籍があれば、ぜひこちらのリンクから確認してみてください。

2022年12月発売

はじめてのパターン認識 ディープラーニング編

著者平井 有三
発売日2022/12/16
発行森北出版
出版社からの紹介ディープラーニングの理論的基礎がよくわかる!機械学習の基礎的な理論について,幅広く解説した前著『はじパタ』.それとほぼ同時期に登場したディープラーニングは,いまや当然の技術として,様々な分野で活用されるようになりました.
[続きは引用元を参照]
(Amazonのサイトから引用)
統計の森コメント「はじパタ」のディープラーニング編。
前著「はじめてのパターン認識」は確率モデルを軸にかっちりとでもわかりやすく書かれている印象でした。

2022年11月発売

2022年10月発売

その他参考

階乗・順列(Permutation)・組合せ(Combination)の定義と直感的理解

当記事では「統計学を学ぶにあたって最低限抑えておきたい数学」の中から「階乗・順列(Permutation)・組合せ(Combination)」に関して取り扱います。順列と組合せが混同されやすいので、可能な限り直感的な理解ができるように取りまとめを行いました。
取りまとめにあたっては数学の解説に関してはなるべくシンプルに取り扱いますが、統計学への応用に関連した複雑な内容に関しては目次に「*」をつけました。「*」がついているものはやや難しいので、読み飛ばしても問題ありません。

・基本数学まとめ
https://www.hello-statisticians.com/math_basic

階乗

概要

$$
\large
\begin{align}
n! = 1 \times 2 \times 3 \times \cdots \times (n-1) \times n
\end{align}
$$

自然数$n$の階乗$n!$は上記のように定められます。階乗に基づいて$n$人の並べ方を計算することができます。

直感的理解

階乗の直感的理解にあたっては、「$n$人の並べ替え」を元に考えると良いです。「並べ替え」を考える場合は、$n$個の場所を先に考えて、「それぞれの場所に人を割り振る」イメージを持つとわかりやすいです。

たとえば$n$人にそれぞれ$1$〜$n$の番号を割り振るとき、上図では$1$番目の場所には$n$通りの中から$5$を選び割り振りが行われます。このことにより、$2$番目の場所には$5$以外の$n-1$通りから$12$が選ばれ、同様に$n$番目の場所まで割り振りを行います。

$n-1$番目の場所には$2,7$から$2$、$n$番目の場所には残った$7$が対応します。このように考えるとき、全体の並べ方は$n!$通りに対応すると考えることができます。

順列

概要

$$
\large
\begin{align}
{}_{n} P_m = (n-m+1) \times (n-m+2) \times (n-m+3) \times \cdots \times (n-1) \times n
\end{align}
$$

自然数$m, n, \, n \geq m$に関して順列${}_{n} P_{m}$は上記のように定められます。上記の式に基づいて$n$人の中から$m$人を選んで並べる際の並べ方などの計算を行うことができます。

直感的理解

順列の直感的理解は階乗の図と同様に行うことができます。

階乗の図では$n$個の場所を用意し、$n$人と対応させましたが、順列では「$m$個の場所に対応させる」と考えれば良いです。

組合せ

概要

$$
\large
\begin{align}
{}_{n} C_m = \frac{(n-m+1) \times (n-m+2) \times (n-m+3) \times \cdots \times (n-1) \times n}{m!}
\end{align}
$$

自然数$m, n, \, n \geq m$に関して組合せ${}_{n} C_{m}$は上記のように定められます。上記の式に基づいて$n$人の中から$m$人を選ぶ際の組合せを計算することができます。

直感的理解

組合せの直感的理解にあたっては「順列」の図で並べ替えを行わない場合を考えれば良いです。重複が$m!$通りあるので、順列の式を$m!$で割った式が組合せの式に一致します。

【統計の森 独自評価】統計学・数学・機械学習にまつわる書籍レビューの募集

概要

大手通販サイト(Amazonなど)のレビューを見ると、前提知識が合っていないだけなどの書籍の内容に関するレビューとは言えないような意見が目につくことがあります。

そこで、統計の森では、統計学に関する参考書籍のレビューを集めようと思います。

書籍のレビューはただ集めるだけではなく、本質的とは言えないと思われるレビューは事前に我々運営サイドにてスクリーニングを行う予定です。

謝礼(後述)もありますので、レビューの投稿お待ちしています!

募集の詳細

募集内容

統計学、機械学習などに関する書籍のレビューを募集しています。

募集するレビューは以下のページにあるように掲載させていただく予定です。

応募方法

以下の応募フォームから応募ください。

https://forms.gle/Q46abbRkCapgtp7p9

謝礼

掲載時点で$1$件あたり$1,000$円相当のギフト券(Amazonギフト券)を進呈する予定です。

ある程度集まった段階で、運営でベストレビューを決めさせていただきたいと思っており、ベストレビューに選定されたものについては、$3,000$円相当のギフト券を進呈させていただきます(予定)。

なお、一旦$50$件程度のレビューが集まった段階で募集を締め切らせていただきます。

掲載不可となる内容の例

以下のような内容のものは掲載不可となる可能性が高いです。

  • 表紙が汚れていた、ページが一部折れていた、文字が小さいなど内容と関係のない内容
  • 書籍の内容ではなく、著者や出版社に対しての意見
  • 不当に批判ばかりの内容

なお、投稿していただいたレビューが掲載不可となっても、応募者自身の評価とは全く関係ありませんので、何度でもご応募いたいて構いません。

掲載されない場合には特に連絡はしない予定です。

おわりに

事前にスクリーニングしますが、多様な意見を集めたいと思っています。掲載不可の例のような極端な内容でなければどんどん掲載していきたいと思っていますので、是非お気軽に応募いただけると嬉しいです!