ブログ

ノンパラメトリック法に基づく仮説検定|問題演習で理解する統計学【13】

下記などで取り扱った、ノンパラメトリック法に基づく仮説検定に関する問題演習を通した理解ができるように問題・解答・解説をそれぞれ作成しました。

・標準演習$100$選
https://www.hello-statisticians.com/practice_100

基本問題

2群の差の検定

・問題
ノンパラメトリック法に基づく$2$群の差の検定にあたっては主に「順位和検定」と「並べ替え検定」の二つがある。以下では下記のように標本が得られた際に「帰無仮説」を「$2$つの群の成績の分布は同じ」、「対立仮説」を「群$B$が群$A$よりも良い」とした上で片側検定を行うことを考える。
$$
\large
\begin{array}{|c|*3{c|}}\hline A & 2 & 3 & 7 \\
\hline B & 11 & 8 & 5 \\
\hline
\end{array}
$$

以下の問題に答えよ。
i) 標本に関してそれぞれ順位を付けよ。ただし値が小さい順に順位を割り振るものとする。
ⅱ) 群$A$と群$B$に関して順位和$W_A, W_B$を計算し、群$A$の順位和以下となる場合の$3$つのサンプルの順位の組み合わせを列記せよ。
ⅲ) ⅱ)の結果を用いて、群$A$の順位和に関して片側$P$-値を求めよ。
iv) 群$A$と群$B$に関して数値の平均$\bar{X}_A, \bar{X}_B$を計算し、群$A$の平均以下となる場合の$3$つのサンプルの順位の組み合わせを列記せよ。
v) iv)の結果を用いて、群$A$の平均に関して片側$P$-値を求めよ。

・解答
i)
標本の順位は下記のようになる。
$$
\large
\begin{array}{|c|*3{c|}}\hline A & 1 & 2 & 4 \\
\hline B & 6 & 5 & 3 \\
\hline
\end{array}
$$

ⅱ)
順位和は下記のようになる。
$$
\large
\begin{align}
W_A &= 7 \\
W_B &= 14
\end{align}
$$
また、順位和が$8$以下の順位の組み合わせは下記のようになる。
$$
\large
\begin{align}
1, 2, 3 \\
1, 2, 4
\end{align}
$$

ⅲ)
組み合わせの総数は${}_6 C_3=20$となる。よって片側$P$-値は下記のように計算できる。
$$
\large
\begin{align}
\frac{2}{20} = 0.1
\end{align}
$$

iv)
数値の平均$\bar{X}_A, \bar{X}_B$は下記のようになる。
$$
\large
\begin{align}
\bar{X}_A &= 4 \\
\bar{X}_B &= 8
\end{align}
$$
また、平均$\bar{X}_A$が$4$以下の順位の組み合わせは下記のようになる。
$$
\large
\begin{align}
2, 3, 5 \\
2, 3, 7
\end{align}
$$

v)
ⅲ)と同様に考えて片側$P$-値は下記のように計算できる。
$$
\large
\begin{align}
\frac{2}{20} = 0.1
\end{align}
$$

・解説
順位和検定」と「並べ替え検定」はノンパラメトリック法に基づく$2$群の差の検定です。ⅲ)とv)で求めた$P$-値は正規分布や$t$分布などに基づいて区間推定や検定を行う際の$\alpha$と同様な意味を表すことは抑えておくと良いと思います。

符号付き順位検定・符号検定

発展問題

ウィルコクソンの順位和検定と整数論

参考書籍

・統計学実践ワークブック

ノンパラメトリック法(non-parametric method)による仮説検定について

https://www.hello-statisticians.com/practice/stat_practice6.html
上記などで確認を行なった一般的な仮説検定は正規分布などの母集団分布(population distribution)を仮定して検定統計量の$T$を計算し、$T$が従う分布を用いて仮説検定を行う。このような手法をパラメトリック法(parametric method)という。
一方で当記事で取り扱うノンパラメトリック法(non-parametric method)は母集団分布の仮定を設定することなく仮説検定を行う手法である。ノンパラメトリック法の基本的な考え方は観測値を大きさの順に並べ替えて統計量を作ることであり、母集団分布が分かっている場合であってもサンプルサイズが小さいときにはノンパラメトリック法が有効となる場合も多い。内容の作成にあたっては「統計学実践ワークブック」などを元に作成を行なった。

前提の確認

P-値

ノンパラメトリックの手法ではP-値を計算するので、先にP-値について確認する。以下、下記のWikipediaの記載を参照する。
https://ja.wikipedia.org/wiki/有意#P値

帰無仮説の下で実際にデータから計算された統計量よりも極端な(仮説に反する)統計量が観測される確率を、P値という。P値の利用に伴う諸問題を考慮した社会心理学系のジャーナル、Basic and Applied Social Psychology(BASP)は、帰無仮説有意性検定およびそれに類する統計学的処理を禁止すると発表した。」

上記がWikipediaの記載である。正規分布などを考える際の$\alpha$に近いイメージで理解しておくと良いと思われる。

ノンパラメトリック法の手法

ノンパラメトリックの手法に関してまとめると下記のようになる。

・2群の差の検定
-> ウィルコクソンの順位和検定、並べ替え検定

・対応がある場合の差の検定
-> ウィルコクソンの符号付き順位検定、符号検定

・3群以上の差の検定
-> クラスカル・ウォリス検定

以下、それぞれについて詳しく確認を行う。

ウィルコクソンの順位和検定

ウィルコクソンの順位和検定(Wilcoxon rank sum test)は、「2つの群に差があるかどうか」について取り扱う検定である。具体的に考える方がわかりやすいため、以下の例に基づいて考える。
$$
\large
\begin{array}{|c|*3{c|}}\hline A & 25 & 20 & 45 \\
\hline B & 35 & 39 & 27 \\
\hline
\end{array}
$$

上記の検定を行うにあたって、帰無仮説$H_0$と対立仮説$H_1$を下記のように設定する。
$$
\large
\begin{align}
H_0 &: \quad 2つの群の分布は同じ \\
H_1 &: \quad 群Aの分布の形は群Bと同じだが、悪い方にずれている
\end{align}
$$
この仮説の検定を行うにあたって、群Aと群Bを合わせて小さい値から順位を与え、それぞれの順位和の$W_A, W_B$を検定統計量とすることを考える。冒頭の具体例に順位を割り振り、順位和$W_A, W_B$を計算すると下記のようになる。
$$
\large
\begin{array}{|c|*4{c|}}\hline A & 2 & 6 & 6 & W_A=9 \\
\hline B & 4 & 5 & 3 & W_B=12 \\
\hline
\end{array}
$$

ここで帰無仮説の「2つの群の分布は同じ」が正しいと考えると、6人の順位はランダムに割り振られると考えられる。
6人に与えられる順位の組み合わせは${}_6 C_3$であることを活用し、群Aの順位和が9以下となる確率の$P(W_A \leq 9)$を求め、これをウィルコクソンの順位和検定の片側P-値と考える。
以下、$W_A$の値とその個数について確認する。
$$
\large
\begin{array}{|c|*11{c|}}\hline W_A & 6 & 7 & 8 & 9 & 10 & 11 & 12 & 13 & 14 & 15 & 計 \\
\hline 個数 & 1 & 1 & 2 & 3 & 3 & 3 & 3 & 2 & 1 & 1 & 20 \\
\hline
\end{array}
$$
上記を解釈するにあたっては、$6=1+2+3, 7=1+2+4, 15=4+5+6$のように1通りに定まるのに対し、$9=1+2+6=1+3+5=2+3+4, 10=1+3+6=1+4+5=2+3+5$のように3通り存在する場合があることを対比で確認すると良い。
これは整数論の問題と考えることもでき、順位和$W_A$が与えられた際に最小値を$max(W_A-11,1)$と最大値を$min(W_A-3,6)$のように計算できることを利用して、ある程度考える組み合わせを減らすことができることも抑えておくと良い。

同じ値が観測された場合は順位を分配すればよく、5位と6位が同じ値であれば双方の順位を5.5とすることで計算することができる。

各群の人数が大きくなるにつれてP-値の計算が複雑になるが、各群のサンプルサイズの$m, n$が大きくタイがない場合は下記のように平均と分散を計算して正規分布近似を行えばよい。
$$
\large
\begin{align}
平均 &= \frac{m(m+n+1)}{2} \\
分散 &= \frac{mn(m+n+1)}{12}
\end{align}
$$

並べ替え検定

並べ替え検定(permutation test)の帰無仮説と対立仮説は順位和検定と同じく下記を使用する。
$$
\large
\begin{align}
H_0 &: \quad 2つの群の分布は同じ \\
H_1 &: \quad 群Aの分布の形は群Bと同じだが、悪い方にずれている
\end{align}
$$
並べ替え検定が順位和検定と異なる点は群の平均を小さい順から並べることで検定統計量を求めることである。

順位和検定と並べ替え検定の結果は異なることが多いが、これは「どちらが良い」という話ではないことに注意が必要である。

符号付き順位検定

符号付き順位検定(Wilcoxon signed rank test)は、「何らかの事象の前と後で全体に変化が生じたか」を取り扱う検定である。以下では具体的に考えるにあたって5人の学生に補修を行い、点数の差が下記のようになったことを例に考える。
$$
\large
\begin{align}
D: \quad -3, 9, 3, 7, -1
\end{align}
$$
上記からは平均3点の上昇があることが確認できるが、この例に対し、それぞれの符号付き順位を考える。
$$
\large
\begin{align}
\tilde{D}: \quad -1, 5, 3, 4, -2
\end{align}
$$
上記のうち正値の合計の$T_{+}=5+3+4=12$を検定統計量と考える。

ここで下記のように帰無仮説と対立仮説を設定し、片側検定を考える。
$$
\large
\begin{align}
H_0 &: \quad 分布Dの中央値 = 0 \\
H_1 &: \quad 分布Dの中央値 > 0
\end{align}
$$
組み合わせ$2^5=32$通りに対し、$T_{+} \geq 12$となるのは下記の場合が考えられる。
$$
\large
\begin{align}
-1, -2, 3, 4, 5 \\
1, 2, -3, 4, 5 \\
1, -2, 3, 4, 5 \\
-1, 2, 3, 4, 5 \\
1, 2, 3, 4, 5
\end{align}
$$
よって符号付き順位検定の片側P-値は$5/32=0.15625$となる。

また、サンプルサイズ$n$が大きくタイがない場合は下記のように平均と分散を計算して正規分布近似を行えばよい。
$$
\large
\begin{align}
平均 &= \frac{n(n+1)}{4} \\
分散 &= \frac{n(n+1)(2n+1)}{24}
\end{align}
$$

符号検定

符号検定(sign test)は符号付き順位検定と同様に、「何らかの事象の前と後で全体に変化が生じたか」に関して取り扱う手法である。
帰無仮説、対立仮説も符号付き順位検定と同様に下記のようになる。
$$
\large
\begin{align}
H_0 &: \quad 分布Dの中央値 = 0 \\
H_1 &: \quad 分布Dの中央値 > 0
\end{align}
$$
上記について考えるにあたって、符号付き順位検定では符号付きの順位を考えたが、符号検定では単に個数$T_{+}$を検定統計量とする。帰無仮説が正しいとき、$T_{+}$は二項分布$Bin(n,0.5)$に従うと考えることができる。

以下、下記の符号付き順位検定と同様な例について考える。
$$
\large
\begin{align}
D: \quad -3, 9, 3, 7, -1
\end{align}
$$
上記の例においては$T_{+}=3$であるので、これより符号検定片側P-値は下記のように計算できる。
$$
\large
\begin{align}
P(T_{+} \geq 3) &= ({}_5 C_3 + {}_5 C_4 + {}_5 C_5) \times 0.5^5 \\
&= 16 \times 0.5^5 \\
&= 0.5
\end{align}
$$
上記の解釈にあたっては符号付き順位検定よりも「差がない」という結論が導出されるが、これは負の値の標本の絶対値が小さい一方で、正の値の標本の絶対値が大きいことに起因することは抑えておくと良い。

クラスカル・ウォリス検定

クラスカル・ウォリス検定(Kruskal-Walis test)は、「複数の群に差があるか」について考える手法である。

順位相関係数

2次元の標本$(x_i, y_i) \quad (i=1,2,…,n)$がともに順位を表す場合の相関係数が順位相関係数(rank coefficient of correlation)である。

スピアマンの順位相関係数(Spearman correlation coefficient)の$r_s$は2次元の標本の$(x_i, y_i)$がともに連続変数である場合のピアソンの積率相関係数と同じ計算を行う。順位であることを考慮すると次のように表現できる。
$$
\large
\begin{align}
r_s = 1 – \frac{6 \sum_{i=1}^{n}(x_i-y_i)^2}{n(n^2-1)}
\end{align}
$$

まとめ

適合度検定(test of goodness of fit)の流れについて把握する

仮定された理論上の確率分布に対して標本から求めた度数が適合するかどうかを確認するのが適合度検定(test of goodness of fit)である。
当記事では「基礎統計学Ⅰ 統計学入門(東京大学出版会)」や「自然科学の統計学(東京大学出版会)」を元に適合度検定についてまとめるものとする。

適合度の検定の原理

適合度の検定の原理は下記のように考えると良い。
$$
\large
\begin{align}
\chi^2 = \sum_{i=1}^{k} \frac{(O_i-E_i)^2}{E_i}
\end{align}
$$
上記において、OはObserved(観測された)、EはExpected(理論によって期待された)をそれぞれ意味する。また、サンプルのインデックスを明示的に表現にするにあたって$O_i$と$E_i$のように表記を行った。

この考えに基づいて適合度検定などを行う。

K.ピアソンの適合度基準

K.ピアソンの適合度基準は下記のように計算することができる。
$$
\large
\begin{align}
\chi^2 = \sum_{i=1}^{k} \frac{(f_i-np_i)^2}{np_i}
\end{align}
$$
上記において、観測度数の$f_i$が観測の$O_i$に、理論確率$p_i$から計算した理論度数の$np_i$が期待値の$E_i$にそれぞれ対応すると抑えておくと良い。

上記の式に基づいて計算した$\chi^2$を用いて$\chi^2$検定を行うことで、適合度検定を行うことができる。

まとめ

当記事では「基礎統計学Ⅰ 統計学入門(東京大学出版会)」や「自然科学の統計学(東京大学出版会)」を参考に適合度検定(test of goodness of fit)について取りまとめを行なった。

参考

回帰診断(regression diagnostics)法による結果のあてはまりの確認について

最小二乗法に基づく線形回帰は多くのケースで用いられるため、全てのケースで用いることが適切だと考えがちだが、最尤法の仮定を前提にするなどのように、ある程度大元の前提が成立しているかは確認する必要がある。
当記事では線形回帰が適切かどうかを確認し、適切でない場合はどのような手法を用いるべきかを判断できるように回帰診断(regression diagnostics)法について取り扱う。内容の作成にあたっては「統計学実践ワークブック」などを元に作成を行なった。

回帰診断の手法

残差プロット

$n$個の標本が観測された際に、$i$番目の実測値を$y_i$、予測値を$\hat{y}_i$とする。このとき、残差$e_i$を$e_i=y_i-\hat{y}_i$のように考えるとする。
このとき予測値$\hat{y}_i$を横軸、残差$e_i$を縦軸に取って各標本に関してプロットを行なったものを残差プロット(residual plot)という。

図の横軸の値を$plot(x)_i$、縦軸の値を$plot(y)_i$とすると、それぞれ下記のように表すことができる。
$$
\large
\begin{align}
plot(x)_i &= \hat{y}_i \\
plot(y)_i &= e_i
\end{align}
$$

このときに、縦軸の残差の値が予測値$\hat{y}_i$の値によらず$0$を中心に概ね正規分布に従っていれば最小二乗法を用いたことが適切であることが確認できる。逆に下記のようなケースは注意が必要である。

・外れ値(outlier)が存在する
-> 特定のサンプルだけ残差が大きい

・等分散性が成立しない
-> 予測値が大きくなるにつれて残差が大きくなったり小さくなったりする

・独立性が成立しない

上記のように予測値と残差のプロットを確認するだけで様々なことがわかることは抑えておくと良い。

正規Q-Qプロット

正規Q-Qプロット(normal quantile-quantile plot)は、残差を標準化し小さい順に並べた分位点と、標準正規分布の累積分布関数の分位点をプロットしたものである。
誤差項に正規性が成立している場合、このプロットは傾き1の直線上に並ぶ。

標準化残差の絶対値の平方根プロット

残差プロットと基本的には同様だが、標準化した残差に対して絶対値を取ることで「等分散性」が成立するかにより着目できるように試みられることは抑えておくと良い。数式で表すと下記のように表すことができる。
$$
\large
\begin{align}
plot(x)_i &= \hat{y}_i \\
plot(y)_i &= \frac{|e_i|}{\sqrt{V[e]}} \\
&= \frac{|y_i-\hat{y}_i|}{\sqrt{\sum_{i=1}^{n} (e_i-E[e])^2}}
\end{align}
$$
特に、横軸の予測値に対して縦軸の「標準化した残差の絶対値」が増加 or 減少しないかは重点的に確認すると良い。

leverageとCook’s distance

自己相関とDW比

まとめ

統計的モデリングを行うにあたっては、モデリングの前提が成立しているかについては常に確認する必要があります。当記事ではその確認にあたっての方針について「統計学実践ワークブック」の17章を参考に取り扱いました。

マルコフ連鎖と定常分布(Stationary distribution)について

マルコフ連鎖(Markov Chain)は時系列の取り扱いなどで主に用いられる手法で、言語・音声処理や強化学習においても用いられることがある。また、乱数を用いて近似解を求める手法であるMCMC(Markov Chain Monte Carlo)や、将棋・囲碁の学習に用いられるMCTS(Monte Carlo Tree Search)などもマルコフ連鎖を元に手法が構築されている。当稿ではマルコフ連鎖の基本トピックについてまとめるにあたって、漸化式の確認から定常分布(Stationary distribution)などの取りまとめを行なった。
内容の作成にあたっては「統計学実践ワークブック」などを元に作成を行なった。

基本事項の確認

数列と漸化式

マルコフ連鎖の定義

$$
\large
\begin{align}
P(X_{n+1}|X_{n}, X_{n-1}, … , X_{1}, X_{0}) = P(X_{n+1}|X_{n})
\end{align}
$$
確率変数の列$\{X_n\}$に関して上記が成立するとき、これを確率変数列$\{X_n\}$のマルコフ性(Markov property)といい、このような性質を持つ$\{X_n\}$をマルコフ連鎖(Markov chain)という。

マルコフ連鎖を直感的に理解するにあたっては、「将来の予測にあたって現在の状態のみを参照する」と考えればよい。

状態確率ベクトルと推移確率行列

前項のマルコフ連鎖の表記は抽象的な表記であったが、ここで状態確率ベクトル(state probability vector)と推移行列(transition matrix)を導入することによってより具体的な考察が可能となる。
このとき確率変数$X_n$が状態$1$〜$N$の値を取るとした際に、下記のように$N$次元の状態確率ベクトル$\mathbf{\pi}_n$を定義する。
$$
\large
\begin{align}
\mathbf{\pi}_n = \left(\begin{array}{ccc} P(X_n=1) & … & P(X_n=N) \end{array} \right)
\end{align}
$$
状態確率ベクトル$\mathbf{\pi}_n$のうち、$n=0$となる$\mathbf{\pi}_0$を初期分布(initial distribution)ということも抑えておくとよい。

状態確率ベクトルについて確認したので次に推移行列$Q(m)$について確認する。状態$i$から状態$j$に$m$ステップで推移する確率を$p_m(i,j)=P(X_{n+m}=j|X_n=i)$と表現するとき、推移行列$Q(m)$は下記のように定義できる。
$$
\large
\begin{align}
Q(m) = \left(\begin{array}{ccc} p_m(1,1) & … & p_m(1,N) \\ … & … & … \\ p_m(N,1) & … & p_m(N,N) \end{array} \right)
\end{align}
$$
また、下記では簡易化にあたって$Q=Q(1)$を確率行列(probability matrix)と考えることとする。

状態確率ベクトル$\mathbf{\pi}_n$、確率行列$Q$を上記のように定義したと考えると、状態確率ベクトル$\mathbf{\pi}_n$と初期分布$\mathbf{\pi}_0$間で下記のような式が成立する。
$$
\large
\begin{align}
\mathbf{\pi}_n = \mathbf{\pi}_0 Q^n
\end{align}
$$

定常分布

定常分布の数式表記

状態確率ベクトル$\mathbf{\pi}_n$において、$n \to \infty$の極限が成立するときに、それを$\mathbf{\pi}$と定義すると、$\mathbf{\pi}$は下記のように表すことができる。
$$
\large \begin{align} \mathbf{\pi} = \lim_{n \to \infty} \mathbf{\pi}_n
\end{align}
$$
また、上記より下記が成立すると考えることができる。
$$
\large
\begin{align}
\mathbf{\pi} = \mathbf{\pi} Q
\end{align}
$$
これは、$Q$の固有値$1$の固有ベクトルに一致することを意味している。

ここで考えた$\mathbf{\pi}$を定常分布(stationary distribution)といい、初期分布が定常分布であるようなマルコフ連鎖を定常マルコフ連鎖という。

パラメータ推定

推移確率行列$Q$が未知のパラメータ$\theta$によって決定されることを下記のように表すとする。
$$
\large
\begin{align}
Q_{\theta} = \left(\begin{array}{ccc} p_{\theta}(1,1) & … & p_{\theta}(1,N) \\ … & … & … \\ p_{\theta}(N,1) & … & p_{\theta}(N,N) \end{array} \right)
\end{align}
$$

このとき確率変数列${X_i}$に対して、観測列${x_i}$が与えられたとする。この同時確率はマルコフ性が成立することなどを利用して下記のように計算することができる。
$$
\begin{align}
P(X_0=x_0, X_1=x_1, …, X_n=x_n) &= P(X_n=x_n|X_0=x_0, …, X_{n-1}=x_{n-1}) P(X_n=x_{n-1}|X_0=x_0, …, X_{n-2}=x_{n-2}) … P(X_1=x_1|X_0=x_0)P(X_0=x_0) \\
&= P(X_n=x_n|X_{n-1}=x_{n-1}) P(X_n=x_{n-1}|X_{n-2}=x_{n-2}) … P(X_1=x_1|X_0=x_0)P(X_0=x_0) \\
&= p_{0}(x_0) \prod_{j=1}^{n} p_{\theta}(x_{j-1}, x_{j})
\end{align}
$$
上記において初期確率$p_{0}$はパラメータ$\theta$によらないと考えるものとする。

最尤法的な考え方に基づくと、尤度$L(\theta)$は同時確率$P(X_0=x_0, X_1=x_1, …, X_n=x_n)$に一致するため、下記が成立する。
$$
\large
\begin{align}
L(\theta) &= P(X_0=x_0, X_1=x_1, …, X_n=x_n) \\
&= p_{0}(x_0) \prod_{j=1}^{n} p_{\theta}(x_{j-1}, x_{j})
\end{align}
$$
このとき両辺の対数を取ることで対数尤度$l_n(\theta)$を考え、$\theta$が関係ない項を無視することで対数尤度関数は下記のように表せる。
$$
\large
\begin{align}
l_{n}(\theta) = \sum_{j=1}^{n} \log{p_{\theta}(x_{j-1}, x_{j})}
\end{align}
$$

よって、$\theta$の最尤推定値の$\hat{\theta}$は以下の微分方程式の解を求めることで得られる。
$$
\large
\begin{align}
\frac{\partial}{\partial \theta}l_{n}(\theta) = 0
\end{align}
$$

ここでは推移行列を未知のパラメータとし、$Q_{\theta}$を定義したが、Deep Learningを用いるときなども同様の式設定を行い、そこから誤差関数(loss function)を導出することが多いことは抑えておくとよい。

天気を例に定常分布を具体的に確認する

二次形式のヘッセ行列(Hessian matrix)の図形的意味を把握する

ヘッセ行列は多変数で表された二次形式(quadratic form)の二階微分を考える際に主に用いられる。凸最適化問題などを取り扱うにあたって時折出てくるので抑えておくと良い。

当稿ではWikipediaなどを参考に、ヘッセ行列の図形的な意味を把握することを目的に取りまとめを行なった。
https://ja.wikipedia.org/wiki/ヘッセ行列

基本事項の確認

$\nabla$と直積・外積

https://www.hello-statisticians.com/explain-terms-cat/pca1.html#nabla
上記で詳しく取り扱ったが、スカラー関数をベクトルで偏微分する際に下記のような演算子$\nabla$を定義することが多い。
$$
\large
\begin{align}
\nabla = \frac{\partial}{\partial \mathbf{x}} = \left(\begin{array}{c} \displaystyle \frac{\partial}{\partial x_1} \\ \vdots \\ \displaystyle \frac{\partial}{\partial x_n} \end{array} \right)
\end{align}
$$

上記の$\nabla$はヘッセ行列の定義にあたっても用いられる。また、ヘッセ行列の定義にあたっては直積(direct product)や外積(outer product)を表す演算子を定義する。ベクトル$\displaystyle \mathbf{a} = \left(\begin{array}{c} a_1 \\ \vdots \\ a_n \end{array} \right), \mathbf{b} = \left(\begin{array}{c} b_1 \\ \vdots \\ b_n \end{array} \right)$に対し、直積を表す演算子$\otimes$は下記のように定義される。
$$
\large
\begin{align}
\mathbf{a} \otimes \mathbf{b} &= \mathbf{a} \mathbf{b}^{\mathrm{T}} \\
&= \left(\begin{array}{c} a_1 \\ \vdots \\ a_n \end{array} \right) \left(\begin{array}{ccc} b_1 & \cdots & b_n \end{array} \right) \\
&= \left(\begin{array}{ccc} a_1 b_1 & \cdots & a_1 b_n \\ \vdots & \ddots & \vdots \\ a_n b_1 & \cdots & a_n b_n \end{array} \right)
\end{align}
$$

ここまでで確認した演算子の$\nabla, \otimes$を用いてヘッセ行列を定義することができる。

・参考:直積、外積の定義
https://ja.wikipedia.org/wiki/直積_(ベクトル)

ヘッセ行列の定義

$n$次元のベクトル$\displaystyle \mathbf{x} = \left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array} \right)$に関するスカラー関数$f(\mathbf{x})$のヘッセ行列$H(f)$は下記のように定義される。
$$
\large
\begin{align}
H(f) &= \nabla \otimes \nabla f(\mathbf{x}) \\
&= \left(\begin{array}{c} \displaystyle \frac{\partial}{\partial x_1} \\ \vdots \\ \displaystyle \frac{\partial}{\partial x_n} \end{array} \right) \left(\begin{array}{ccc} \displaystyle \frac{\partial f}{\partial x_1} & \cdots & \displaystyle \frac{\partial f}{\partial x_n} \end{array} \right) \\
&= \left(\begin{array}{ccc} \displaystyle \frac{\partial^2 f}{\partial x_1^2} & \cdots & \displaystyle \frac{\partial^2 f}{\partial x_1 \partial x_n} \\ \vdots & \ddots & \vdots \\ \displaystyle \frac{\partial^2 f}{\partial x_n \partial x_1} & \cdots & \displaystyle \frac{\partial^2 f}{\partial x_n^2} \end{array} \right)
\end{align}
$$

ヘッセ行列の図形的解釈

問題設定

二次形式のヘッセ行列の図形的解釈を行うにあたって、問題設定を行う。
$$
\large
\begin{align}
f(x_1, x_2) = x_1^2 + 2x_1x_2 + 2x_2^2 + 3x_1 + 2x_2 + 1
\end{align}
$$
上記のような2変数のスカラー関数$f(x_1, x_2)$についてヘッセ行列を計算し、その図形的意味の確認を行う。

勾配ベクトル・ヘッセ行列の計算

勾配ベクトル$\nabla f(x_1, x_2)$を計算すると下記のようになる。
$$
\large
\begin{align}
\nabla f(x_1, x_2) &= \nabla(x_1^2 + 2x_1x_2 + 2x_2^2 + 3x_1 + 2x_2 + 1) \\
&= \left(\begin{array}{c} 2x_1 + 2x_2 + 3 \\ 2x_1 + 4x_2 + 2 \end{array} \right)
\end{align}
$$

ヘッセ行列$H(f)$を計算すると下記のようになる。
$$
\large
\begin{align}
H(f) &= \nabla \otimes \nabla f(x_1, x_2) \\
&= \left(\begin{array}{cc} 2 & 2 \\ 2 & 4 \end{array} \right)
\end{align}
$$

ヘッセ行列の図形的解釈

ヘッセ行列の固有値・固有ベクトルを計算した際に、固有ベクトルが二次形式$f(x_1, x_2)$の等高線に垂直な方向のベクトルを表し、固有値がそれぞれのベクトルの等高線の密度に関係する。

ヘッセ行列と分散共分散行列

$D$次元の多次元正規分布$\mathcal{N}(\boldsymbol{\mu},\Sigma)$の確率密度関数を$f(\mathbf{x})$とおくと、$f(\mathbf{x})$は下記のように表せる。
$$
\large
\begin{align}
f(\mathbf{x}) = \frac{1}{(2 \pi)^{\frac{D}{2}} |\Sigma|^{\frac{1}{2}}} \exp{\left[ -\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu}) \right]}
\end{align}
$$

ここで下記のように$\Delta^2$を定義する。
$$
\large
\begin{align}
\Delta^2 = \frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \Sigma^{-1} (\mathbf{x}-\boldsymbol{\mu})
\end{align}
$$

上記の$\Delta^2$に対し、ベクトル$\mathbf{x}$での微分を行うことで導出されるヘッセ行列を$H$とおくと、$H$は下記のように表せる。
$$
\large
\begin{align}
H = \Sigma^{-1}
\end{align}
$$

母集団分布・標本分布・統計量を把握する|推測統計を理解する【1】

「推測統計」を考えるにあたっては「区間推定・点推定」と「検定」の二つが主に取り上げられがちであるので、母集団分布・標本分布・統計量についてはいまいちわからない方も多いかもしれません。
そこで当記事では母集団分布・標本分布・統計量についてそれぞれ簡単な取りまとめを行いました。作成にあたっては「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の第$9$章の「標本分布」の内容を主に参考にしましたので、下記も合わせてご確認ください。

母集団分布・標本分布・統計量の概要

母集団分布

母集団分布(population distribution)は、統計的推測(statistical inference)において推測する対象となる母集団に関する分布である。最尤法などで仮定する正規分布やベルヌーイ分布はそれぞれ母集団分布を表していることも知っておくと良い。

統計学では有限の母集団よりも$N \to \infty$の無限母集団を考えることが多いため、有限母集団におけるヒストグラムや相対頻度よりも、無限母集団における確率分布や確率密度関数を考えることが多い。最尤法において仮定する確率分布も同様である。

母集団分布を考える際に、ある程度法則がある方が取り扱いやすいので、正規分布やベルヌーイ分布のように特定のパラメータを用いて確率分布を表すことが多い。たとえば正規分布は平均の$\mu$と分散の$\sigma^2$を用いて$\mathcal{N}(\mu, \sigma^2)$のように表し、ベルヌーイ分布は確率を表す$p$を用いて$\mathrm{Bin}(1,p)$のように表す。このように確率分布をパラメータを用いて表す場合をパラメトリックと呼び、単に具体的な分布で表す場合をノンパラメトリックと呼ぶ。基本的にはパラメトリックを用いて表すことが多いため、パラメトリックを中心に把握しておくと良い。

確率分布をパラメトリックに取り扱うにあたって、確率分布の式を合わせて確認すると良いので、正規分布とベルヌーイ分布についてそれぞれ確認する。
$$
\large
\begin{align}
f(x) &= \mathcal{N}(x|\mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left( – \frac{(x-\mu)^2}{2 \sigma^2} \right) \\
f(x) &= \mathrm{Bin}(x|p) = p^x(1-p)^{1-x}
\end{align}
$$

上記のような数式は少数のパラメータで確率分布を表すことができることを把握しておくと良い。またここで用いているパラメータを母数(parameter)と呼ぶ。

母集団分布を考える際には、標本$X_i \quad (1 \leq i \leq n)$はこの母集団分布に従って得られたと考えることも抑えておくと良い。この時、$n$は標本数(sample size)を表す。

統計量

母集団分布$f(x)$を特定する代表的な母数は平均と考えることができ、母平均(population mean)は下記のように表すことができる。
$$
\large
\begin{align}
\mu &= \sum_{x} xf(x) \\
\mu &= \int_{-\infty}^{\infty} xf(x) dx
\end{align}
$$

上記において$1$つ目が確率変数が離散となる場合で、$2$つ目が確率変数が連続となる場合である。

同様に母分散は下記のように表すことができ、これも母集団分布$f(x)$の特定に役に立つ。
$$
\large
\begin{align}
\sigma^2 &= \sum_{x} (x-\mu)^2f(x) \\
\sigma^2 &= \int_{-\infty}^{\infty} (x-\mu)^2f(x) dx
\end{align}
$$

ここまでのように母集団分布の母平均と母分散を知ることで母集団について考えることができるが、$N = \infty$の無限母集団を考えることも多く、母集団全体を調べると考えることは現実的ではない。近年応用事例の多い機械学習では全体を取り扱うことを考える場合もあるかもしれないが、以下では統計学の前提とは少々異なるので、ここでは「母集団全体を調べることは難しい」という前提で考えることとする。母平均を取り扱うのが難しい際は、母集団分布に沿って得られたと考える「標本」に基づく「標本平均」を用いることが多い。
$$
\large
\begin{align}
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
\end{align}
$$

標本サイズが$n$の「標本平均」は上記のように表すことができる。

標本平均」を用いて「母平均」を考えることが妥当なのは下記に基づく。
・$E[X]=\mu$ (不偏性)
・$\displaystyle \lim_{n \to \infty} \bar{X} = \mu$ (大数の法則、一致性)
$2$つ目の式は標本平均の分散が$1/n$に比例することで、サンプルが大きくなると分散が限りなく小さくなることに基づくと考えればよい。

ここまでの議論における「標本平均」のように「標本を要約し、母集団の母数の推測に用いられるもの」を「統計量(statistic)」と呼ぶ。統計量は「標本を要約したものに過ぎず、未知のパラメータを含まない」ということについては注意が必要である。

統計量は「標本平均」、「標本の分散」、「標本の標準偏差」、「標本のメディアン」、「標本の相関係数」など多くのものがあるが、重要な点は分布の特徴を要約するのに適した統計量を選択することである。

標本$X_1, X_2, … X_n$は母集団分布に従って分布し、統計量は標本の関数で、下記のように表すことができる。
$$
\large
\begin{align}
t(X_1, …, X_n)
\end{align}
$$

上記の確率分布は母集団分布から求めることができるが、逆に考えると「統計量の値から母集団分布を求める」ことができる。また、統計量$t(X_1, …, X_n)$の確率分布をその統計量の「標本分布(sampling distribution)」という。

標本から求める標本平均や不偏標本分散のような統計量の周辺に母平均や母分散があると考えることができ、このことに基づいて区間推定などを行う。また、記述統計で算出する量は概ね統計量と理解しておくと良いと思われる。

標本分布

「標本分布(sampling distribution)」は統計量$t(X_1, …, X_n)$の確率分布である。標本和$X_1+X_2+…+X_n$や標本平均$\bar{X}$の標本分布は母集団分布に依存し、母集団分布が下記で取り扱った再生性を持っている場合、シンプルな計算で求めることができる。
https://www.hello-statisticians.com/explain-terms-cat/probdist3.html

「再生性」は「独立な二つ以上の確率変数が同一の分布族に属する場合、その和もそれに属する」ことを意味し、参照先のように二項分布、ポアソン分布、正規分布などが再生性を持つ。

まとめ

母集団分布・標本分布・統計量は時折出てくるトピックである一方で、それぞれの定義について理解する機会は少ないと思われたので、「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の第$9$章の内容を元に簡単に取りまとめを行いました。

把握しておきたい最適化数学の基本 〜問題の定義、線形計画法、勾配法 etc〜

最適化の理解は統計学のメイントピックではないものの、「最適化」は概ね「最小値・最大値問題」となることから、統計学に関連する多くの導出で「最適化」の基本的な理解は必須であると思われます。
一方で、「最適化」の解説は各論を中心とするものが多く、特定の最適化の問題や手法を学ぶ目的以外では学習にかかるコストの面で適さない場合があるような印象を受けます。そのため当記事では、最適化に関しての概論をまとめることで、統計を理解するにあたって知っておくとよい前提知識が得られるように試みました。

なぜ「最適化」の基本を学んでおくべきか

そもそもそれほど難しくない

「最適化」と聞くと難しい印象を受けるかもしれませんが、基本的な内容については高校数学の「平方完成」や「微分」で取り扱っている「最大値・最小値問題」とさほど違いはありません。「最適化」を直感的に解釈するなら「一番良いと思われる条件を探す」と言い換えられると思いますが、「一番良い」を客観的に評価するにあたっては何らかの関数が必要で、その関数の「一番高い値=最適」と考えるなら、「最適化」は「関数の最大値問題または最小値問題」に置き換えられます。

「最適化」について把握していない方は「最適化=難しそうな手法」と考えるかもしれませんが、「手法自体」はむしろ単純で、「実際の事例をいかに最大値・最小値問題に変換するか」が最適化を理解する上で最も重要です。

具体的な例がある方がわかりやすいので、最適化の簡単な例をご紹介します。「コストを$x$費やした際の結果の期待値が$y = x(2-x) \quad (0 \leq x \leq 2)$となるとき、最適な期待値を得るにあたってのコストを求めよ」という例について以下考えます。
$$
\large
\begin{align}
\frac{\partial y}{\partial x} = -2x + 2
\end{align}
$$
上記において、$-2x+2=0$を解くと$x=1$であるため、この例においては最適なコストは$x=1$と考えることができます。

ここで取り扱った最適化の例は「微分を用いた最大値問題の解法」を用いて最適なコストを求めましたが、このように最適化問題の多くは「関数の最大値問題」に帰着することができます。そのため、そもそもそれほど難しくないことが多いことには注意しておくと良いです。

適用範囲が広い

最適化は単体で完結する分野というよりも、多くの他の分野の導出のベースに用いられることが多いです。「統計学」もその一つであり、具体的には尤度を最大にするパラメータを計算する最尤法も「最適なパラメータを求める問題」と考えることができます。

最尤法だけにとどまらず、フィッシャーの線形判別や主成分ベクトルの導出などにあたっても最適化が用いられます。$1$変数に関する最大化だけでなく、複数の変数やベクトルの向きに関する最大化・最適化も統計学では活用されます。

都度追うよりまとめて掴んだ方が簡単

統計学の理論の導出にあたって現れる「最適化」の手法は毎回同じパターンである一方で、理論の導出にあたっての問題設定は毎回異なります。よって、都度最適化に関してメイントピックの導出と同時に理解すると負担が大きくなります。

たとえばフィッシャーの線形判別では、「郡内分散と郡間分散の定義」、「共分散行列を用いた二次形式の表記」、「ベクトルの向きに関する最適化」によって主に構成されますが、最適化以外の導出も少々複雑なため、「最適化」を別枠で抑えておけば最大化する指標の定義の理解に注力することができます。

また、多くのトピックで「指標の定義」と「最大化」で理論的な導出がなされるため、「最適化」という概念を抑えておくことで、導出の流れのパターンについて予め把握した上で導出を追うことが可能になります。このことで導出の全体像を掴み、理解のスピードを早めることができます。

最適化の基本トピック

目的関数の定義

最適化を考えるにあたって特に重要なのが「目的関数(Objective)の定義」です。要するに「変数の値が良いかどうかについて評価するための関数」を定義する必要があるということです。
$$
\large
\begin{align}
\mathrm{Objective}: \quad f(x) = x(2-x) \to \mathrm{Maximize}
\end{align}
$$
冒頭の例だと上記のように目的関数の$f(x)$を記載することができます。

このような表記・レイアウトを用いることで、最適化問題について考える際に説明を省略することができるため、非常に有用です。数式を見ると難しいと考える人も多いかもしれませんが、単に説明を省略することで本来の問題以外をなるべく考えなくて良くなると理解すれば良いと思います。

制約条件

「目的関数」に対して同じく重要なのが「制約条件(Constraint)」です。「制約条件」は数学の最大値問題において「定義域を定める」ということに対応しています。「制約条件」を考えるとたとえば下記のような問題が設定されます。
$$
\large
\begin{align}
\mathrm{Objective} &: \quad f(x) = -x^2 + 3 \to \mathrm{Maximize} \\
\mathrm{Constraint} &: \quad 1 \leq x \leq 5
\end{align}
$$
二次関数$f(x)=-x^2$の形状から関数の最大値は$f(1)=-1+3=2$となります。よって、$x=-1$が目的関数を最大化する変数の値となります。

ラグランジュの未定乗数法

制約条件の取り扱いにあたって、関数や制約条件が複雑な場合などがあります。この際はラグランジュの未定乗数法を用いることが多いです。

概要は下記で取り扱いました。ラグランジュの未定乗数法自体の理解は少々難しいですが、複雑な導出ではよく出てくるので、原理の理解は後回しにしても手法だけは必ず抑えておくと良いと思います。
https://www.hello-statisticians.com/explain-terms-cat/pca1.html#i-4

ラグランジュの未定乗数法は下記にまとめましたので、詳しく知りたい方は下記も確認してみてください。
https://www.hello-statisticians.com/explain-terms-cat/lagrange1.html

基本的には使い方だけは抑えてはおくべきだと思いますので、原理の理解が難しい場合は使い方だけを抑えるようにしましょう。

記述統計の基本事項の確認とその応用|基本演習で理解する統計学【1】

下記などで取り扱った、記述統計の基本事項に関する問題演習を通した理解ができるように問題・解答・解説をそれぞれ作成しました。
https://www.hello-statisticians.com/explain-terms-cat/desc_stat1.html

基本問題

$1$変数の標本の取り扱い

・問題
テストの点数やオフィスの面積など、観測対象に対し$1$つの変数を割り当てることは多い。このときに$1$変数のサンプルの取り扱いを知っておくことで観測値の特徴を考察することができる。
以下、基本的な指標などについて取り扱う。下記の問題に答えよ。
i) $n$個の観測値を$x_i \quad (1 \leq i \leq n)$のように表すとき、標本の平均$\bar{x}$を$x_i$と$n$を用いて表せ。
ⅱ) 標本の分散を$S^2$とするとき、$S^2$を$x_i, \bar{x}, n$を用いて表せ。
ⅲ) $n$が奇数のとき、標本の中央値を$n$を用いて表せ。
iv) $n$が偶数のとき、標本の中央値を$n$を用いて表せ。
v) 平均と中央値が一致するときと一致しないときはそれぞれどのような状況が想定されるかを説明せよ。

・解答
i)
標本の平均$\bar{x}$は下記のように表すことができる。
$$
\large
\begin{align}
\bar{x} &= \frac{1}{n} (x_1+x_2+…+x_n) \\
&= \frac{1}{n} \sum_{i=1}^{n} x_i
\end{align}
$$

ⅱ)
標本の分散を$S^2$は下記のように表すことができる。
$$
\large
\begin{align}
S^2 &= \frac{1}{n} ((x_1-\bar{x})^2+(x_2-\bar{x})^2+…+(x_n-\bar{x})^2) \\
&= \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2
\end{align}
$$

ⅲ)
$n$が奇数のとき、標本の中央値$n$は下記のようになる。
$$
\large
\begin{align}
x_{\frac{n+1}{2}}
\end{align}
$$

iv)
$n$が偶数のとき、標本の中央値$n$は下記のようになる。
$$
\large
\begin{align}
\frac{x_{n/2} + x_{(n/2)+1}}{2}
\end{align}
$$

v)
平均と中央値が一致する場合は標本が平均を中心に対称である場合が多く、一致しない場合は非対称であることが多い。

・解説
ⅲ)〜v)で取り扱った中央値は概念はシンプルな一方で、数式で表すと少々難しく見えるかもしれません。とはいえ基本事項なので、繰り返し確認することで抑えておくと良いと思います。

$2$変数の取り扱い

・問題
「数学と理科の点数」や「数学と国語の点数」など、$2$つの変数がどのように関連するかについて考察したいときも多い。以下では$2$変数の取り扱いについて確認する。
下記の問いに答えよ。
i) $n$対の観測値を$(x_i, y_i) \quad (1 \leq i \leq n)$のように表すとき、標本の平均$\bar{x}, \bar{y}$を$x_i, y_i$と$n$を用いて表せ。
ⅱ) $x_i$の分散を$S_x^2$、$y_i$の分散を$S_y^2$とするとき、$S_x^2, S_y^2$を$x_i, \bar{x}, y_i, \bar{y}, n$を用いて表せ。
ⅲ) $x_i, y_i$の共分散$C_{xy}$を$x_i, \bar{x}, y_i, \bar{y}, n$を用いて表せ。
iv) $x_i, y_i$の相関係数$r_{xy}$を$x_i, \bar{x}, y_i, \bar{y}, n$を用いて表せ。
v) 共分散、相関係数の値はどのように解釈すると良いか説明せよ。

・解答
i)
$x_i, y_i$の平均$\bar{x}, \bar{y}$は下記のように表すことができる。
$$
\large
\begin{align}
\bar{x} &= \frac{1}{n} (x_1+x_2+…+x_n) \\
&= \frac{1}{n} \sum_{i=1}^{n} x_i \\
\bar{y} &= \frac{1}{n} (y_1+y_2+…+y_n) \\
&= \frac{1}{n} \sum_{i=1}^{n} y_i
\end{align}
$$

ⅱ)
$S_x^2, S_y^2$は下記のように表すことができる。
$$
\large
\begin{align}
S_x^2 &= \frac{1}{n} ((x_1-\bar{x})^2+(x_2-\bar{x})^2+…+(x_n-\bar{x})^2) \\
&= \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2 \\
S_y^2 &= \frac{1}{n} ((y_1-\bar{y})^2+(y_2-\bar{y})^2+…+(y_n-\bar{y})^2) \\
&= \frac{1}{n} \sum_{i=1}^{n} (y_i-\bar{y})^2
\end{align}
$$

ⅲ)
共分散$C_{xy}$は下記のように表すことができる。
$$
\large
\begin{align}
C_{xy} &= \frac{1}{n} ((x_1-\bar{x})(y_1-\bar{y})+(x_2-\bar{x})(y_2-\bar{y})+…+(x_n-\bar{x})(y_n-\bar{y})) \\
&= \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})(y_i-\bar{y})
\end{align}
$$

iv)
相関係数$r_{xy}$は下記のように表すことができる。
$$
\large
\begin{align}
r_{xy} &= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})/n}{\sqrt{\sum(x_i-\bar{x})^2/n}\sqrt{\sum(y_i-\bar{y})^2/n}} \\
&= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2}\sqrt{\sum(y_i-\bar{y})^2}}
\end{align}
$$

v)
$x$を横軸、$y$を縦軸に考え$\bar{x}, \bar{y}$を中心と見たときに、右上と左下に観測値があれば共分散は正の値となり、右下と左上に観測値があれば負の値となる。この共分散を分散を用いて正規化を行なったのが相関係数で、変数の関連についての指標に用いられる。

・解説
$2$変数の取り扱いにおいて重要なのが共分散と相関係数の理解です。数式だけを見ると難しいかもしれないので、図なども合わせて理解すると良いと思います。

相関係数と内積

・問題
$$
\begin{align}
r_{xy} &= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})/n}{\sqrt{\sum(x_i-\bar{x})^2/n}\sqrt{\sum(y_i-\bar{y})^2/n}} \\
&= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2}\sqrt{\sum(y_i-\bar{y})^2}}
\end{align}
$$
変数$x$と$y$の相関係数は上記のように定義される。相関係数は変数間の関係を表した指標であるが、分子が共分散、分母が分散の式で定義されていることは式からわかる。また、この相関係数の式はベクトルのなす角と内積の公式から導出できることも抑えておくと良い。

ここまでの話に関して、以下では相関係数の式を「ベクトルのなす角と内積の公式」から導出する。以下の問題に答えよ。
i) ベクトル$\vec{a}, \vec{b}$を$\displaystyle \vec{a}=\left(\begin{array}{c} a_1 \\ a_2 \end{array}\right), \vec{b}=\left(\begin{array}{c} b_1 \\ b_2 \end{array}\right)$のように表すとき、$\vec{a} \cdot \vec{b}$を$a_1, a_2, b_1, b_2$の式で表せ。
ⅱ) ベクトル$\vec{a}, \vec{b}$の内積を$\vec{a} \cdot \vec{b}$、なす角を$\theta$、それぞれのベクトルの長さを$|\vec{a}|, |\vec{b}|$と表すとき、$\vec{a} \cdot \vec{b} = |\vec{a}||\vec{b}| \cos{\theta}$が成立する。このときi)の結果と$\vec{a} \cdot \vec{b} = |\vec{a}||\vec{b}| \cos{\theta}$を用いて$\cos{\theta}$を$a_1, a_2, b_1, b_2$の式で表せ。
ⅲ) ⅱ)の途中式において$\displaystyle \vec{a}=\left(\begin{array}{c} (x_1-\bar{x}) \\ … \\ (x_n-\bar{x}) \end{array}\right), \vec{b}=\left(\begin{array}{c} (y_1-\bar{y}) \\ … \\ (y_n-\bar{y}) \end{array}\right)$を代入した際に、$\cos{\theta} = r_{xy}$が導出できることを確認せよ。

・解答
i)
ベクトルの成分とベクトルの内積については下記が成立する。
$$
\large
\begin{align}
\vec{a} \cdot \vec{b} &= \left(\begin{array}{c} a_1 \\ a_2 \end{array}\right) \cdot \left(\begin{array}{c} b_1 \\ b_2 \end{array}\right) \\
&= a_1b_1 + a_2b_2
\end{align}
$$

ⅱ)
$|\vec{a}|, |\vec{b}|$はそれぞれ下記のように表せる。
$$
\large
\begin{align}
|\vec{a}| &= \sqrt{a_1^2 + a_2^2} \\
|\vec{b}| &= \sqrt{b_1^2 + b_2^2}
\end{align}
$$
$\vec{a} \cdot \vec{b} = |\vec{a}||\vec{b}| \cos{\theta}$より、$\displaystyle \cos{\theta} = \frac{\vec{a} \cdot \vec{b}}{|\vec{a}||\vec{b}|}$が成立するので、i)の結果を元に下記のように表すことができる。
$$
\large
\begin{align}
\cos{\theta} &= \frac{\vec{a} \cdot \vec{b}}{|\vec{a}||\vec{b}|} \\
&= \frac{a_1b_1 + a_2b_2}{\sqrt{a_1^2 + a_2^2}\sqrt{b_1^2 + b_2^2}}
\end{align}
$$

ⅲ)
$\displaystyle \cos{\theta} = \frac{\vec{a} \cdot \vec{b}}{|\vec{a}||\vec{b}|}$にⅱ)に$\displaystyle \vec{a}=\left(\begin{array}{c} (x_1-\bar{x}) \\ … \\ (x_n-\bar{x}) \end{array}\right), \vec{b}=\left(\begin{array}{c} (y_1-\bar{y}) \\ … \\ (y_n-\bar{y}) \end{array}\right)$を代入すると下記のようになる。
$$
\large
\begin{align}
\cos{\theta} &= \frac{\vec{a} \cdot \vec{b}}{|\vec{a}||\vec{b}|} \\
&= \frac{(x_n-\bar{x})(y_n-\bar{y})+…+(x_n-\bar{x})(y_n-\bar{y})}{\sqrt{(x_1-\bar{x})^2+…+(x_n-\bar{x})^2}\sqrt{(y_1-\bar{y})^2+…+(y_n-\bar{y})^2}} \\
&= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum(x_i-\bar{x})^2}\sqrt{\sum(y_i-\bar{y})^2}} = r_{xy}
\end{align}
$$
上記より、$\cos{\theta} = r_{xy}$が成立する。

・解説
この問題で用いたようなベクトルのなす角や内積を用いた変形は時折出てくるので、抑えておくと良いと思います。

発展問題

記述統計まとめ 〜統計学の基礎、1変数の取り扱い、2変数の取り扱い〜

当記事では記述統計の基本事項を取りまとめる。記述統計は書籍などにわかりやすい記載が多いため、なるべく簡潔な記載となるようにまとめるようにした。
まとめるにあたっては「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の1〜3章を主に参考にした。

統計学の基本知識

近代統計学の理論と学者

「基礎統計学Ⅰ 統計学入門(東京大学出版会)」の1-1-1節では10人の学者が挙げられているが、その中からピックアップを行う。

・ガウス(Carl Friedrich Gauss, 1977-1855)
誤差理論と正規分布、最小二乗法

・ゴルトン(Francis Galton, 1822-1911)
「回帰」の導入

・カールピアソン(Karl Pearson, 1851-1936)
「母集団」、「相関係数」、$\chi^2$統計量の導入

・ゴセット(William Gosset, 1876-1937)
$t$分布の導入

・フィッシャー(Ronald Fisher, 1890-1962)
統計的推測理論の確率、実験計画法、$F$分布

記述統計と推測統計

観測された標本(sample)を元に標本について考察を行うのが記述統計である一方で、推測統計は標本(sample)を元に母集団(population)の法則を取り扱う。

ピアソンなどによって、実際に観測される標本を取り扱う記述統計と、観測はされないが標本に対して確率論を用いることで母集団について考察する推測統計は、二つを区別して取り扱われるようになった。これによって近代的な統計学理論の基礎が定まった。

推測統計では母集団に対する推定(estimation)と仮説検定(hypothesis testing)が主に取り扱われ、この基礎は主にフィッシャーによって確立された。

1変数の取り扱い

度数分布表とヒストグラム

代表値

散らばりの尺度

2変数の取り扱い

散布図

共分散と相関係数

回帰