参照する書籍によって数式表記が異なるので、統計の森で統一的に用いる数式表記に関して以下に取りまとめました。書籍の章末課題の解答作成時など、その書籍の表記が用いやすい場合などもあるので必ずしも「統一」はしませんが、概ねここでの表記に基づいて諸々の作成を行います。
数式表記は「読みやすさ」や「計算表記の行いやすさ」、「主要文献の表記」などを重視して選定を行いました。
Contents
微分・積分
$1$変数関数の微分
関数の微分の表記を行う際に、$1$変数関数$f(x)$のように$x$で微分することが自明な場合は導関数を$f'(x), f^{”}(x), f^{(3)}(x), …, f^{(n)}(x), …$のように表されることが多い。よって$1$変数関数の微分にあたっては$f'(x), f^{”}(x), f^{(3)}(x), …, f^{(n)}(x), …$の表記を主に用いる。
一方で式定義にあたって$y=f(x)$で関数が表される場合もある。この際に$y$を$x$で微分することを表すにあたって、$\displaystyle \frac{dy}{dx}, \frac{d^2y}{dx^2}, …$などもよく用いられる。
$\displaystyle \frac{dy}{dx}$のような表記は「確率変数の変換」や「合成関数の微分」のように、どの変数をどの変数で微分を行うかがわからなくなりやすい場合に用いられやすい。よって「微分対象」と「微分する変数」を強調する場合は$\displaystyle \frac{dy}{dx}$の表現を用いる。
・参考
演習 「確率分布」の「変数変換」
演習 合成関数の微分とロジスティック回帰のパラメータ推定
多変数関数の微分
$f(x,y)$のような多変数関数の微分を考える際は「偏微分」のように$1$つの変数に関して微分を考えることが多い。$f(x,y)$の$x, y$に関する偏微分はそれぞれ下記のような記号で一般的に表される。
$$
\large
\begin{align}
& \frac{\partial f(x,y)}{\partial x}, \frac{\partial^2 f(x,y)}{\partial x^2}, \cdots \\
& \frac{\partial f(x,y)}{\partial y}, \frac{\partial^2 f(x,y)}{\partial y^2}, \cdots
\end{align}
$$
ベクトル・行列
ベクトルの表記
ベクトルの表記にあたっては数Bのベクトルなどでは$\vec{a}=(1,2)$のように表されることが多いが、統計学や機械学習の領域ではベクトルの縦表記を用いて下記のような表記がなされることが多い。
$$
\large
\begin{align}
\mathbf{x} = \left(\begin{array}{c} x_{1} \\ \vdots \\ x_{n} \end{array} \right) \quad (1)
\end{align}
$$
上記のようなベクトルの縦表記はベクトルの演算にあたって要素が見やすい。演算の具体例を下記に示す。
$$
\large
\begin{align}
(1,2,3) + (1,3,5) &= (2,5,8) \\
\left(\begin{array}{c} 1 \\ 2 \\ 3 \end{array} \right) + \left(\begin{array}{c} 1 \\ 3 \\ 5 \end{array} \right) &= \left(\begin{array}{c} 2 \\ 5 \\ 8 \end{array} \right)
\end{align}
$$
上記は要素が$3$つだが、要素が増える・項の数が増えるなどの際は縦表記でないと見にくい。統計学や機械学習では主にサンプルをベクトルの要素に対応させるので、ベクトルは基本的に縦表記を用いる。
また、$(1)$式ではベクトルを$\mathbf{x}$のように表記したが、下記で表す多次元正規分布の確率密度関数のような場合などはTeXが複雑になるので、ベクトルを$x$、要素を$x_{1}, \cdots, x_{n}$で表す場合がある。
$$
\large
\begin{align}
\mathcal{N}(\mathbf{x}|\mathbf{\mu},\mathbf{\Sigma}) = \frac{1}{(2 \pi)^{D/2}} \frac{1}{|\mathbf{\Sigma}|^{1/2}} \exp \left[ -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{\mu}) \right]
\end{align}
$$
一方でベクトルは一般的には$\mathbf{x}$のように表されることが多いので、文献に合わせる場合や式全体がそれほど複雑でない場合などは$\mathbf{x}$を主に用いる。使い分けに関しては文献表記をそのまま用いる以外は都度定義を行うので、ここではあくまで方針のみをまとめた。
行列の表記
行列の表記は基本的にはベクトルとさほど変わらないが、ベクトルは小文字、行列は大文字で表されることが多い。具体的には下記のように$n \times n$行列$\mathbf{X}$を定義する。
$$
\large
\begin{align}
\mathbf{X} = \left(\begin{array}{ccc} x_{11} & \cdots & x_{1n} \\ \vdots & \ddots & \vdots \\ x_{n1} & \cdots & x_{nn} \end{array} \right) \quad (2)
\end{align}
$$
行列はベクトル同様にTeXの簡略化にあたって$\mathbf{X}$ではなく$X$を用いる場合がある。当項では以下、$X$のような表記を用いて表す。
統計学や機械学習の分野で行列表記を考えるにあたっての文字の選定はある程度慣用的に定まっているので、「統計の森」でもそれらをなるべく用いる。以下に具体例をまとめる。
・$X,Y$
$X,Y$は統計学では説明変数と目的変数を表すにあたって主に用いられる。ここで$X,Y$の行がサンプル、列が$X$は多変量、$Y$は分類クラスにそれぞれ対応する。
重回帰問題のような場合、目的変数は各サンプルにつき$1$つであるので、$Y$は$n \times 1$行列となり、小文字の$y$を用いて表す場合が多い。よって、回帰問題の場合は観測値を$(X,y)$のように表すことが多いことも抑えておくと良い。
・$\Sigma, \Lambda$
$\Sigma, \Lambda$はそれぞれ共分散行列(covariance matrix)、精度行列(precision matrix)を表すのに用いられるので「統計の森」でも同様に表記を用いる。それぞれの定義により$\Lambda=\Sigma^{-1}$が成立する。
また、$\Lambda$は行列の対角化の際の対角行列で用いられることも多い。一方で「精度行列」と「対角行列」を混同するほど同時に用いられることは少ないので、対角行列も基本的には$\Lambda$で表現する。
・$O$
$O$は零行列を表す際に用いられることが多いので統計の森でも同様な表記を用いる。
・$I_{n}, E_{n}$
$n \times n$の単位行列を表すにあたっては$I_{n}, E_{n}$が用いられることが多い。$E$は高校数学で用いられることが多い一方で、統計学・機械学習では$I_{n}$が用いられることが多い。よって統計の森では単位行列を主に$I_{n}$で表す。
・$U$
$U$は直交行列を表す際に用いられることが多いが、直交行列は固有ベクトルの$u_{i}$を元に構成できることを鑑みると妥当であると考えられる。よって、直交行列は主に$U$で表す。
・$A,B,C,…$
$A,B,C$のような行列表記は特段の定めがない場合に用いられやすいので、統計の森でも特段の定めがない場合は$A,B,C,…$などを用いる。
行列表記は「パターン認識と機械学習」で頻繁に用いられるので、上記は主に「パターン認識と機械学習」の表記に基づく。
ベクトル・行列の要素
ベクトル・行列の要素をフォーマルに定義する際は下記のように定義することが多い。
$$
\large
\begin{align}
x &= \left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array} \right) \\
A &= \left(\begin{array}{ccc} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots \\ a_{n1} & \cdots & a_{nn} \end{array} \right)
\end{align}
$$
一方で、行列$AB$の$(i,j)$成分のように、新たに定義をすると冗長になる場合もある。こういった際に$(AB)_{ij}$のように要素を表す表記を用いると定義が行いやすい。「転置行列」の「行列の成分表示」でもまとめたが、$(AB)_{ij}$のような要素の表記は複雑な行列演算を行う際に有用であるので、「統計の森」でも用いる。一方で、使用にあたっては「行列$AB$の$(i,j)$成分$(AB)_{ij}$は下記のように…」のような表現を用いることで、なるべくミスリードにならないような表記になるよう注意する。
ベクトル・行列の転置
ベクトル・行列の転置は「T」を用いて表されることが多いが、見やすさの観点から「T」の書式は「\mathrm{T}」を用いた$\mathrm{T}$になるべく統一する。この書式は「パターン認識と機械学習」と同様な書式である。
また、ベクトルの転置を考える際は「ベクトルの表記」で取り扱ったように、縦に要素が並ぶ形式で定義されることは抑えておくと良い。よってベクトルの転置は要素が横に並ぶ。このことはベクトルの内積を行列積で表すことと対応する。以下に具体的に定義したベクトルを元に確認する。
$$
\large
\begin{align}
x &= \left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array} \right) \\
x^{\mathrm{T}} &= \left(\begin{array}{ccc} x_1 & \cdots & x_n \end{array} \right) \\
x^{\mathrm{T}} x &= \left(\begin{array}{ccc} x_1 & \cdots & x_n \end{array} \right)\left(\begin{array}{c} x_1 \\ \vdots \\ x_n \end{array} \right) = \sum_{i=1}^{n} x_{i}^2
\end{align}
$$
行列式
行列$A$の行列式は$\det(A)=|A|$のように定義されるが、$|A|$の表記がシンプルなので「統計の森」では主に$|A|$を用いる。一方で行列式であることを強調するにあたって、$\det$などを用いる場合もある。
ベクトル・行列の微分
確率変数・確率分布
確率変数
確率変数は確率分布などを考える際に「確率を考える対象を表す変数」である。通常の関数の変数は$x$や$y$で表されがちだが、統計学の教科書では確率を変数を$X$や$Y$で表すことが多い。
「東京大学出版」の「赤本」・「青本」や「統計検定準$1$級」対応の「統計学実践ワークブック」などでは確率変数を$X,Y$で表されるので、統計の森では確率変数を$X,Y$のように表記する。具体的には「$X=1$の確率が$0.3$」や「$X=k$の確率が$\pi_k$」を下記のように表記する。
$$
\large
\begin{align}
P(X=1) &= 0.3 \\
P(X=k) &= \pi_k
\end{align}
$$