【上級】データサイエンス 数学ストラテジスト 公式問題集 解答例まとめ Q.41〜50

「データサイエンス 数学ストラテジスト 上級」はデータサイエンスの基盤である、確率・統計、線形代数、微積分、機械学習、プログラミングなどを取り扱う資格試験です。当記事では「日本数学検定協会」作成の「公式問題集」の演習問題$41$〜$50$の解答例を取り扱いました。

・数学検定まとめ
https://www.hello-statisticians.com/math_certificate

演習問題

Q.41

$CBAx$を計算するにあたって、$C$が$4$行$2$列、$A$が$3$行$3$列の行列であるので、$B$は$2$行$3$列の行列でなければならない。よって$(2)$が正しい。

Q.42

$$
\large
\begin{align}
\frac{1}{N} \sum_{i=1}^{N} (y_{i} – \hat{y}_{i})^{2}
\end{align}
$$

$\displaystyle \sum$の定義に基づいて、上記の式は下記のように表すことができる。
$$
\large
\begin{align}
\frac{1}{N} \sum_{i=1}^{N} (y_{i} – \hat{y}_{i})^{2} = \frac{(y_{1} – \hat{y}_{1})^{2} + \cdots (y_{N} – \hat{y}_{N})^{2}}{N}
\end{align}
$$

よって$(4)$が正しい。

Q.43

$$
\large
\begin{align}
f(x) = \frac{1}{1 + \exp{[-(a+bx)]}}
\end{align}
$$

$a=-2, b=0.1$を代入すると、$f(x)$は下記のように表せる。
$$
\large
\begin{align}
f(x) = \frac{1}{1 + \exp{[-(0.1x-2)]}}
\end{align}
$$

ここで$x=20$のとき$\exp{[-(0.1x-2)]} = e^{0} = 1$より、$f(20)=0.5$が成立する。また、$x \to -\infty$のとき$f(x) \to 0$、$x \to \infty$のとき$f(x) \to 1$が成立する。よって$(2)$が正しい。

・解説
$\displaystyle g(y) = \frac{1}{1 + \exp{(-y)}}$がシグモイド関数に着目すると、シグモイド関数のグラフの形状より$(2)$を選ぶことができます。解答例では検算も兼ねて計算によってグラフの選択を行いました。

Q.44

$(A)$の値を$n_A$とおくと、再現率$p_{r}$、適合率$p_{pre}$はそれぞれ下記のように計算できる。
$$
\large
\begin{align}
p_{r} &= \frac{1236}{1384} \\
p_{pre} &= \frac{1236}{1236 + n_A}
\end{align}
$$

ここで$F$値を$F$とおくと、$F^{-1}$は下記のように表すことができる。
$$
\large
\begin{align}
F^{-1} &= \frac{1}{2} \left( \frac{1}{p_{r}} + \frac{1}{p_{pre}} \right) \\
&= \frac{1}{2} \left( \frac{1384}{1236} + \frac{1236+n_A}{1236} \right) \\
&= \frac{2620 + n_A}{2 \cdot 1236}
\end{align}
$$

ここで$F \geq 0.8$が成立するとき、$n_A$の範囲は下記のように得られる。
$$
\large
\begin{align}
F & \geq 0.8 \\
\left( \frac{2620 + n_A}{2 \cdot 1236} \right)^{-1} & \geq 0.8 \\
\frac{2 \cdot 1236}{2620 + n_A} & \geq 0.8 \\
2 \cdot 1236 & \geq 0.8(2620 + n_A) \\
0.8 n_A & \leq 2 \cdot 1236 – 0.8 \cdot 2620 \\
n_A & \leq \frac{2 \cdot 1236 \cdot 10}{8} – 2620 \\
n_A & \leq 470
\end{align}
$$

よって$(5)$が正しい。

Q.45

BとD、AとCの順にクラスタの作成が行われるので$(5)$が正しい。

Q.46

$f(x,y)=\log{(x^{2}+2y^{2})}$の点$(4,3)$における勾配ベクトル$\displaystyle \nabla f(x,y) |_{x=4,y=3}$は下記のように計算できる。
$$
\large
\begin{align}
\nabla f(x,y) |_{x=4,y=3} &= \left( \begin{array}{c} \displaystyle \frac{\partial f(x,y)}{\partial x} \\ \displaystyle \frac{\partial f(x,y)}{\partial y} \end{array} \middle) \right|_{x=4,y=3} \\
&= \left( \begin{array}{c} \displaystyle \frac{2x}{x^{2}+2y^{2}} \\ \displaystyle \frac{4y}{x^{2}+2y^{2}} \end{array} \middle) \right|_{x=4,y=3} \\
&= \frac{1}{16+18} \left( \begin{array}{c} 8 \\ 12 \end{array} \right) = \left( \begin{array}{c} \displaystyle \frac{4}{17} \\ \displaystyle \frac{6}{17} \end{array} \right)
\end{align}
$$

上記より$(3)$が正しい。

Q.47

それぞれの式の定義より$(4)$が正しい。

Q.48

左上に重ねて計算した際に$(4)$の計算結果のみ$-3$が得られる。よって$(4)$が正しい。

Q.49

$(5)$が正しい。

Q.50

単語の出現回数はそれぞれ下記のような表で表される。

単語 文書A 文書B 文書C
people $3$ $1$ $0$
of $1$ $2$ $0$
you $0$ $0$ $2$
by $1$ $0$ $0$
this $0$ $0$ $0$
all $10$ $13$ $9$

$2$つの文書で出現する場合、IDFの値が$\displaystyle \log_{2}{\frac{3}{2+1}}=0$となる。よって、$1$つの文書にしか出現しないかつTFの値が$\displaystyle \frac{2}{9}$である$(3)$が正しい。