『直感的に理解するTransformer』サポートページ【印刷版】

技術書典$14$で頒布を行った『直感的に理解するTransformer』の印刷版のサポートページです。主に誤植が見つかった場合の正誤表の作成やカラー画像の確認が行えるように作成を行いました。誤植につきましては見つかり次第都度追加いたしますので、お気づきの方は気軽にご指摘ください。

https://hello-stats.booth.pm/items/4781879

追加コンテンツ

Multi Head Attention

直感的に理解するTransformer」の$A.3$の「Multi Head Attention」の処理は正確には論文の内容と一致しないことにご注意ください。具体的には「単に分割」で表したところが「パラメータ行列を用いて線形写像での計算」に対応します。以下に論文の数式などをまとめました。

Transformer論文では下記のようにMulti Head Attentionが表されます。
$$
\large
\begin{align}
\mathrm{MultiHead} (Q,K,V) &= \mathrm{Concat}(\mathrm{head}_{1}, \cdots , \mathrm{head}_{h}) W^{O} \quad (1.1) \\
\mathrm{head}_{i} &= \mathrm{Attention}(QW_{i}^{Q}, KW_{i}^{K}, VW_{i}^{V}) \quad (1.2) \\
\mathrm{Attention}(Q, K, V) &= \mathrm{Softmax} \left( \frac{QK^{\mathrm{T}}}{\sqrt{d_{k}}} \right) \quad (1.3)
\end{align}
$$

Multi Head Attention処理の理解にあたって着目すべきは$(1.2)$式であり、$Q, K, V$にそれぞれ$W_{i}^{Q} \in \mathbb{R}^{d_{model} \times d_{k}}, W_{i}^{K} \in \mathbb{R}^{d_{model} \times d_{k}}, W_{i}^{V} \in \mathbb{R}^{d_{model} \times d_{v}}$をかけることでそれぞれの単語に対応する内部表現を$Q, K$については$d_k$次元、$V$については$d_v$次元にそれぞれ変換した上でDot Product Attention処理を行います。その後に$(1.1)$式で表されるように$h$個のヘッドを連結し、$W_{i}^{O} \in \mathbb{R}^{h d_v \times d_{model}}$を用いて再度パラメータ処理を行います。

Transformer論文ではヘッドの数を表す$h$を$h=8$、各単語の内部表現を$d_{model}=512$で表すのがデフォルトです。また、基本的には$h d_{k} = d_{model}, h d_{v} = d_{model}$であるので$d_{k}=d_{v}=64$がデフォルトになります。詳細の設定は論文のTable.$3$を参照すると良いです。

Transformer論文Table.$3$

上図の「base」がデフォルトのTransformerの構成、「big」がより大きなTransformerの構成にそれぞれ対応します。関連で総パラメータ数の概算についても下記で取り扱ったので合わせてご確認ください。

正誤表

初版第1刷

ページ・行数$\times$
P.57 l.19$P(\mathbf{X})=P(x_0,\cdots,x_7)$の確率が大変小さくなることで$P(\mathbf{X})=P(x_0,\cdots,x_7)$の確率が大変小さくなり
P.75 l.5単語のベクトルを分割してこれまでの処理を「並列で行う」と同義単語 のベクトルを分割してこれまでの処理を「並列で行う」ことに類似
P.83 l.4 教習ラベル教師ラベル

カラー画像の確認

第2章

図$2.1 \,$ 三角関数のグラフ
図$2.3 \,$ 行列の積とMLPの関係性

第3章

図$3.1 \,$ 東京メトロホームページより
図$3.4 \,$ $n=5, d=5$でノードに特徴量を割り当てた場合
図$3.8 \,$ A Comprehensive Survey on Graph Neural Networks. Fig.$2$b

第4章

図$4.1 \,$ Bag of Words
形態素解析の実行例

第5章

図$5.4 \,$ Transformer論文Fig.$1$を改変
図$5.5 \,$ TransformerとMPNN型GNNの各層における処理の概要

Appendix

図A.$7 \,$ 実行結果①
図A.$9 \,$ 実行結果③

「『直感的に理解するTransformer』サポートページ【印刷版】」への1件の返信

コメントは受け付けていません。