月: 2023年11月

MoE(Mixture of Experts)とSwitch Transformers

投稿日: 2023-11-292023-11-29 投稿者: lib-arts

Transformerに分岐処理を行うMoE(Mixture of Experts)を導入することで計算コストを大きく増やさずにパラメータ数を増やすことが可能になります。当記事ではこのような方針に基づいてTransfor…

投稿日: 2023-11-272023-11-23 投稿者: lib-arts

固有多項式(characteristic polynomial)は固有値を計算する際の固有方程式に用いられる多項式です。当記事ではブロック対角行列(block-diagonal matrix)の行列式の計算と、固有多項式…

投稿日: 2023-11-222023-11-21 投稿者: lib-arts

行列$A$を代入すると零行列$O$になる多項式の中で「次数が最小」かつ「最高次の係数が$1$」である多項式を最小多項式(minimal polynomial)といいます。当記事では最小多項式の定義とチャート式線形代数の演…

投稿日: 2023-11-202023-11-22 投稿者: lib-arts

固有多項式(characteristic polynomial)は固有値を計算する際の固有方程式に用いられる多項式です。当記事では固有多項式の定義・活用と、三角行列(triangular matrix)における固有多項式…

投稿日: 2023-11-182023-11-18 投稿者: lib-arts

ケーリー・ハミルトンの定理(Cayley–Hamilton theorem)は行列の次数下げなどにあたって用いられる式です。当記事では行列の固有多項式に基づくケーリー・ハミルトンの定理の一般的な式を確認した後に、$2$次…

投稿日: 2023-11-162023-11-20 投稿者: lib-arts

拡散とDenoisingに基づく拡散モデル(Diffision Model)は多くの生成モデル(generative model)に導入される概念です。当記事では正規分布のKLダイバージェンス(KL-Divergence…

投稿日: 2023-11-142023-11-16 投稿者: lib-arts

拡散とDenoisingに基づく拡散モデル(Diffision Model)は多くの生成モデル(generative model)に導入される概念です。当記事ではイェンセンの不等式(Jensen’s Ineq…

投稿日: 2023-11-122023-12-10 投稿者: lib-arts

論文の本文中では「oo et al., yyyy」のように先行研究を参照することが多いです。それぞれ「References」に具体的な論文を確認することができる一方で、都度確認するのは大変です。そこで当記事では論文の著者…

投稿日: 2023-11-102023-11-16 投稿者: lib-arts

拡散とDenoisingに基づく拡散モデル(Diffision Model)は多くの生成モデル(generative model)に導入される概念です。当記事では拡散モデルの概要と式定義、イェンセンの不等式などを用いるl…

投稿日: 2023-11-062023-11-06 投稿者: lib-arts

Routing TransformerのようなContent-based Sparse Attentionでは最大内積探索(MIPS; Maximum Inner Product Search)と類似した処理が行われます…