MoE(Mixture of Experts)とSwitch Transformers 投稿日: 2023-11-292023-11-29 投稿者: lib-arts Transformerに分岐処理を行うMoE(Mixture of Experts)を導入することで計算コストを大きく増やさずにパラメータ数を増やすことが可能になります。当記事ではこのような方針に基づいてTransfor… 全文を読む