方策勾配法の学習の安定化にあたっては、TRPO(Trust Region Policy Optimization)やPPO(Proximal Policy Optimization)のようにステップ幅の調整が解決策になり…
Hello Statisticians!
方策勾配法の学習の安定化にあたっては、TRPO(Trust Region Policy Optimization)やPPO(Proximal Policy Optimization)のようにステップ幅の調整が解決策になり…
方策勾配法の学習の安定化にあたっては、TRPO(Trust Region Policy Optimization)やPPO(Proximal Policy Optimization)のようにステップ幅の調整が解決策になり…
特定の確率分布の期待値を別の確率分布からサンプリングした値に基づいて計算する手法を重点サンプリング(Importance Sampling)といいます。当記事では重点サンプリングの数式表記とPythonを用いた計算例の確…
方策勾配法(Policy Gradient Method)を改善させたアルゴリズムには、REINFORCE・ベースライン・Actor-Criticなどのアルゴリズムがあります。当記事ではこれらの$3$つのアルゴリズムにつ…
方策勾配法(Policy Gradient Method)は強化学習の際に定義される方策をニューラルネットワークで定義し、勾配を用いることで方策の最適化を行う手法です。当記事では方策勾配法における目的関数の定義と勾配の式…
『Pythonで学ぶNLPの基礎とLLMへの反映』のサポートページです。主に誤植が見つかった場合の正誤表の作成やカラー画像の確認が行えるように作成を行いました。誤植につきましては見つかり次第都度追加いたしますので、お気づ…
技術書典$14$で頒布を行った『直感的に理解するTransformer』の印刷版のサポートページです。主に誤植が見つかった場合の正誤表の作成やカラー画像の確認が行えるように作成を行いました。誤植につきましては見つかり次第…
グラフニューラルネットワーク(GNN)が取り上げられることはそれほど多くはない一方で、Transformerを理解するにあたってはGNNを理解しておくことで直感的な理解が可能になります。当記事ではGNNの基本的な内容につ…
昨今のDeepLearningの研究を席巻するTransformerの解説は複雑なものが多く、なかなか直感的に理解するのは難しいです。そこで当記事では「グラフ理論」や「ネットワーク分析」の知見を元に直感的にTransfo…