方策勾配法(Policy Gradient Method)の目的関数の定義と勾配の式の導出 - あつまれ統計の森

方策勾配法(Policy Gradient Method)の目的関数の定義と勾配の式の導出

方策勾配法(Policy Gradient Method)は強化学習の際に定義される方策をニューラルネットワークで定義し、勾配を用いることで方策の最適化を行う手法です。当記事では方策勾配法における目的関数の定義と勾配の式 … 続きを読む方策勾配法(Policy Gradient Method)の目的関数の定義と勾配の式の導出