TRPO(Trust Region Policy Optimization)まとめ 投稿日: 2023-07-202023-07-20 投稿者: lib-arts 方策勾配法の学習の安定化にあたっては、TRPO(Trust Region Policy Optimization)やPPO(Proximal Policy Optimization)のようにステップ幅の調整が解決策になり… 全文を読む