方策勾配法(Policy Gradient Method)を改善させたアルゴリズムには、REINFORCE・ベースライン・Actor-Criticなどのアルゴリズムがあります。当記事ではこれらの$3$つのアルゴリズムにつ…
Hello Statisticians!
方策勾配法(Policy Gradient Method)を改善させたアルゴリズムには、REINFORCE・ベースライン・Actor-Criticなどのアルゴリズムがあります。当記事ではこれらの$3$つのアルゴリズムにつ…
方策勾配法(Policy Gradient Method)は強化学習の際に定義される方策をニューラルネットワークで定義し、勾配を用いることで方策の最適化を行う手法です。当記事では方策勾配法における目的関数の定義と勾配の式…
三角関数を用いて定義される回転行列(rotation matrix)は主に$2$次元のベクトルを原点の周りに回転させるベクトルを表しますが、回転行列は直交行列(orthogonal matrix)の一つです。当記事では回…
過去問 過去問題は統計検定公式が問題と解答例を公開しています。こちらを参照してください。 解答 $\boxed{\mathsf{8}}$ : $③$ フィッシャーの三原則とは「反復」,「無作為化」,「局所管理」である.$…
ベクトル空間を部分空間(subspace)に分解するにあたっては直和(direct sum)かどうかに着目する必要があります。当記事では直和の定義・部分空間の和が直和かどうかの判定・部分空間の直和分解についてそれぞれ取り…