昨日は強化学習に関数近似を組合せる方法を説明し、パラメータの更新式を導き出した。 ところで、この方法はこれまでのテーブル型の手法と矛盾したものになっていないのか、というのが気になるところ。 そこで、今日は、昨日導き出したパラメータの更新式が…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。