昨日は方策反復について説明し、実際にプログラムも書いてみた。 今日はもう一つのアルゴリズムについて説明する。 価値反復 方策反復の場合、方策評価の中で何度もスイープを行うので、方策改善が行われるまでに時間がかかる。 なら、1回スイープを行うごと…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。