いものやま。

雑多な知識の寄せ集め

2015-09-07から1日間の記事一覧

強化学習について学んでみた。(その13)

昨日は方策反復について説明し、実際にプログラムも書いてみた。 今日はもう一つのアルゴリズムについて説明する。 価値反復 方策反復の場合、方策評価の中で何度もスイープを行うので、方策改善が行われるまでに時間がかかる。 なら、1回スイープを行うごと…