2015-09-07から1日間の記事一覧

強化学習について学んでみた。（その13）

技術 AI 強化学習 Ruby

昨日は方策反復について説明し、実際にプログラムも書いてみた。今日はもう一つのアルゴリズムについて説明する。価値反復方策反復の場合、方策評価の中で何度もスイープを行うので、方策改善が行われるまでに時間がかかる。なら、1回スイープを行うごと…