いものやま。

雑多な知識の寄せ集め

2015-10-16から1日間の記事一覧

強化学習について学んでみた。(その19)

昨日はTD学習の考え方について説明した。 今日は方策オン型制御であるSarsa法と、方策オフ型制御であるQ学習について説明していく。 Sarsa法 Sarsa法は方策オン型制御のアルゴリズムの1つで、方策としてソフト方策を使うことで知識利用と探査のバランスをと…