いものやま。

雑多な知識の寄せ集め

2015-10-15から1日間の記事一覧

強化学習について学んでみた。(その18)

前回までは、モンテカルロ法について説明していた。 今日からはTD学習(Temporal Difference Learning: 時間的差分学習)について説明していく。 おさらい まず、強化学習のベースとなる考え方は、Bellman方程式を解いて、ある方策の元での状態や行動の価値…