2015-10-15から1日間の記事一覧

強化学習について学んでみた。（その18）

技術 AI 強化学習

前回までは、モンテカルロ法について説明していた。今日からはTD学習（Temporal Difference Learning: 時間的差分学習）について説明していく。おさらいまず、強化学習のベースとなる考え方は、Bellman方程式を解いて、ある方策の元での状態や行動の価値…