いものやま。

雑多な知識の寄せ集め

2015-10-02から1日間の記事一覧

強化学習について学んでみた。(その16)

昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。 今日は、開始点探査の仮定を外す方法について考えていく。 方策オン型手法と方策オフ型手法 まず、開始点探査の仮定を外す方法として、大きく分けて2通りの方法が考えられる。 …