いものやま。

雑多な知識の寄せ集め

2015-08-24から1日間の記事一覧

強化学習について学んでみた。(その8)

昨日はグリーディ法とグリーディ法を扱った。 今日はn本腕バンディット問題に対する別のアルゴリズムを考えていく。 ソフトマックス法 グリーディ法では、探査を行うために、の確率でランダムに行動を選択していた。 もう一つ、探査を行うための方法として、…