いものやま。

雑多な知識の寄せ集め

2015-08-22から1日間の記事一覧

強化学習について学んでみた。(その6)

昨日はn本腕バンディットをプログラムで書いてみた。 今日はn本腕バンディット問題に対するアルゴリズムを考えるために、「行動の価値」について考えていく。 行動の価値 どのレバーを下すのかを考えるときに、これまでの結果から、出来るだけ良さげなレバー…