昨日は強化学習に関数近似を組合せる方法を説明し、パラメータの更新式を導き出した。
ところで、この方法はこれまでのテーブル型の手法と矛盾したものになっていないのか、というのが気になるところ。
そこで、今日は、昨日導き出したパラメータの更新式が、これまでのテーブル型の手法の拡張になっていることを確認していく。
テーブル型の関数
テーブル型の手法についても、パラメータをもつ関数を用いて価値ベクトルを表現することを考えてみる。
そうすると、状態価値ベクトルの場合、パラメータを使って、
と表現できることが分かる。
ただし、は、
このとき、は、
であるから、
となる。
よって、昨日のパラメータの更新式は、テーブル型の場合、具体的には
に対して
と更新することになる。
これは、状態価値と行動価値の違いはあるけれど、強化学習について学んでみた。(その27) - いものやま。で示した更新式と同等のものになっていることが分かる。
このことから、関数近似と組合せてパラメータを更新する手法も、従来のテーブル型の手法の拡張になっているということが分かる。
今日はここまで!
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る