強化学習について学んでみた。（その30）

昨日は強化学習に関数近似を組合せる方法を説明し、パラメータの更新式を導き出した。

ところで、この方法はこれまでのテーブル型の手法と矛盾したものになっていないのか、というのが気になるところ。
そこで、今日は、昨日導き出したパラメータの更新式が、これまでのテーブル型の手法の拡張になっていることを確認していく。

テーブル型の手法についても、パラメータをもつ関数を用いて価値ベクトルを表現することを考えてみる。

そうすると、状態価値ベクトルの場合、パラメータ $\boldsymbol{\theta} \in \mathbb{R}^{\mathcal{S}}$ を使って、

と表現できることが分かる。
ただし、 $\mathcal{I}_{ss'}$ は、

このとき、 $\frac{\partial v}{\partial \theta_{s'}} (s; \boldsymbol{\theta})$ は、

であるから、

となる。

よって、昨日のパラメータの更新式は、テーブル型の場合、具体的には

に対して

と更新することになる。

これは、状態価値と行動価値の違いはあるけれど、強化学習について学んでみた。（その27） - いものやま。で示した更新式と同等のものになっていることが分かる。

このことから、関数近似と組合せてパラメータを更新する手法も、従来のテーブル型の手法の拡張になっているということが分かる。

今日はここまで！