強化学習について学んでみた。（その29）

昨日は関数近似の説明をするための準備を行った。

今日は関数近似を強化学習とどのように組合せていくのか説明する。

関数近似による価値ベクトルの表現

強化学習に関数近似を組合せる場合、状態価値ベクトル $\boldsymbol{V} \in \mathbb{R}^{\mathcal{S}}$ や行動価値ベクトル $\boldsymbol{Q} \in \mathbb{R}^{\mathcal{S} \times \mathcal{A}(s)}$ を、パラメータ $\boldsymbol{\theta}$ をもった関数で近似的に表現する。

すなわち、状態価値ベクトル $\boldsymbol{V}$ なら、パラメータ $\boldsymbol{\theta}$ をもった関数 $v: \mathcal{S} \rightarrow \mathbb{R}$ を使って、

行動価値ベクトル $\boldsymbol{Q}$ なら、パラメータ $\boldsymbol{\theta}$ をもった関数 $q: \mathcal{S} \times \mathcal{A}(s) \rightarrow \mathbb{R}$ を使って、

というふうに表現する。

なお、ここで $v$ や $q$ といった関数にはいろんな関数を使うことが考えられて、シンプルな線形関数を使ったり、あるいは非線形関数を使うことも考えられる。
（ニューラルネットワークやSVR（Support Vector Regression）を使う場合、非線形関数となる）

パラメータの学習

さて、価値ベクトルを関数近似を使って表現した場合、パラメータ $\boldsymbol{\theta}$ の値が更新されることで、価値ベクトルの値も更新されていくことになる。
このとき、パラメータをどのように更新させればいいのかと考えると、観測された価値との誤差が出来るだけ小さくなるように更新するのがいいと考えられる。
そこで、最急降下法を使ってパラメータを更新する。

具体的には、時間ステップ $t$ で状態 $s_t$ が観測されたとして、

というふうに、パラメータを更新する。
なお、 $\nabla_{\boldsymbol{\theta}} v(s_t; \boldsymbol{\theta}^{(t)}) = \left( \frac{\partial v}{\partial \theta_1} (s_t; \boldsymbol{\theta}^{(t)}), \cdots, \frac{\partial v}{\partial \theta_n} (s_t; \boldsymbol{\theta}^{(t)}) \right)^{\mathrm{T}}$ である。

ここで、 $V_{s_t}$ というのは、各強化学習の手法での価値の推定を使うことになり、TD( $\lambda$ )なら $\lambda$ 収益を使うことになる。

上記のパラメータを更新する式は、元々のパラメータの値に、価値の推定の差分にステップサイズを掛けたものを、各パラメータの影響度に応じて足し込む、と読むことが出来る。
これは、TD( $\lambda$ )と比較したとき、TD( $\lambda$ )では、価値の推定の差分にステップサイズを掛けたものを、適格度トレースに応じて足し込む、となっていたわけだから、次のように表すことが出来る：