いものやま。

雑多な知識の寄せ集め

強化学習について学んでみた。（その26）

技術 AI 強化学習

昨日は、適格度トレースについて説明した。

ただ、元々の前方観測的見方と、適格度トレースを使った後方観測的見方が等価であるかどうか、という問題が残った。
今日はそれについて。

前方観測的見方と後方観測的見方の等価性

さて、正直、この説明は本来なら飛ばして、本を読んでね、としたかったんだけど、そう出来なかったのが、本の数式の展開が途中をすっ飛ばしすぎていて、自力で計算するとかなり大変じゃないかな、と思ったから。

じっくり式展開していくよ・・・

なお、ここでは本と同じように、行動価値ではなく状態価値について言及して、記法も本に従うけど、簡単に読み替えられるはず。

前方観測的見方である $\lambda$ 収益 $R^{\lambda}_{t}$ による時刻 $t$ での状態価値 $V$ の増分を $\Delta V^{\lambda}_t$ で表すとしたとき、これは

となる。

そして、エピソード全体での増分の合計は、各状態 $s \in \mathcal{S}$ ごとに、

となる。
（※ここ、本だと記述が混乱していて、 $\Delta V^{\lambda}_t$ が2つ前の式の意味で使われている場合もあるし、 $\Delta V^{\lambda}_t = \alpha ( R^{\lambda}_t - V_t(s) )$ の意味で使われている場合もある。以下では $\mathcal{I}_{ss_t}$ を使うので、後者の意味で捉えること）

一方、後方観測的見方である適格度トレースによる時刻 $t$ での状態価値 $V$ の増分を $\Delta V^{TD}_t (s)$ で表すとしたとき、これは

となる。

そして、エピソード全体での増分の合計は、各状態 $s \in \mathcal{S}$ ごとに、

となる。

したがって、任意の状態 $s \in \mathcal{S}$ について、

であることを示せれば、前方観測的見方による状態価値の更新量と、後方観測的見方による状態価値の更新量が等しいことが分かるので、すなわち、前方観測的見方と後方観測的見方が等価であることが示されることになる。

まず、左辺について。

適格度トレース $e_t(s)$ は、

と書くことが出来るので、左辺は、

と表すことが出来る。

次に、右辺について。

と計算できるので、右辺は、

と表すことが出来る。

以上より、任意の状態 $s \in \mathcal{S}$ について、示したい等式が成り立つことが示された。

この計算、辛かった・・・（ $\TeX$ での数式の打ち込みも辛かった・・・）

今日はここまで！

強化学習

作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
出版社/メーカー: 森北出版
発売日: 2000/12/01
メディア: 単行本（ソフトカバー）
購入: 5人クリック: 76回
この商品を含むブログ (29件) を見る