昨日は、適格度トレースについて説明した。
ただ、元々の前方観測的見方と、適格度トレースを使った後方観測的見方が等価であるかどうか、という問題が残った。
今日はそれについて。
前方観測的見方と後方観測的見方の等価性
さて、正直、この説明は本来なら飛ばして、本を読んでね、としたかったんだけど、そう出来なかったのが、本の数式の展開が途中をすっ飛ばしすぎていて、自力で計算するとかなり大変じゃないかな、と思ったから。
じっくり式展開していくよ・・・
なお、ここでは本と同じように、行動価値ではなく状態価値について言及して、記法も本に従うけど、簡単に読み替えられるはず。
前方観測的見方である収益による時刻での状態価値の増分をで表すとしたとき、これは
となる。
そして、エピソード全体での増分の合計は、各状態ごとに、
となる。
(※ここ、本だと記述が混乱していて、が2つ前の式の意味で使われている場合もあるし、の意味で使われている場合もある。以下ではを使うので、後者の意味で捉えること)
一方、後方観測的見方である適格度トレースによる時刻での状態価値の増分をで表すとしたとき、これは
となる。
そして、エピソード全体での増分の合計は、各状態ごとに、
となる。
したがって、任意の状態について、
であることを示せれば、前方観測的見方による状態価値の更新量と、後方観測的見方による状態価値の更新量が等しいことが分かるので、すなわち、前方観測的見方と後方観測的見方が等価であることが示されることになる。
まず、左辺について。
適格度トレースは、
と書くことが出来るので、左辺は、
と表すことが出来る。
次に、右辺について。
と計算できるので、右辺は、
と表すことが出来る。
以上より、任意の状態について、示したい等式が成り立つことが示された。
この計算、辛かった・・・(での数式の打ち込みも辛かった・・・)
今日はここまで!
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る