一昨日はこれまでのおさらいと、ステップTD法とついて説明した。
今日は、さらにアルゴリズムを融合させて、TD()について考えていく。
モンテカルロ法とTD学習の融合(続き)
TD()法
ステップ収益は、いずれも本質的には同じ値を推定しているので、重みを使って平均化することが出来る。
つまり、平均化した収益をと表すとしたとき、
として、このを価値の推定に使うことが出来る。
TD()法は、このステップ収益を平均化する方法の一つで、各収益をに比例して重み付けする。
そうすると、となって、近いステップのものに比重を置きつつ、遠くのステップ収益も参考にするという感じになる。
実際には、なので、正規化するためにを掛けたものを重みとして使い、次のような収益を使うことになる:
この収益のことを、収益と呼ぶ。
ところで、終端となる時間ステップをとすると、これは
と書くことが出来る。
(なので、の係数はになる)
ここで、とすると、となることから、これは1ステップTD法、すなわち、TD学習と一致する。
一方、とすると、となるので、これはモンテカルロ法と一致することになる。
ステップTD法とTD()法の違い
最後、どちらも両極端にはTD学習とモンテカルロ法がいることから、違いがちょっと分かりにくいかも。
まず、ステップTD法は、の値ごとにそれぞれアルゴリズムが存在する感じ。
実際に使うのは、を固定した1つのアルゴリズム。
そして、それぞれのアルゴリズムのうち、としたものがTD学習になるし、としたものがモンテカルロ法になる。
一方、TD()法は、それぞれ存在するステップTD法を、同時に重ね合わせて同時に実行するイメージ。
ただし、全部そのまま使っては収拾がつかないので、各アルゴリズムに重み付けをして使っている感じ。
この重み付けの度合いを決定するのがで、とするとTD学習だけを使うようになって、とするとモンテカルロ法だけ使うようになる。
さて、TD()法の理論的な話はこれで終わりなんだけど、実装しようとすると、もうちょっと議論が必要。
明日以降は、その話を。
今日はここまで!
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る