強化学習について学んでみた。（その24）

一昨日はこれまでのおさらいと、 $n$ ステップTD法とついて説明した。

今日は、さらにアルゴリズムを融合させて、TD( $\lambda$ )について考えていく。

モンテカルロ法とTD学習の融合（続き）

TD( $\lambda$ )法

$n$ ステップ収益は、いずれも本質的には同じ値を推定しているので、重みを使って平均化することが出来る。

つまり、平均化した収益を $R^{\mbox{avg}}_t$ と表すとしたとき、

として、この $R^{\mbox{avg}}_t$ を価値の推定に使うことが出来る。

TD( $\lambda$ )法は、この $n$ ステップ収益を平均化する方法の一つで、各収益を $\lambda^{n-1} \: (0 \le \lambda \le 1)$ に比例して重み付けする。
そうすると、 $R^{(1)} : R^{(2)} : R^{(3)} : \cdots = 1 : \lambda : \lambda^2 : \cdots$ となって、近いステップのものに比重を置きつつ、遠くのステップ収益も参考にするという感じになる。

実際には、 $1 + \lambda + \lambda^2 + \cdots \rightarrow \frac{1}{1-\lambda} \: (n \rightarrow \infty)$ なので、正規化するために $1-\lambda$ を掛けたものを重みとして使い、次のような収益 $R^{\lambda}_t$ を使うことになる：

この収益 $R^{\lambda}_t$ のことを、 $\lambda$ 収益と呼ぶ。

ところで、終端となる時間ステップを $T$ とすると、これは

と書くことが出来る。
（ $(1 - \lambda)(1 + \lambda + \lambda^2 + \cdots + \lambda^{T-t-2}) = 1 - \lambda^{T-t-1}$ なので、 $R_t$ の係数は $\lambda^{T-t-1}$ になる）

ここで、 $\lambda = 0$ とすると、 $R^{\lambda}_t = R^{(1)}_t$ となることから、これは1ステップTD法、すなわち、TD学習と一致する。

一方、 $\lambda = 1$ とすると、 $R^{\lambda}_t = R_t$ となるので、これはモンテカルロ法と一致することになる。

$n$ ステップTD法とTD( $\lambda$ )法の違い

最後、どちらも両極端にはTD学習とモンテカルロ法がいることから、違いがちょっと分かりにくいかも。

まず、 $n$ ステップTD法は、 $n$ の値ごとにそれぞれアルゴリズムが存在する感じ。
実際に使うのは、 $n$ を固定した1つのアルゴリズム。
そして、それぞれのアルゴリズムのうち、 $n=1$ としたものがTD学習になるし、 $n \rightarrow \infty$ としたものがモンテカルロ法になる。

一方、TD( $\lambda$ )法は、それぞれ存在する $n$ ステップTD法を、同時に重ね合わせて同時に実行するイメージ。
ただし、全部そのまま使っては収拾がつかないので、各アルゴリズムに重み付けをして使っている感じ。
この重み付けの度合いを決定するのが $\lambda$ で、 $\lambda = 0$ とするとTD学習だけを使うようになって、 $\lambda = 1$ とするとモンテカルロ法だけ使うようになる。

さて、TD( $\lambda$ )法の理論的な話はこれで終わりなんだけど、実装しようとすると、もうちょっと議論が必要。
明日以降は、その話を。

今日はここまで！

強化学習

作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
出版社/メーカー: 森北出版
発売日: 2000/12/01
メディア: 単行本（ソフトカバー）
購入: 5人クリック: 76回
この商品を含むブログ (29件) を見る

いものやま。

雑多な知識の寄せ集め

強化学習について学んでみた。（その24）

モンテカルロ法とTD学習の融合（続き）

TD( $\lambda$ )法

$n$ ステップTD法とTD( $\lambda$ )法の違い

モンテカルロ法とTD学習の融合（続き）

TD()法

ステップTD法とTD()法の違い

TD( $\lambda$ )法

$n$ ステップTD法とTD( $\lambda$ )法の違い