昨日は、前方観測的見方と後方観測的見方が等価であることを示した。
今日は、Sarsa法に適格度トレースの考えを適用したSarsa()法について説明する。
Sarsa()法
といっても、もう準備は終わっていて、強化学習について学んでみた。(その25) - いものやま。で示した更新方法を使う。
もう一度書いておくと、適格度トレースを
TD誤差を
としたとき、
と更新する。
あとはSarsa法と同じことをやればいいだけ。
具体的なアルゴリズムは、以下のとおり:
- を任意に初期化。
- 以下を繰り返す:
- すべての、について、とする。
- を初期化。
- から導かれるソフト方策を用いて行動を選択する。
- 各ステップについて、以下を繰り返す:
- 行動を行い、報酬と次状態を観測する。
- から導かれるソフト方策を用いて行動を選択する。
- すべての、について:
- 、とする。
- が終端状態なら、繰り返しを終了。
Q()・・・?
ところで、Sarsa法はこれでいいとして、Q学習は?という話。
Q学習に適格度トレースの考えを適用したアルゴリズムとしては、2つの方法が提案されているらしく、それぞれ、WatkinsのQ()、PengのQ()と呼ばれているみたい。
ただ、WatkinsのQ()については、あまり適格度トレースの恩恵を受けること出来ないみたいで、学習速度はQ学習からあまり改善されないらしい。
一方、PengのQ()はSarsa()法と同程度の性能は出るものの、実装が複雑らしい。
なので、ここでは省略。
気になる人は、本を参照。
今日はここまで!
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る