昨日はモンテカルロ-ES法を使ってブラックジャックのAIをプログラミングした。
今日は、開始点探査の仮定を外す方法について考えていく。
方策オン型手法と方策オフ型手法
まず、開始点探査の仮定を外す方法として、大きく分けて2通りの方法が考えられる。
一つは、方策を決定論的なもの(=各状態で選ばれる行動は常に同じ)からソフトなもの(=各状態で選ばれる行動は確率に従う)へ変更して、任意の状態行動対についてであることを保証する方法。
こうすることで、開始点探査の仮定を入れなくても、任意の状態行動対が観測されるようになる。
もう一つは、評価、改善しようとしている方策とは別の方策を使って状態行動対の列を観測し、その観測結果を使って方策の評価/改善をする方法。
そのようなことが可能であれば、たとえ方策が決定論的なものであったとしても、状態行動対の列を生む方策としてソフトなものを使うことで、開始点探査の仮定を入れなくても、任意の状態行動対を観測することが可能になってくる。
前者の方法を方策オン型手法、後者の方法を方策オフ型手法と呼ぶ。
この「オン」/「オフ」というのは、状態行動対の列を観測するためのシミュレーションをするときに、評価、改善対象の方策を「使う」/「使わない」ということを意味している。
方策オン型モンテカルロ制御
方策オン型モンテカルロ法では、方策として決定論的な方策ではなく、ソフトな方策を用いる。
その一つとして、グリーディ方策を使う方法がある。
グリーディ方策は、次のような方策:
ただし、はの小さな定数。
照明は省略するけど(本を参照。ただし、けっこう分かりにくい・・・)、グリーディ方策を使う場合も、ちゃんと方策が改善されるようになっている。
グリーディ方策を使った方策オン型モンテカルロ制御は、次のようなアルゴリズムになる:
- すべてのに対して、以下のように初期化する:
- 以下を繰り返す:
- 方策に従ってエージェントを行動させ、状態行動対の列と報酬の列を観測する。
- 方策評価
観測された各状態行動対について、初回訪問なら:- をに追加する。
- 方策改善
観測された各状態について、初回訪問なら:- 各について:
- なら、
- なら、
- 各について:
方策オフ型モンテカルロ制御
方策オフ型モンテカルロ法では、評価、改善される方策と、状態行動対の列を作るための方策を分けて扱う。
前者の方策を推定方策、後者の方策を挙動方策と呼ぶ。
さて、では、どうやって挙動方策を使って推定方策を評価、改善すればいいのか?
というのも、方策が変わってしまえば、当然そこで得られた収益もあくまで「挙動方策での」収益であって、推定方策で同じ収益が得られるとは限らないから。
そこで、実際に観測された状態行動対の列がそれぞれの方策で観測される確率を比較して、それを収益を評価するときの重みとして使うということを考える。
例えば、挙動方策で状態行動対の列と収益が観測されたとする。
ここで、その状態行動対の列を観測する確率が、推定方策で、挙動方策でだとすると、推定方策では確率的に回、収益を観測するということになる。
これは、推定方策で状態行動対の列と収益が1回観測されたときに、
と評価していたところを、回観測されたという意味で、
と評価することになる。
ところで、ステップ時間で状態行動対がであるときに、方策でそのあと状態行動対の列がとなる確率をとすると、
であるから、挙動方策での収益の評価に対する、推定方策での収益の評価の重みをとすると、これは
と計算できることが分かる。
このとき、どのように状態遷移するかという確率であるは分子と分母で打ち消しあって不要になるので、モデルが分からなくても、方策の値だけで計算できるようになっているのがポイント。
これで、挙動方策を使って観測された状態行動対の列に対して推定方策の評価が出来るようになった。
さて、ここからは特に、推定方策が決定論的な方策の場合を考えていく。
このとき、重みを計算するときの分子は
- なら、1
- なら、0
となる。
なので、観測された状態行動対の列を後ろから見ていって初めてとなったステップ時間をとすると、任意のについてとなるので、より前の状態行動対については学習しても意味がないことが分かる。
そこで、次のような方策オフ型モンテカルロ制御のアルゴリズムが得られる:
- すべてのに対して、以下のように初期化する:
- 以下を繰り返す:
- 任意のソフト方策に従ってエージェントを行動させ、状態行動対の列と報酬の列を観測する。
- を、以下を満たすような時刻とする:
- 方策評価
観測された各状態行動対について、初回訪問なら: - 方策改善
観測された各状態について、初回訪問なら:
なお、挙動方策には、グリーディ方策などを使えばいい。
今日はここまで!
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る