前回はSarsa()法について説明した。
今日からは関数近似について説明していく。
これまでの方法の限界と関数近似
これまでの方法では、状態価値ベクトル、行動価値ベクトルの各要素を、メモリ上に(配列などで)そのまま保存し、参照、更新してきた。
このような方法をテーブル型と呼んだりする。
しかし、この方法では、状態や状態行動対の数が膨大になると、メモリ上に価値を保持するのが困難になる。
なので、現実的な大きなタスクに対しては、応用できない。
例えば、将棋や囲碁を考えてみると、すべての盤面に対する価値を保持しないといけないことになり、そんなのは無理だと分かる。
そこで、状態価値ベクトルや行動価値ベクトルを、一般化手法を用いて近似的に求める方法を考える。
このとき、一般化手法のことを関数近似と呼ぶ。
準備
さて、さっそく関数近似のことを、とも思うのだけど、その前にちょっと準備。
というのも、本だと記述が悪いこともあり、この章(第8章「一般化と関数近似」)はかなり分かりにくくなっているから。
まず、強化学習のことはちょっと忘れて、単純な一変数の一次関数による近似を考えてみる。
例えば、入力に対して、次のような出力が観測されたとする。
1 | 2 |
3 | 4.5 |
4 | 5 |
6 | 6.5 |
この値のペアをそのままメモリに保存するのが、テーブル型の方法。
けど、当然の値はいろんな値をとるので、これをそのまま保存していくのだと限界が出てくる。
そこで、関数を使って近似を行う。
ここでは一次関数を使って近似を行うことを考えてみる。
すなわち、入力に対する出力を、一次関数
で、近似的に表現することを考えてみる。
ここで、やは、この一次関数の具体的な形を決定するためのパラメータで、最初の段階では未知になっている。
このようなパラメータを表すときに、とくに
のように、セミコロン(;)の後ろにパラメータを置いたりする。
なお、このやに具体的な値が入ると、例えば
のように、具体的な関数の形が定まることになる。
ところで、このやの値は、どのような値であるべきか。
それは当然、観測されたの組との誤差が出来るだけ小さくなるようなとが望ましい。
そこで、次のような誤差関数を考えてみる。
(本では平均二乗誤差(MSE)としている)
気をつけたいのは、ここでというのは観測された何かしらの値なので、変数ではないということ。
なので、この誤差関数はとに関する関数となっている。
具体的に先程のテーブルの値を入れてみると、
と、とに関する関数になることが分かる。
このを最小化したいので、が最小値をとるならばであることから、
となり、この連立方程式を解いて、が最小値をとるならばとなることが分かる。
(これはあくまで必要条件で、本当は十分性も成り立つことを示さないといけないんだけど、省略。直感的には、の係数もの係数も正なので、下に凸となっているから、必要性を満たしていれば十分性も満たす)
ところで、上記では連立方程式を直接解いてとの値を求めたけど、誤差関数の勾配を用いて、反復的に極小値を求める方法も考えられる。
具体的には、
というふうに、勾配の逆方向に少しだけ進むことで、誤差関数の値を小さくする。
この方法を、最急降下法と呼ぶ。
試しに、としてやってみると、
というふうに、約300回反復すると、という結果が得られる。
ここまでの内容をまとめると、
- 観測された値をテーブルですべて保存するのではなく、何かしらの関数を使って近似的に表現することを、関数近似と呼ぶ。
- 関数が入力とは別にパラメータを持つ場合、そのパラメータはセミコロン(;)の後ろに書かれる。
- 観測された値とパラメータを持つ関数との誤差は、パラメータに関する誤差関数で表される。
- 誤差関数を小さくする方法として、誤差関数の勾配の逆方向に少しずつ進むことを繰り返す、最急降下法という方法がある。
これらの知識を使って、明日は関数近似が強化学習とどのように組合されるのかを見ていく。
今日はここまで!
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る