強化学習について学んでみた。（その28）

前回はSarsa( $\lambda$ )法について説明した。

今日からは関数近似について説明していく。

これまでの方法の限界と関数近似

これまでの方法では、状態価値ベクトル $\boldsymbol{V} \in \mathbb{R}^{\mathcal{S}}$ 、行動価値ベクトル $\boldsymbol{Q} \in \mathbb{R}^{\mathcal{S} \times \mathcal{A}(s)}$ の各要素を、メモリ上に（配列などで）そのまま保存し、参照、更新してきた。
このような方法をテーブル型と呼んだりする。

しかし、この方法では、状態や状態行動対の数が膨大になると、メモリ上に価値を保持するのが困難になる。
なので、現実的な大きなタスクに対しては、応用できない。
例えば、将棋や囲碁を考えてみると、すべての盤面に対する価値を保持しないといけないことになり、そんなのは無理だと分かる。

そこで、状態価値ベクトルや行動価値ベクトルを、一般化手法を用いて近似的に求める方法を考える。
このとき、一般化手法のことを関数近似と呼ぶ。

準備

さて、さっそく関数近似のことを、とも思うのだけど、その前にちょっと準備。
というのも、本だと記述が悪いこともあり、この章（第8章「一般化と関数近似」）はかなり分かりにくくなっているから。

まず、強化学習のことはちょっと忘れて、単純な一変数の一次関数による近似を考えてみる。

例えば、入力 $x \in \mathbb{R}$ に対して、次のような出力 $y \in \mathbb{R}$ が観測されたとする。

$x$	$y$
1	2
3	4.5
4	5
6	6.5

この値のペアをそのままメモリに保存するのが、テーブル型の方法。
けど、当然 $x$ の値はいろんな値をとるので、これをそのまま保存していくのだと限界が出てくる。
そこで、関数を使って近似を行う。

ここでは一次関数を使って近似を行うことを考えてみる。
すなわち、入力 $x$ に対する出力 $y$ を、一次関数

で、近似的に表現することを考えてみる。
ここで、 $a$ や $b$ は、この一次関数の具体的な形を決定するためのパラメータで、最初の段階では未知になっている。
このようなパラメータを表すときに、とくに

のように、セミコロン（;）の後ろにパラメータを置いたりする。

なお、この $a$ や $b$ に具体的な値が入ると、例えば

のように、具体的な関数の形が定まることになる。

ところで、この $a$ や $b$ の値は、どのような値であるべきか。

それは当然、観測された $(x, y)$ の組との誤差が出来るだけ小さくなるような $a$ と $b$ が望ましい。
そこで、次のような誤差関数 $E(a, b)$ を考えてみる。
（本では平均二乗誤差（MSE）としている）

気をつけたいのは、ここで $(x_i, y_i)$ というのは観測された何かしらの値なので、変数ではないということ。
なので、この誤差関数は $a$ と $b$ に関する関数となっている。

具体的に先程のテーブルの値を入れてみると、

と、 $a$ と $b$ に関する関数になることが分かる。

この $E(a, b)$ を最小化したいので、 $E(a, b)$ が最小値をとるならば $\frac{\partial E}{\partial a} = 0, \frac{\partial E}{\partial b} = 0$ であることから、

となり、この連立方程式を解いて、 $E(a, b)$ が最小値をとるならば $a = \frac{23}{26} \fallingdotseq 0.88, b = \frac{73}{52} \fallingdotseq 1.40$ となることが分かる。
（これはあくまで必要条件で、本当は十分性も成り立つことを示さないといけないんだけど、省略。直感的には、 $a^2$ の係数も $b^2$ の係数も正なので、下に凸となっているから、必要性を満たしていれば十分性も満たす）

ところで、上記では連立方程式を直接解いて $a$ と $b$ の値を求めたけど、誤差関数 $E(a, b)$ の勾配 $\nabla E = (\frac{\partial E}{\partial a}, \frac{\partial E}{\partial b})^{\mathrm{T}}$ を用いて、反復的に極小値を求める方法も考えられる。