強化学習について学んでみた。（その2）

昨日の記事は以下。

今日は、強化学習についてもう少し説明したいと思う。

「強化」って何？

そもそも、「強化学習」の「強化」って何なんだ？という話。

「強化」っていうと、何かを強くするのかなぁ、という感じだけど、「強化学習」という訳語の元になった英語は、"Reinforcement Learning"。
つまり、「強化」というのは"Reinforcement"の訳。

じゃあ、"Reinforcement"（あるいはその動詞の"Reinforce"）って何なのかというと、「補強する」とかそういった意味。
（"re-in-force"で、「再度」「力を」「入れる」みたいなイメージ）

といっても、"Reinforcement"の意味が「補強」だとしても、やっぱり意味がよく分からない。

タネを明かせば、この「強化」（"Reinforcement"）というのは心理学の専門用語で、wikipediaでは次のように説明されている。

強化

心理学用語において強化とは条件づけの学習の際に、刺激と反応を結びつける手段または、それによって結びつきが強まる働きの事である。
広義には報酬、罰などの強化子の事もさす。

心理学は専門外なので、間違っている可能性があるけれど、以下のようなことを想像してみるといいと思う。

猿を檻の中に入れて、学習させることを考える。
檻には大きな箱と小さな箱が用意されていて、箱にはそれぞれ青、黄色、赤のボタンが用意されている。
大きな箱は青のボタンを押すと開くが、間違えて黄色や赤のボタンを押すと電撃が走る。
そして、中には大量のバナナが入っている。
一方、小さな箱は青、黄色のボタンを押すと開くが、赤のボタンを押すと電撃が走る。
そして、中にはバナナが1本だけ入っている。

猿はバナナを得るために試行錯誤するだろうけど、その中で「やった行動」と「それによって得られた報酬や罰」を結びつけて学習していき、やがて最適な行動（＝大きな箱の青いボタンを押す）を見つけることになるだろう。
この「やった行動」と「それによって得られた報酬や罰」を結びつけるのが「強化」といえる。

例えば、まず大きな箱の黄色いボタンを押したとする。
そしたら、電撃が走って痛かった。
そこで、「大きな箱を選ぶ」＝「痛い」「黄色のボタンを押す」＝「痛い」と強化が行われる。
なので、今度は小さな箱の赤いボタンを押したとする。
そしたら、やっぱり電撃が走って痛かった。
そこで、「小さな箱を選ぶ」＝「痛い」「赤のボタンを押す」＝「痛い」と強化が行われる。
小さな箱を選んでも大きな箱を選んでも痛かったので、困ったのだけど、今度は小さな箱の青のボタンを押してみることにした。
そしたらなんと、箱が開いて、バナナが1本手に入った。
そこで、「小さな箱を選ぶ」＝「嬉しいこともある」「青のボタンを押す」＝「嬉しい」と強化が行われる。
こうなると、「小さな箱の青のボタンを押すというのが良さげだ」という結びつきが出来たので、この行動がよく取られるようになる。
そして、（今回は確率で結果が変わらないので）「これが良さげだ」という確信が強まっていく。
ただ、もっといいことがあるかもしれないと、たまには別の行動をするかもしれない。
例えば、小さな箱の黄色のボタンを押してみると、やっぱり箱が開いて、バナナが1本手に入った。
そうなると、「小さな箱を選ぶ」という行動は、赤のボタンさえ押さなければいいので、次第に「嬉しい」と結びつけられていくことになる。
そのうち、大きな箱の青のボタンを押すと、大量のバナナが手に入ることが分かるかもしれない。
そうすると、「大きな箱を選ぶ」という行動は、「痛い可能性が高いけど、痛くなければめっちゃ嬉しい」となっていく。
さらに、大きな箱を選んだ場合、青のボタンを押せば大量のバナナを得られるということを繰り返すことで、次第に「大きな箱を選ぶ」という行動が「めっちゃ嬉しい」と結びつけられていくことになる。
やがては「小さな箱を選ぶ」ときに期待される「嬉しさ」を「大きな箱を選ぶ」ときに期待される「嬉しさ」が上まって、最適な行動に繋がっていくことになる。

このときポイントになっていることは、3つある。

「報酬や罰」は与えらえるが、「正解」は教えられない。
例えば、「大きな箱と小さな箱を選ぶのでは、大きな箱を選ぶのが正解だよ」と飼育員が教えたりするわけではなく、猿が自分で行動を試行錯誤する中で、「正解と思われる行動」を発見してる。
「報酬や罰」と「行動」を結びつけて、「行動の価値」を評価している。
そうやって、何度も試行錯誤していく中で「行動の価値」の評価を改善していって、最終的に最適な行動を見つけている。
「良さげな行動」を多く繰り返す。
「良さげな行動」は、毎回いい結果をもたらしてくれる可能性が高いので、何度も行われることになる。
ただし、たまには別の行動にチャレンジしてみて、もっといい可能性がないかも確認している。

この学習方法をAIの学習にも適用してみようというのが、強化学習の基本的な考え方。

すなわち、