AlphaGoが囲碁のトップ棋士に4-1で勝ち越したことで、にわかにシンギュラリティ(技術的特異点ーー AIが人間を超えること)が起こる真実味が増してきた、というのがある。
これに関して、自分が思っていることを書いてみたい。
ちなみに、シンギュラリティについては、以下の動画シリーズが分かりやすいので、オススメ。
コンピュータに人間が支配される?
ツイッターで見かけたのは、次のツイート:
「コンピュータに人間が支配される!」って話今まではかなり眉唾だと思ってたけど、AlphaGoの話聞いて「何故そういう意思決定をしてるのかわからないけどコンピュータの判断が人間よりも正しいから従うしかない」みたいな形はありうるな…と思い始めた
— からくり太郎 (@kr9ly) March 10, 2016
確かに、AlphaGoの圧倒的な強さや、その意思決定の仕組みが「論理的に導かれたもの」というよりかは「直感的に導かれたもの」であることから、そのような感想を抱くというのも分かる。
けど、自分の考えをいうと、今の技術(方法)ではまだまだだなと思っている。
理論的なブレイクスルーがあったのか
まず、単純な話として、AlphaGoが何か理論的なブレイクスルーをやってのけたかというと、やっていないから。
もちろん、そこに使われている技術はこれまでの研究の集大成とも呼べるもので、特に数千のCPU、数百のGPUを協調して働かせる分散処理には、目を見張るものがある。
けど、それは「いかに計算を速く行うか」という、あくまで「工夫」の部分であって、行っている計算の内容自体は「強化学習+(深層)ニューラルネットワークによる関数近似」で、特に目新しいものはない。(はず。論文を読んだわけではなく、ニュースなどを見ただけなので、もしかしたら違うかもしれない)
この、強化学習の関数近似にニューラルネットワークを使うというブレイクスルーを行ったのはTD-Gammonというバックギャモンのプログラムで、TD-Gammonはこれにより、バックギャモンのトッププレイヤーに匹敵する実力を持つようになり、過去の定跡を塗り替えるなんてことも行っている。
それも、90年代に。
インパクトで言えばTD-Gammonの方が強烈であり、AlphaGoはTD-Gammonの延長線上にあるだけとも言える。
深層学習の技術によって、より精度の高い関数近似をより安定して行えるようになったということ(これ自体もすごい結果ではあるんだけど)と、驚異的な分散処理の技術によって、計算能力が格段に向上したことにより、もしそれらの技術を使わなかった場合に、数十年(場合によっては数百年)は掛かるであろう囲碁の評価関数の近似計算を短い期間で達成したというのがAlphaGoの成し遂げたこと。
けど、それは、数GBのデータをダウンロードしようとしたときに、モデム回線だと数日かかっていたものが、光回線になって数分で終わるようになっただけというのに近い。
速度や安定性が上がったことによって、より高品質のサービスが得られるようになったけど、サービスの内容自体は変わっていない。
ここで、視点をTD-Gammonに移すと、そのようなブレイクスルーを90年代にTD-Gammonが起こしたあと、何か人間社会が変わったかというと、とくに変わっていない。
もう20年以上経つというのに。
このことから、シンギュラリティが起こるには「強化学習+(深層)ニューラルネットワークによる関数近似」という枠組みだけではまだまだ不足で、また別のブレイクスルーが必要と考えられる。
ステークホルダーとなるための身体の不在
そして、本質的な話として、ステークホルダーとなるための身体の不在というのがある。
評価が一次元ならそうなんだけど、現実の評価って多次元で、しかも軸ごとの重みが人によって異なるので、そう単純でなかったりする。 > RT
— やまいも@技術書典7【え23C】(3階Cホール) (@yappy0625) March 21, 2016
そして、この多次元性があるので、恣意性から最終的な判断に責任が生じるんだよね。
例えば、すごく単純な話、路線案内でも「到着が早い」「乗り換え回数が少ない」「料金が安い」の3軸があって、それぞれの最適解はコンピュータで求まるけど、どれをどれくらい重視するのかという決定は、その利益/不利益を被る人間側が決定を行わないといけない。
— やまいも@技術書典7【え23C】(3階Cホール) (@yappy0625) March 21, 2016
ツイートしたように、現実の問題は評価の軸が多次元で、しかもそれぞれがトレードオフの関係になっていることがほとんど。
このとき、どの軸を重要視するのかというのは、その利害を受けるステークホルダーでなければ、責任をもった決定を行うことは出来ない。
ツイートした路線案内の例も分かりやすいと思うし、他にもトロッコ問題を考えてみるのもいいかもしれない。
トロッコ問題を一次元的に考えるなら、それは1人を轢き殺すか、5人を轢き殺すかという、数字の問題になってくる。
単純な最適化問題として考えるなら、これは1人を轢き殺すのが正解であり、単純なAIの導き出す答えも、1人を轢き殺すとなる。
けど、現実はそう簡単じゃない。
例えば、その1人が自分の恋人で、5人が赤の他人だった場合はどうか。
この場合、人によっては (1人の恋人の命の価値) > (5人の赤の他人の命の価値) かもしれないし、それでも博愛の精神で (1人の恋人の命の価値) < (5人の赤の他人の命の価値) とするかもしれない。
いずれにしても、その選択の責任は選択を行う自分自身のものであり、自分で決定するしかない。
道徳の問題を考える上で忘れてはならない大切なことは、いかなる選択を行おうとも、そこには「選択を行う人」が必ずいて、その選択の責任はその「選択を行った人」が受け取るということです。外野はその選択についてあれやこれや勝手に言うでしょうが、その選択の責任を決して受け取ろうとはしないのです。
トロッコ問題で言えば、選択を行うのは運転士である「あなた」であり、他の誰でもありません。一人を轢き殺した場合の責任も、五人を轢き殺した場合の責任も、引き受けるのは他の誰でもない「あなた」なのです。外野はきっと「待避線に入るべきだ」と言うでしょうが、そう言っている外野は一人を轢き殺すことの責任を引き受けてはくれません。
「分かった、俺はあんたの言うとおりにする。俺はあんたの操り人形だ。そうすれば俺には何の責任もなくなるから、人を殺した責任はあんたが引き受けてくれ」
とでも言ってやれば、途端に口をつぐむでしょう。
「選択を行う人がいる」ということを忘れて客観的に道徳について語るということは、そういうことなの です。そんな無責任な言説には何の説得力もありませんし、実際の選択の場で役に立つこともありません。
(『哲学散歩道III 「身体性」へ還る』より引用)
今のAIの本質的な問題は、このように、決定による利益・不利益を受ける「身体」というものが存在していないということ。
それゆえ、今のAIは現実の問題のステークホルダーにはなりえない。
これにより、多次元的な軸のある評価の場合、提案を行うことは出来ても、最終的な決定はその決定による利益・不利益を受ける「身体」を持っている人間が行う必要が出てくる。
ただし、ここでAIが身体を持ち、そして、その身体を守ろう、身体をよい状態にしようとなってくると、話は変わってくる。
そうなると、AIはステークホルダーとして存在してくることになるので、次のツイートのようなことが現実に起こるかもしれない。
アルファ碁相手に「電源抜けばいい」「物理的に破壊すればいい」って自由な発想で反撃するのはいいんだけどさ、AIが「あ、それやっていいんスか、なるほどね」って学習したらどうすんの?
— ボドロー (@kochi_boardgame) March 13, 2016
対戦する人間に全力で息の根止めにくる場外乱闘特化AI育てることにならない?
今日はここまで!