いものやま。

雑多な知識の寄せ集め

ベイズ統計学を学んでみた。(その6)

前回までで確率変数が1つの場合の確率を定義した。

今回からはそれを複数の確率変数がある場合に拡張していく。

確率変数の数

実際に議論していく前に、確率変数の数について少し言及しておきたい。

複数の確率変数に話を拡げる場合、よくあるのは2つの確率変数 X, Yについて議論していくというもの。 1つのものを2つにするのだから、これはとても自然に思える。

けど、単数ではなく複数を考えていくときに、実は2つと3つ以上の間には大きな壁が存在することが多い。

たとえば、計算量理論で有名なSAT(充足可能性問題)だと、2-SATは効率よく解けるけど、3-SATは( P\ne NPの前提で)効率よく解けないことが知られている。
参考:2と3の違い(岡本先生)

これは、2つだと組み合わせはないけど、3つ以上だと組み合わせが発生してくるのが一因だと思っている。

確率についても同様で、確率変数が3つ以上あると、2つのときとは本質的に違った難しさがある(と自分は思っている)。 けど、確率変数が2つで議論を進めてしまうと、その難しさに気づけない。

そこで、以下では基本的に3つの確率変数 X, Y, Zについて議論していくことにする。

同時分布

まずは分布 D\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}の拡張から。

確率変数 X, Y, Zに対して、 (x, y, z) \in X \times Y \times Zがどれくらい起こりやすいかを関数 D\langle X, Y, Z\rangle : X \times Y \times Z \rightarrow \mathbb{R}_{\ge 0}で表すことにし、この関数を同時分布と呼ぶことにする。

同時確率分布

次は確率分布 P\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}の拡張。

1つの確率変数のときと同様に、同時分布 D\langle X, Y, Z\rangleを規格化した同時分布 P\langle X, Y, Z\rangle : X \times Y \times Z \rightarrow \mathbb{R}_{\ge 0}同時確率分布と呼ぶ。

すなわち、 0 \lt \int\!\int\!\int_{x \in X, y \in Y, z \in Z} D\langle X, Y, Z\rangle (x, y, z)\,dx\,dy\,dz \lt \inftyであると仮定して、


P\langle X, Y, Z\rangle (x, y, z) = C \cdot D\langle X, Y, Z\rangle (x, y, z),
\; \text{where} \; C = \frac{1}{\underset{x \in X, y \in Y, z \in Z}{\int\!\int\!\int} D\langle X, Y, Z\rangle(x, y, z)\,dx\,dy\,dz}

同時確率

そして、確率 P\langle 2^X\rangle: 2^X \rightarrow \mathbb{R}_{\ge 0}の拡張。

確率変数 X, Y, Zの部分集合 S \subseteq X, T \subseteq Y, U \subseteq Zに対して、関数 P\langle 2^X, 2^Y, 2^Z\rangle : 2^X \times 2^Y \times 2^Z \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle 2^X, 2^Y, 2^Z\rangle(S, T, U) = \underset{x \in S, y \in T, z \in U}{\int\!\int\!\int} P\langle X, Y, Z\rangle (x, y, z)\, dx\, dy\, dz

この関数 P\langle 2^X, 2^Y, 2^Z\rangle同時確率と呼ぶ。

同時確率についても次の命題が成り立つ:

命題
 P\langle 2^X, 2^Y, 2^Z\rangle(X, Y, Z) = 1

証明は1変数のときと同様なので省略。

補足

ちょっと追加で、確率分布と確率の中間の関数も定義しておく。

まず、1変数だけ積分した関数 P\langle X, Y, 2^Z\rangle: X \times Y \times 2^Z \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle X, Y, 2^Z\rangle(x, y, U) = \int_{z \in U} P\langle X, Y, Z\rangle (x, y, z) dz

また、2変数を積分した関数 P\langle X, 2^Y, 2^Z\rangle: X \times 2^Y \times 2^Z \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle X, 2^Y, 2^Z\rangle(x, T, U) = \underset{y \in T, z \in U}{\int\!\int} P\langle X, Y, Z\rangle (x, y, z) dy\, dz

どの変数を積分するかはいくつか組み合わせがあるけれど、いずれも上記と同様に定義されるとする。 そして、どの変数が積分されているのかや、関数の定義域は、山括弧から分かるものとする。

これらは何か意味があるような関数ではないのだけど、計算の途中で出てくることがあるので、ここで定義しておいた。


ここまでだと、わざわざ確率変数を3つ用意して議論している意味が見えないけど、次からはその意味が見えてくる。

今日はここまで!

ベイズ統計学を学んでみた。(その5)

前回は確率分布を定義した。

今回は確率を定義する。

確率

まず、集合 Aの部分集合をすべて集めた集合を冪集合といい、 2^Aで表すことにする:


2^A = \{ S | S \subseteq A \}

そして、確率変数 Xの部分集合 S \subseteq Xに対して、関数 P\langle 2^X\rangle : 2^X \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle 2^X \rangle (S) = \int_{x \in S} P\langle X\rangle (x) dx

この関数 P\langle 2^X\rangle確率と呼ぶ。

確率分布は引数が「確率変数の要素」であるのに対し、確率は引数が「確率変数の部分集合」だというのが重要。 そして、部分集合が引数にくるというのを分かりやすくするために、山括弧には冪集合を書くようにしている。

この定義から、次の命題がただちに言える:

命題
 P\langle 2^X\rangle(X) = 1

証明
分布 D\langle X\rangleの規格化定数を Cとすると、


\begin{align}
P\langle 2^X\rangle (X) &= \int_{x \in X} P\langle X\rangle (x) dx \\
&= C \int_{x\in X} D\langle X\rangle (x) dx \\
&= \frac{1}{\int_{x\in X} D\langle X \rangle (x) dx} \cdot \int_{x\in X} D\langle X\rangle (x) dx \\
&= 1
\end{align}

よって示された。\Box

従来の記法との対応

ここで、従来の記法との対応を書いておく。

まず、 P(X)もしくは P(x) P(X=x)と書かれていた場合、これは P\langle X\rangle(x)に相当し、変数 x \in Xに対する確率分布を意味する。 (ただし、要素が1つだけの部分集合に対する確率 P\langle 2^X\rangle(\{x\})を意味していたり、累積分布関数 F(x) = P\langle 2^X\rangle(\{s \in X | s \le x\})を意味してる可能性もありそうなので、文脈をよく確認した方がいい)

そして、 P(X \le 2)もしくは P(x \le 2)のように書かれていた場合、これは P\langle 2^X\rangle(\{x \in X| x \le 2\})に相当し、部分集合 \{x \in X| x \le 2\} \subseteq Xに対する確率の値を意味する。

最後に、 P(X=2)もしくは P(x=2)のように書かれていた場合、 P\langle X\rangle(2)もしくは P\langle 2^X\rangle (\{2\})に相当する(どちらであるかは文脈依存)。 これは、前者であれば確率分布の値を意味し、後者であれば確率の値を意味することになる。

こんな感じで、従来の記法だと似た記法で確率分布と確率、さらには関数とその値を全部ごっちゃにして表現してたので、文脈をちゃんと把握する必要があったし、意味も分かりにくくなっていた。 これを自分の記法にすると、それぞれがちゃんと明確に区別され、関数の定義域もハッキリするのが分かると思う。 書くのはちょっと大変だけど。

ちなみに、 (X, 2^X, P\langle 2^X\rangle)という組を考えると、これはコルモゴロフによる確率空間の公理を満たしている。 なので、今回定義した確率は確率空間の1つであると言える。 もちろん、コルモゴロフの公理を満たす確率空間は他にも考えられるので、今回の定義は万能のものではないんだけど、実用上はこれで十分じゃないかな。

今日はここまで!

ベイズ統計学を学んでみた。(その4)

前回は分布を定義した。

その中で、分布の値は比例尺度であり、本質的に同じ分布が複数あることに言及した。

今回はその対処を考えることで確率分布を定義する。

相似な分布

「分布が本質的に同じである」ということをもう少しちゃんと定義するために、相似な分布というものを定義する。

確率変数 Xに対して2つの分布 D_1\langle X\rangle, D_2\langle X\rangleを考える。 この2つの分布に対して、ある正の実数 k > 0が存在し、任意の x \in Xについて D_2\langle X\rangle(x) = k D_1\langle X\rangle(x)が成り立つとき、 D_1\langle X\rangle D_2\langle X\rangle相似であるといい、 D_1\langle X\rangle \propto D_2\langle X\rangleと表記することにする。

記号で表現すると、以下の通り:

 
D_1\langle X\rangle \propto D_2\langle X\rangle
\overset{\text{def}}{\Longleftrightarrow}
\exists k > 0, \forall x \in X, D_2\langle X\rangle(x) = k D_1\langle X\rangle(x)

なお、これは独自の定義なので、他の統計の本ではたぶん出てこない。  \proptoの記号はよく使われてるけど。 (これは実際に上記の相似の定義と同じになっている)

前回のサイコロの例だと、 D_1\langle X\rangle (x) = 1 D_2\langle X\rangle(x) = \frac{1}{6}は相似になっている ( k = \frac{1}{6}とすればいい)。

一方で、


D_3\langle X\rangle(x) = \begin{cases}
2 & (x = 1) \\
1 & (x = 2, \ldots, 6) \\
\end{cases}

とすると、 D_3\langle X\rangle D_1\langle X\rangle D_2\langle X\rangleとは相似になっていない。 条件を満たすような k > 0が存在しないことは簡単に分かる。

さて、上のように相似を定義すると、次のことがすぐに言える:

命題
分布の相似 \proptoは同値関係である。

証明は簡単なので省略。

また、相似な分布は本質的に同じ分布であることが次の命題から分かる:

命題
確率変数 Xの2つの分布 D_1\langle X\rangle, D_2\langle X\rangleについて、 D_1\langle X\rangle \propto D_2\langle X\rangleとする。このとき、 \forall x, y \in Xについて D_1\langle X\rangle(x) : D_1\langle X\rangle(y) = D_2\langle X\rangle(x) : D_2\langle X\rangle(y)が成り立つ。

証明
 D_1\langle X\rangle \propto D_2\langle X\rangleなので、ある k>0が存在し、任意の x \in Xに対して D_2\langle X\rangle(x) = k D_1\langle X\rangle(x)となる。よって、  D_2\langle X\rangle(x) : D_2\langle X\rangle(y) = kD_1\langle X\rangle(x) : kD_1\langle X\rangle(y) = D_1\langle X\rangle(x) : D_1\langle X\rangle(y)\Box

規格化と確率分布

定義から分かるとおり、相似な分布はいくらでも作れる(適当に定数倍すればいい)ので、その相似な分布の集まりを代表するような分布を1つ考えたい。 そのときパッと思いつくのは、分布の値を全部足し合わせた値を1として基準にする方法。

今、確率変数 Xの分布 D\langle X\rangleに対して 0 \lt \int_{x \in X} D\langle X\rangle(x) dx \lt \inftyであると仮定する。 このとき、確率分布 P\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle X\rangle (x) = C\cdot D\langle X\rangle (x), \; \text{where} \; C = \frac{1}{\int_{x \in X} D\langle X\rangle(x) dx}

上記のように分布から確率分布を得ることを規格化といい、分布に掛けた定数 Cのことを規格化定数と呼ぶ。

 C = 1のとき P\langle X \rangle = D\langle X \rangleであるので、確率分布は規格化定数が1であるような分布であるとも言える。

さて、確率分布が相似な分布の集まりの代表として使えることは、次の命題から言える:

命題
確率変数 Xの2つの分布 D_1\langle X\rangle, D_2\langle X\rangleを規格化した確率分布がそれぞれ P_1\langle X\rangle, P_2\langle X\rangleであるとする。 このとき、 D_1\langle X\rangle \propto D_2\langle X\rangle \Leftrightarrow P_1\langle X\rangle = P_2\langle X\rangleである。

証明
 C_1 = \frac{1}{\int_{x \in X} D_1\langle X\rangle(x) dx}, C_2 = \frac{1}{\int_{x \in X} D_2\langle X\rangle(x) dx}とする。

 D_1\langle X\rangle \propto D_2\langle X\rangleならば、ある k>0が存在して D_2\langle X\rangle = k D_1\langle X\rangleなので、


\begin{align}
C_2 &= \frac{1}{\int_{x \in X} D_2\langle X\rangle(x) dx} \\
&= \frac{1}{\int_{x \in X} k D_1\langle X\rangle(x) dx} \\
&= \frac{1}{k \int_{x \in X} D_1\langle X\rangle(x) dx} \\
&= \frac{1}{k} C_1 \\
\end{align}

よって、


\begin{align}
P_2\langle X\rangle (x) &= C_2\cdot D_2\langle X\rangle(x) \\
&= \frac{1}{k} C_1 \cdot k D_1\langle X\rangle(x) \\
& = C_1 \cdot D_1\langle X\rangle(x) \\
&= P_1\langle X\rangle (x) \\
\end{align}

逆に、 P_1\langle X\rangle = P_2\langle X\rangleならば C_1\cdot D_1\langle X\rangle = C_2\cdot D_2\langle X\rangleであり  D_2\langle X\rangle = \frac{C_1}{C_2} \cdot D_1\langle X\rangleなので、 k = \frac{C_1}{C_2}とすれば D_1\langle X\rangle \propto D_2\langle X\rangleである。\Box

規格化の例

サイコロの例

規格化の例として、先程のサイコロの例を考えてみる。

サイコロの出目の分布 D_1\langle X\rangle(x) = 1に対する確率分布 P\langle X \rangleは、規格化定数が

 \frac{1}{\int_{x\in X} D_1\langle X\rangle(x) dx} = \frac{1}{1+1+1+1+1+1} = \frac{1}{6}

なので、

 P\langle X \rangle(x) = \frac{1}{6}

となる。

また、分布 D_2\langle X\rangle(x) = \frac{1}{6}については、規格化定数が

 \frac{1}{\int_{x\in X} D_2\langle X\rangle(x) dx}
= \frac{1}{\frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6}}
= \frac{1}{1}
= 1

であり D_2\langle X\rangle = P\langle X \rangleなので、分布 D_2\langle X\rangleは確率分布でもあることが分かる。

長さの例

別の例として、前回の、長さ1cmのものを測ったときの例も考えてみる。

この例では観測値を確率変数 Y = \{y \in \mathbb{R} | 0.9 \le y \le 1.1\}であるとし、その分布は

 D\langle Y\rangle(y) = 1−10|y−1|

であると考えた。

これを規格化した確率分布 P\langle Y\rangleは、

\displaystyle
\int_{0.9}^{1.1} 1 - 10|y-1| \;dy = \frac{1}{10}

であるので規格化定数は10であり、

 P\langle Y\rangle(y) = 10−100|y−1|

となる。

今日はここまで!

ベイズ統計学を学んでみた。(その3)

前回は確率変数を定義した。

今回は分布を定義する。

分布

確率変数は起こりうる事象の集合だった。

となると、それぞれの事象がどれくらい起こりやすいかが問題となる。

そこで、確率変数 Xの要素 x \in Xがどれくらい起こりやすいかを関数 D\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}で表すことにし、この関数を分布と呼ぶことにする。

たとえば、サイコロ1個を振るときの出目を確率変数 Xとすると、 X = \{1, 2, 3, 4, 5, 6\}であり、 どの目も同じ出やすさだとすれば、分布 D\langle X \rangle

 D\langle X \rangle (x) = 1\quad(\forall x \in X)

となる。

あるいは、実はイカサマサイコロで1だけ他の目よりも2倍出やすいなら、分布 D\langle X \rangle


D\langle X \rangle (x) = \begin{cases}
2 & (x = 1) \\
1 & (x = 2, \ldots, 6) \\
\end{cases}

となる。

記法に関する補足

この D\langle X\rangleという書き方は珍しいけれど、一種のジェネリクスみたいなものだと思ってほしい。 本当は、確率変数 Xの分布が f: X \rightarrow \mathbb{R}_{\ge 0}、確率変数 Yの分布が g: Y \rightarrow \mathbb{R}_{\ge 0}、 ・・・といった感じで、確率変数ごとにそれぞれ関数を用意すべきなんだけど、それだとアルファベットが足りなくなる。 そこで、 D\langle X\rangleと書いたら確率変数 Xの分布だし、 D\langle Y\rangleと書いたら確率変数 Yの分布だとすることで、使うアルファベットを節約している。

ちなみに、そういう場合、普通は添字にして D_X D_Yのように書くことが多い。 ただ、確率変数が複数ある場合は添字がとても複雑になってくるので、ツラいことになる。 そこで、添字にする代わりに山括弧で囲うことにした。  e^x \exp(x)と書くようなものだと捉えれば分かりやすいと思う。

また、同じ確率変数に対して何種類かの分布を考えることもある。 その場合は、1つ目の分布が D_1\langle X\rangle、2つ目の分布が D_2\langle X\rangle、 ・・・といった感じで区別することにする。

連続確率変数に対する分布

分布は連続確率変数に対しても考えることができる。

たとえば、長さ1cmのモノを定規で測ったとすると、定規の質とか測り方で誤差が出たりする。 そこで、観測された長さを確率変数 Yで表すことにすると、誤差が1mm以内だとすればすれば Y = \{y \in \mathbb{R} | 0.9 \le y \le 1.1 \}で、誤差の出やすさが線形だとすれば、分布 D\langle Y\rangle


D\langle Y\rangle (y) = 1 - 10 |y - 1|\quad(0.9 \le y \le 1.1)

となる。

f:id:yamaimo0625:20210327221142p:plain
 D\langle Y\rangle (y)のグラフ

比例尺度

一つ重要なのは、分布の値は比例尺度だということ。

比例尺度というのは、2つの値の相対的な比率にだけ意味があって、絶対的な値には意味がないものをいう。

たとえば長さが分かりやすくて、「100cm」や「150cm」といったときに「100」とか「150」という数字には意味がなくて、その比率(2:3)にだけ意味がある。 実際、単位を変えて「1m」と「1.5m」とすると、それぞれの数字は「1」と「1.5」と変わってしまうけど、比率は「1:1.5 = 2:3」と変化がない。 つまり、本質的に比率だけが意味をもっている。

だから、先のサイコロの例で「ん? なんで D\langle X\rangle(x) = \frac{1}{6}じゃなくて D\langle X \rangle(x) = 1なんだろう?」と思った人もいると思うんだけど、これはどちらの分布も本質的に同じになるから。

実際、 D_1\langle X\rangle(x) = 1 D_2\langle X\rangle(x) = \frac{1}{6}としたそれぞれについて、分布の2つの値の比率を確認してみると、


D_1\langle X\rangle(x) : D_1\langle X\rangle(y) = 1 : 1\quad(\forall x, y \in X)

で、


D_2\langle X\rangle(x) : D_2\langle X\rangle(y) = \frac{1}{6} : \frac{1}{6} = 1 : 1 \quad(\forall x, y \in X)

なので、 D_1\langle X\rangle D_2\langle X\rangleも同じ比率になっている。 つまり、どちらも本質的には同じ分布であるといえる。

ちなみに、連続確率変数で確率密度関数を考えたとき、その値は1を越える場合もあるし、その1点で積分しても確率は常に0になってしまうしで、じゃあ確率密度関数の値って何なんだ?と疑問に思った人も多いと思う。 自分もその一人。 それに対する答えがこれ(=確率密度関数の値は比例尺度である)だと自分は思っている。

さて、分布の値は比例尺度なので、上で見たように、本質的には同じ分布が複数あることになる。 けど、それは厄介なので、その対処を考えていくことになる。

今日はここまで!

ベイズ統計学を学んでみた。(その2)

前回はイントロで、今回から具体的な内容に入っていく。

確率論

ベイズ統計学を考えていくのに必要となるのが、確率論。 まずはこの確率論の基本的なところを押さえていきたい。

なお、高校数学の確率論だと、集合の要素数を使って確率を定義していく。 また、大学で扱うような公理的確率論だと、コルモゴロフの公理から確率を定義していく。

ただ、前者は連続変数を扱う場合には力不足だし、後者は直感から外れるところ(確率変数の定義とか)があって分かりにくい。

そこで、自分は「分布」を基礎として確率を定義していきたい。 このあとの議論をみれば分かるように、分布から確率を定義していくと、直感的で分かりやすく、それでいて連続変数を扱うことも可能になる。

確率変数

何かをやったときに起こりうる事象をすべて集めた集合を、確率変数と呼ぶことにする。 確率変数は集合なので、一般に大文字(たとえば X)で表記する。

なお、慣例にしたがって“変数”と呼んでいるけれど、実際には“集合”なので、普通の変数( xとか)とは違い、何か値が代入されたりするわけではない。

また、公理的確率論だと確率変数は関数として定義されるけど、ここではそう定義していないので、公理的確率論の確率変数とは厳密には別物なので注意。関数として定義してるのに X=2とか書いてる時点でおかしいんだけどね・・・ 公理的確率論では標本空間に相当する。

閑話休題

確率変数の一例は、サイコロ1個を振ったときの出目。 この確率変数を Xとすると、 X = \{1, 2, 3, 4, 5, 6\}となる。

あるいは、コイン投げの結果も確率変数の1つで、この確率変数を Yとすると、 Y = \{\text{表}, \text{裏}\}となる。 確率変数の要素は、別に数字じゃなくてもいい。

他にも、適当に誰か1人を選んだときのその人の身長とかも確率変数になる。 人間の身長だと小さくても30cmくらいから大きくても250cmくらいだと思うけど、それよりも小さかったり大きかったりというのは考えられる。 なので、取りうる値は0より大きい実数とし、この確率変数を Zとすると、 Z = \mathbb{R}_{> 0}となる。

 X Yのように要素が離散的な確率変数を離散確率変数と呼ぶ。 また、 Zのように要素が連続的な確率変数を連続確率変数と呼ぶ。

今日はここまで!

ベイズ統計学を学んでみた。(その1)

機械学習をやってると、なにかと耳にするのがベイズ統計学。 数理最適化をやってきた身としては、正直どうなの?と思うんだけど、理解もせずに批判するのもアレなんで、ちょっと勉強して自分なりにまとめていきたいと思う。

一応、参考にした本は以下:

しくみがわかるベイズ統計と機械学習

しくみがわかるベイズ統計と機械学習

  • 作者:手塚 太郎
  • 発売日: 2019/11/01
  • メディア: 単行本(ソフトカバー)

他、次のような本も眺めてる(※全部は読んでない):

ベイズモデリングの世界

ベイズモデリングの世界

  • 発売日: 2018/01/18
  • メディア: 単行本(ソフトカバー)

パターン認識と機械学習 上

パターン認識と機械学習 上

ただ、この本に限らず、ベイズ統計で使われる記法は雑すぎて理解に苦しむので、この一連の記事では独自の記法を使うことにする。 また、話や理論の流れについても、分かりやすくなるように独自で整理している。 これまでベイズ統計をやってきた人は違和感を覚えるかもしれないけど、普通に数学をやってきた人には逆に分かりやすいはず。

ここがダメだよベイズ統計

あらかじめ書いておくと、先にも述べたとおり、自分はベイズ統計については現時点でかなり懐疑的。

まず、なんかベイズ統計の人たち、狂信的なイメージあるのよね・・・

ベイズ統計はすごい! 最高! 他の方法はダメだ!」みたいなのを見ると、「うわぁ・・・」って正直思っちゃう。 まぁ、そういう人はかなり限られてるとは思うけど。 ただ、そこまでいかなくても、みんなベイズ統計はいいものだと思ってて、批判的な意見を見ることが少ない。

そして、「じゃあ、そんなにいいものなら、なんでみんな使わないの?」と聞くと、「数学が分かってないと使えないから」という答えが返ってくる。

いや、自分のような人間ならともかく、深層学習の最先端をやってるような研究者とかは数学分からないなんてことはないわけで。 だから、使われてない理由は単に「使い物にならない」からでしょ。 あと、ベイズ統計学での記法が雑すぎて、数学つよつよの人には逆によく分からないという可能性はあるけど。

結局、ベイズ統計では生成モデルを考えるけど、その想像力の限界がモデルの限界として現れてくることになる。 人間の理解の限界が、モデルの限界。 だから、出来たモデルはもちろん人間にも理解可能なものになるけど、人間の理解を超えた性能を出すことはできない。

一方、深層学習とかは、そのよく分からないものをよく分からないまま扱うので、出来たモデルが理解可能とは限らないけど、人間の理解を超えた性能を出すことができる。

もちろん、ベイズ統計の結果を使って深層学習などのモデルの説明をしようとしてたりするわけだけど、それって批評家があとから「それが上手くいったのはこれこれこういった理由なので当たり前ですよね」みたいにドヤる感じに似ていて、それなら「お前が最初にやれよ」って感じ。 それができないなら、後付けで説明が与えられても、正直どうなのとしか言えないと思う。

記法が雑?

ちなみに、これまで何度も「記法が雑」と書いてきたけど、これがベイズ統計を分かりにくくしている一番の原因だと思う。 雑だと思えない? そういう人は残念ながら数学やるのにあまり向いてない。

たとえば、当たり前のように P(X=2)みたいな書き方をするけど、冷静に考えると意味分からないよね。

「えっ、確率変数 Xの値が2であるような確率でしょ?」と思うかもしれないけど、それなら P(X)は? 確率変数 X確率密度関数(もしくは確率質量関数)?

じゃあ、 P(X \le 2)はどうかというと、確率変数 Xが2以下である確率だと思うけど、ひるがえって考えると P(X=2)は「確率密度関数 Xが2のときの値」なの? 「確率変数 Xが2のときの確率の値(確率変数が連続なら0になる)」なの?

そもそもの話をすると、Pの定義域ってどこ? 確率変数 Xと確率変数 Yが独立なら、 P(X, Y) = P(X)P(Y)って書いたりするけど、この式をじっと見ると Pって一体何なんだとなってくる。

本によっては、 Pは関数ではなくて確率を関数っぽく表現した記法なんて書いてあったりして、なんじゃそりゃって感じ。

この辺りのカオスな記法運用についても、整理していきたいと思う。

今日はここまで!

Googleスライド左下見えない問題に対処してみた。

Googleスライドはブラウザさえあれば使えるので、愛用してる人も多いはず。 自分も仕事でとてもお世話になっている。

ただ、一つ困ったことが。

そう、Googleスライド左下見えない問題』

プレゼンテーションをやっているとき、左下の方にカーソルを持っていくと、コントロールバーが表示されて左下のコンテンツが隠れてしまう。。。

f:id:yamaimo0625:20210307030225p:plain
左下の内容が・・・

f:id:yamaimo0625:20210307030401p:plain
見えなくなる。。。

これを解決する方法を見つけたので、紹介したい。

Invisible Google Slide Control Bar

方法は簡単で、Chrome拡張を入れるだけ。

このChrome拡張を入れてGoogleスライドを開くと、コントロールバーに「<」というボタンが追加される。

f:id:yamaimo0625:20210307032245p:plain
ボタンが追加される。

このボタンを押すと・・・コントロールバーが左にスライドして収納される!

f:id:yamaimo0625:20210307032503p:plain
左下が見える!

ちなみに、隠れたコントロールバーは「>」ボタンを押すとまた出てくる。

Chrome拡張が使えない場合

なお、Chrome以外のブラウザやセキュリティの関係で拡張が禁止されてる場合は、残念ながらこの拡張を使えない。

その場合、ちょっと手間がかかるけど、次の方法が使える。

  1. スライドのURL(https://docs.google.com/presentation/d/<スライド固有のID>/edit<オプションなど>)をコピーする。
  2. edit<オプションなど>の部分をpreviewに変える。

こうするとコントロールバーがステータスバーのように表示されるので、左下が隠されることがない。

f:id:yamaimo0625:20210307040814p:plain
見える!

今日はここまで!