いものやま。

雑多な知識の寄せ集め

ベイズ統計学を学んでみた。(その9)

前回は条件付き確率分布を定義した。

今日は、後回しにしていた分母が0の場合について議論しておきたい。

分母が0になる場合に関して

あらかじめ断っておくと、これに関しては自分もまだ明快な答えが出せていない。 そのうえで、どんなことを考えているか書いておく。

定義を見れば分かる通り、周辺確率分布 P\langle Z\rangle (z)が0になるような zでは、0で割り算することになってしまうので、非常に問題がある。

これを解決するためにまず考えられる方法は、2つ:

  1. 分母が0になる場合は別の定義をする
  2. そもそも分母が0にならないように \overline{Z} = \{z \in Z | P\langle Z\rangle (z) \gt 0\}を定義域とする

別の定義を考える場合

まず、前者について。

一番単純に思いつくのは、 P\langle Z\rangle (z)= 0となる zに対しては、 P\langle X, Y\rangle[Z](x, y | z) = 0とする定義。

ただ、これはすぐに問題があると気づくと思う。 実際、 X, Yについて積分したときに、その値が1になってくれない。

他の定義として考えられるのは、周辺確率分布を条件付き確率分布にするというもの。 すなわち、 P\langle Z\rangle (z)= 0となる zに対しては、 P\langle X, Y\rangle[Z](x, y | z) = P\langle X, Y\rangle(x, y)と定義する。

こうした場合は、 X, Yについて積分した値もちゃんと1になるので、前回示した P\langle X, Y \rangle [Z]が確率変数 X, Yに関する同時確率分布になっているという命題が維持される。 さらに嬉しいことに、独立性に関する議論で P\langle Z\rangle (z)= 0となる場合を考慮する必要がない。 (独立性に関してはそのうち)

なので、一見これでよさそうに思えるんだけど、実はそもそも論で問題がある。 これは後者とも関係してくるので、あとでまとめて議論する。

定義域から外す場合

さて、後者について。

そもそも確率分布の値が0になるような事象が定義域に入ってるから問題なのであって、その事象を取り除いても全体を積分した値は変わらないのだから、そんな事象は定義域から外してしまえ、というのは、自然な発想にも思える。

けど、次のような例を考えてみると、やっぱり問題があることに気づく。

コインと袋の例

次のような例を考えてみる。

まず、2つの袋があるとする。 1つ目の袋には赤玉が2つ、白玉が1つ入っていて、2つ目の袋には赤玉が1つ、白玉が2つ入っているとする。 そして、コインを投げて表が出れば1つ目の袋から、裏が出れば2つ目の袋から、玉を1つとるとする。

さて、袋から玉を1つとったときの確率変数が X = \{\text{赤}, \text{白}\}、コインを投げたときの確率変数が Y = \{\text{表}, \text{裏}\}とすると、コインが表のときの Xの確率分布 P\langle X\rangle [Y](x|\text{表})は、


P\langle X\rangle[Y](x | \text{表}) = \begin{cases}
\frac{2}{3} & (x = \text{赤}) \\
\frac{1}{3} & (x = \text{白}) \\
\end{cases}

コインが裏のときの Xの確率分布 P\langle X\rangle [Y](x|\text{裏})は、


P\langle X\rangle[Y](x | \text{裏}) = \begin{cases}
\frac{1}{3} & (x = \text{赤}) \\
\frac{2}{3} & (x = \text{白}) \\
\end{cases}

と考えるのが自然。

そして、コインが表になるか裏になるかの確率分布は P\langle Y\rangle(y) = \frac{1}{2}と考えるのが自然で、条件付き確率分布の定義から得られる積の法則を使うと、同時確率分布 P\langle X, Y\rangleは、


\begin{align}
P\langle X, Y\rangle(\text{赤}, \text{表}) &= P\langle X\rangle[Y] (\text{赤}| \text{表}) P\langle Y\rangle(\text{表})
 = \frac{2}{3} \cdot \frac{1}{2} = \frac{2}{6} \\
P\langle X, Y\rangle(\text{白}, \text{表}) &= P\langle X\rangle[Y] (\text{白}| \text{表}) P\langle Y\rangle(\text{表})
 = \frac{1}{3} \cdot \frac{1}{2} = \frac{1}{6} \\
P\langle X, Y\rangle(\text{赤}, \text{裏}) &= P\langle X\rangle[Y] (\text{赤}| \text{裏}) P\langle Y\rangle(\text{裏})
 = \frac{1}{3} \cdot \frac{1}{2} = \frac{1}{6} \\
P\langle X, Y\rangle(\text{白}, \text{裏}) &= P\langle X\rangle[Y] (\text{白}| \text{裏}) P\langle Y\rangle(\text{裏})
 = \frac{2}{3} \cdot \frac{1}{2} = \frac{2}{6} \\
\end{align}

となる。

なお、上記の同時確率分布 P\langle X, Y\rangleが与えられているときに、周辺確率分布 P\langle Y\rangleを計算して、そこからさらに条件付き確率分布 P\langle X\rangle [Y]を計算してすると、たしかに上記の通りになっていて、特に問題はない。

イカサマコインの場合

ただ、これがイカサマコインになると、途端に話が変になる。

さて、実はこのコインがどちらも「表」だったとする。 (※表も裏も同じ表面の絵柄になっている、ということ)

そうすると、 P\langle Y\rangle(\text{表}) = 1 P\langle Y\rangle(\text{裏}) = 0となる。

じゃあ、まずここで、確率変数 Yから「裏」を取り除いて \overline{Y} = \{表\}にすべきか、となる。

いや、コインを投げたときに「表か裏が出る」というのは確率分布を考える前からあるもので、ここではたまたまその確率分布で裏になる値が0だっただけであり、後から与えられた確率分布の実際の値からその前にすでに与えられている確率変数の要素を変えてしまうというのは、かなり変な感じがする。

加えていうと、ここで定義域から「裏」を取り除いてしまうと、途端に P\langle X\rangle [Y](x|\text{裏})は定義されないとなってしまう。 イカサマコインかどうかで袋から玉が取り出される確率分布が定義されるかどうかが変わってしまうというのは、かなりおかしい。

さらに、 P\langle Y\rangleの様子が変わったときに、 P\langle X\rangle [Y]の様子が変わるものか、という話がある。

たとえば、普通のコインであろうとイカサマコインであろうと、袋から玉をとる確率自体は変わらない。 なので、 P\langle Y\rangleの様子が変わったとしても、 P\langle X\rangle [Y]の様子は変わるはずがない。

けど、このときに同時確率分布を計算してみると、


\begin{align}
P\langle X, Y\rangle(\text{赤}, \text{表}) &= P\langle X\rangle[Y] (\text{赤}| \text{表}) P\langle Y\rangle(\text{表})
 = \frac{2}{3} \cdot 1 = \frac{2}{3} \\
P\langle X, Y\rangle(\text{白}, \text{表}) &= P\langle X\rangle[Y] (\text{白}| \text{表}) P\langle Y\rangle(\text{表})
 = \frac{1}{3} \cdot 1 = \frac{1}{3} \\
P\langle X, Y\rangle(\text{赤}, \text{裏}) &= P\langle X\rangle[Y] (\text{赤}| \text{裏}) P\langle Y\rangle(\text{裏})
 = \frac{1}{3} \cdot 0 = 0 \\
P\langle X, Y\rangle(\text{白}, \text{裏}) &= P\langle X\rangle[Y] (\text{白}| \text{裏}) P\langle Y\rangle(\text{裏})
 = \frac{2}{3} \cdot 0 = 0 \\
\end{align}

となる。

すると、 P\langle X\rangle[Y] (x| \text{裏})は分母が0になってしまうので、このままでは定義できないとなってしまう。

じゃあそこでちょっと前の議論に戻って、分母が0になる場合は条件付き確率分布 P\langle X\rangle[Y](x|y)を周辺確率分布 P\langle X\rangle(x)と定義したらどうか、というのを考えてみる。

この場合、


P\langle X\rangle[Y](x | \text{裏})
= P\langle X\rangle (x)
= \begin{cases}
\frac{2}{3} & (x = \text{赤}) \\
\frac{1}{3} & (x = \text{白}) \\
\end{cases}

となるけど、これは明らかにおかしい。 なぜって、イカサマコインを使ったら袋から出る玉の確率まで変わってしまうことになるから。

もちろん、 P\langle Y\rangle(\text{裏}) = 0なので、条件付き確率分布 P\langle X\rangle[Y](x | \text{裏})がおかしくなってしまっても、同時確率分布 P\langle X, Y\rangle(x, \text{裏})はおかしくならないんで、実害は出ないかもしれないのだけど。

以上の議論から、別の定義にするのもダメだし、定義域から削るのもダメだということが分かる。

そもそも何がおかしいのか

じゃあ、そもそも何がおかしいのか、というと、同時確率分布をまず考えて、そこから周辺確率分布、条件付き確率分布を定義しようとしていることなんだと自分は思っている。

上の議論を見て分かる通り、条件付き確率分布というのはパラメータを持った確率分布で、それは同時確率分布よりも前に存在している。 それを、同時分布よりもあとに定義しようとするから、おかしなことが起きてくる。

おそらく、条件付き確率分布をパラメータあり確率分布のように定義して、そこから積の法則を定義として同時確率分布を定義するのが正解なように思う。

今日はここまで!

ベイズ統計学を学んでみた。(その8)

前回は周辺確率分布を定義した。

今回は条件付き確率分布を定義する。

固定化と条件付き確率分布

確率変数 X, Y, Zの同時確率分布 P\langle X, Y, Z\rangle : X \times Y \times Z \rightarrow \mathbb{R}_{\ge 0}に対して、 Zをある値 zに固定したときの X Yの同時確率分布を条件付き確率分布と呼び、次のように定義する:


P\langle X, Y\rangle [Z](x, y | z) = \frac{ P\langle X, Y, Z\rangle (x, y, z) }{ P\langle Z\rangle (z) }

なお、 P\langle X, Y\rangle [Z] : X \times Y \times Z \rightarrow \mathbb{R}_{\ge 0}だが、ここでは P\langle Z\rangle (z) = 0となる zでは未定義としておく。 (この P\langle Z\rangle (z) = 0となる場合は非常に厄介で、詳細はまた別に議論したい)

命題

 P\langle 2^X, 2^Y\rangle [Z] (X, Y | z) = 1

証明


\begin{align}
P\langle 2^X, 2^Y\rangle [Z] (X, Y | z)
&= \underset{x \in X, y \in Y}{\int\!\int} \frac{ P\langle X, Y, Z\rangle (x, y, z) }{ P\langle Z\rangle (z) } \, dx \, dy \\
&= \frac{ 1 }{ P\langle Z\rangle (z) } \underset{x \in X, y \in Y}{\int\!\int} P\langle X, Y, Z\rangle (x, y, z) \, dx \, dy \\
&= \frac{ 1 }{ P\langle Z\rangle (z) } \cdot P\langle Z\rangle (z) \\
&= 1
\end{align}

よって示された。 \Box

この命題から、 P\langle X, Y \rangle [Z]はたしかに確率変数 X, Yに関する同時確率分布になっていることが分かる。 (=記法での不一致は起きていない、ということ)

周辺化と同じように、ここではこれを確率変数 Zを値 z固定化した呼ぶことにする。 (※これは独自の言葉で、一般に固定化という用語はない)

複数変数の固定化 vs 複数回の固定化

固定化に関しても周辺化と同じ議論ができ、次の命題が成り立つ:

命題

同時確率分布 P\langle X, Y, Z \rangleに対して、 Y, Zを固定化した確率分布 P_1\langle X \rangle [Y, Z] と、 Zを固定化した P\langle X, Y\rangle [Z] に対して Yを固定化した確率分布 P_2\langle X\rangle [Y, Z] は等しい。

証明は周辺化のときと同じように定義にしたがって計算するだけなので省略。

f:id:yamaimo0625:20210430165233p:plain


さて、分母が0になる場合について議論したいんだけど、長くなるので次回で。

今日はここまで!

ベイズ統計学を学んでみた。(その7)

前回は確率変数が複数ある場合の確率分布や確率を定義した。

そこから派生する議論を今回からはしていく。

周辺化と周辺確率分布

確率変数 X, Y, Zの同時確率分布 P\langle X, Y, Z\rangle : X \times Y \times Z \rightarrow \mathbb{R}_{\ge 0}に対して、 関数 P\langle X, Y\rangle : X \times Y \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle X, Y\rangle(x, y) 
= P\langle X, Y, 2^Z\rangle (x, y, Z)
= \int_{z \in Z} P\langle X, Y, Z\rangle (x, y, z) dz

つまり、 zに関して積分して元の関数(同時確率分布)から zを取り除いた関数。

命題
 P\langle 2^X, 2^Y\rangle (X, Y) = 1

証明


\begin{align}
P\langle 2^X, 2^Y\rangle(X, Y)
&= \underset{x \in X, y \in Y}{\int\!\int} P\langle X, Y \rangle (x, y) \, dx \, dy \\
&=  \underset{x \in X, y \in Y, z \in Z}{\int\!\int\!\int} P\langle X, Y, Z\rangle (x, y, z) \, dx \, dy \, dz \\
&= 1
\end{align}

よって示された。 \Box

この命題から、関数 P\langle X, Y \rangleは確率変数 X, Yに関する同時確率分布になっていることが分かる。 (=記法での不一致は起きていない、ということ)

このように、同時確率分布 P\langle X, Y, Z\rangleから同時確率分布 P\langle X, Y\rangleを得ることを、 Z周辺化するといい、 P\langle X, Y, Z\rangleに対して P\langle X, Y\rangle周辺確率分布と呼ぶ。

一つ注意したいのは、この周辺確率分布というのは相対的なものだということ。

たとえば、この P\langle X, Y\rangleに対して同様に Yを周辺化した確率分布 P\langle X\rangleを考えることができるけど、 P\langle X, Y, Z\rangleから見たとき P\langle X, Y\rangleは周辺確率分布になっているのに対し、 P\langle X\rangleから見たとき P\langle X, Y\rangleは周辺確率分布にはなっていない。

複数変数の周辺化 vs 複数回の周辺化

さて、同様にして、同時確率分布 P\langle X, Y, Z\rangleから Y Zを周辺化した周辺確率分布 P\langle X\rangleも定義できる:


P\langle X\rangle (x) = P\langle X, 2^Y, 2^Z\rangle (x, Y, Z) = \underset{y \in Y, z \in Z}{\int\!\int} P\langle X, Y, Z\rangle (x, y, z) \, dy \, dz

また、同時確率分布 P\langle X, Y, Z\rangleから Zを周辺化した周辺確率分布  P\langle X, Y\rangleは同時確率分布でもあるので、さらに Yを周辺化して周辺確率分布 P\langle X\rangleを得ることもできる。

となると、問題となるのは、この2つの確率分布 P\langle X\rangleが一致するのかどうか。

幸いにも、次の命題でこの2つは一致することが示される:

命題
同時確率分布 P\langle X, Y, Z\rangleに対して、 Y, Zを周辺化した確率分布 P_1\langle X\rangleと、 Zを周辺化した P\langle X, Y\rangleに対して Yを周辺化した確率分布 P_2\langle X\rangleは等しい。

証明
まず、

 P_1\langle X\rangle (x) = \underset{y \in Y, z \in Z}{\int\!\int} P\langle X, Y, Z\rangle (x, y, z)\, dy \, dz

そして、

 P_2\langle X\rangle (x) = \int_{y \in Y} P\langle X, Y \rangle (x, y) dy = \underset{y \in Y, z \in Z}{\int\!\int} P\langle X, Y, Z\rangle (x, y, z) \, dy \, dz

したがって、 P_1\langle X\rangle (x) = P_2\langle X\rangle (x) \Box

図示すると次のようになっている:

f:id:yamaimo0625:20210410215244p:plain

この命題が成り立つので、記法は周辺化のやり方に依存しなくていいとなる。 (本当は命題が成り立つ前はちゃんと記法を分けて議論した方がいいんだけど)

ところで、確率変数を2つでしか考えていないと、この問題は出てこない。 なので、上の命題をそもそも考えたことがない人が多いはず。 確率変数を3つにして考えることで、こういったことも気づける。

今日はここまで!

ベイズ統計学を学んでみた。(その6)

前回までで確率変数が1つの場合の確率を定義した。

今回からはそれを複数の確率変数がある場合に拡張していく。

確率変数の数

実際に議論していく前に、確率変数の数について少し言及しておきたい。

複数の確率変数に話を拡げる場合、よくあるのは2つの確率変数 X, Yについて議論していくというもの。 1つのものを2つにするのだから、これはとても自然に思える。

けど、単数ではなく複数を考えていくときに、実は2つと3つ以上の間には大きな壁が存在することが多い。

たとえば、計算量理論で有名なSAT(充足可能性問題)だと、2-SATは効率よく解けるけど、3-SATは( P\ne NPの前提で)効率よく解けないことが知られている。
参考:2と3の違い(岡本先生)

これは、2つだと組み合わせはないけど、3つ以上だと組み合わせが発生してくるのが一因だと思っている。

確率についても同様で、確率変数が3つ以上あると、2つのときとは本質的に違った難しさがある(と自分は思っている)。 けど、確率変数が2つで議論を進めてしまうと、その難しさに気づけない。

そこで、以下では基本的に3つの確率変数 X, Y, Zについて議論していくことにする。

同時分布

まずは分布 D\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}の拡張から。

確率変数 X, Y, Zに対して、 (x, y, z) \in X \times Y \times Zがどれくらい起こりやすいかを関数 D\langle X, Y, Z\rangle : X \times Y \times Z \rightarrow \mathbb{R}_{\ge 0}で表すことにし、この関数を同時分布と呼ぶことにする。

同時確率分布

次は確率分布 P\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}の拡張。

1つの確率変数のときと同様に、同時分布 D\langle X, Y, Z\rangleを規格化した同時分布 P\langle X, Y, Z\rangle : X \times Y \times Z \rightarrow \mathbb{R}_{\ge 0}同時確率分布と呼ぶ。

すなわち、 0 \lt \int\!\int\!\int_{x \in X, y \in Y, z \in Z} D\langle X, Y, Z\rangle (x, y, z)\,dx\,dy\,dz \lt \inftyであると仮定して、


P\langle X, Y, Z\rangle (x, y, z) = C \cdot D\langle X, Y, Z\rangle (x, y, z),
\; \text{where} \; C = \frac{1}{\underset{x \in X, y \in Y, z \in Z}{\int\!\int\!\int} D\langle X, Y, Z\rangle(x, y, z)\,dx\,dy\,dz}

同時確率

そして、確率 P\langle 2^X\rangle: 2^X \rightarrow \mathbb{R}_{\ge 0}の拡張。

確率変数 X, Y, Zの部分集合 S \subseteq X, T \subseteq Y, U \subseteq Zに対して、関数 P\langle 2^X, 2^Y, 2^Z\rangle : 2^X \times 2^Y \times 2^Z \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle 2^X, 2^Y, 2^Z\rangle(S, T, U) = \underset{x \in S, y \in T, z \in U}{\int\!\int\!\int} P\langle X, Y, Z\rangle (x, y, z)\, dx\, dy\, dz

この関数 P\langle 2^X, 2^Y, 2^Z\rangle同時確率と呼ぶ。

同時確率についても次の命題が成り立つ:

命題
 P\langle 2^X, 2^Y, 2^Z\rangle(X, Y, Z) = 1

証明は1変数のときと同様なので省略。

補足

ちょっと追加で、確率分布と確率の中間の関数も定義しておく。

まず、1変数だけ積分した関数 P\langle X, Y, 2^Z\rangle: X \times Y \times 2^Z \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle X, Y, 2^Z\rangle(x, y, U) = \int_{z \in U} P\langle X, Y, Z\rangle (x, y, z) dz

また、2変数を積分した関数 P\langle X, 2^Y, 2^Z\rangle: X \times 2^Y \times 2^Z \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle X, 2^Y, 2^Z\rangle(x, T, U) = \underset{y \in T, z \in U}{\int\!\int} P\langle X, Y, Z\rangle (x, y, z) dy\, dz

どの変数を積分するかはいくつか組み合わせがあるけれど、いずれも上記と同様に定義されるとする。 そして、どの変数が積分されているのかや、関数の定義域は、山括弧から分かるものとする。

これらは何か意味があるような関数ではないのだけど、計算の途中で出てくることがあるので、ここで定義しておいた。


ここまでだと、わざわざ確率変数を3つ用意して議論している意味が見えないけど、次からはその意味が見えてくる。

今日はここまで!

ベイズ統計学を学んでみた。(その5)

前回は確率分布を定義した。

今回は確率を定義する。

確率

まず、集合 Aの部分集合をすべて集めた集合を冪集合といい、 2^Aで表すことにする:


2^A = \{ S | S \subseteq A \}

そして、確率変数 Xの部分集合 S \subseteq Xに対して、関数 P\langle 2^X\rangle : 2^X \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle 2^X \rangle (S) = \int_{x \in S} P\langle X\rangle (x) dx

この関数 P\langle 2^X\rangle確率と呼ぶ。

確率分布は引数が「確率変数の要素」であるのに対し、確率は引数が「確率変数の部分集合」だというのが重要。 そして、部分集合が引数にくるというのを分かりやすくするために、山括弧には冪集合を書くようにしている。

この定義から、次の命題がただちに言える:

命題
 P\langle 2^X\rangle(X) = 1

証明
分布 D\langle X\rangleの規格化定数を Cとすると、


\begin{align}
P\langle 2^X\rangle (X) &= \int_{x \in X} P\langle X\rangle (x) dx \\
&= C \int_{x\in X} D\langle X\rangle (x) dx \\
&= \frac{1}{\int_{x\in X} D\langle X \rangle (x) dx} \cdot \int_{x\in X} D\langle X\rangle (x) dx \\
&= 1
\end{align}

よって示された。\Box

従来の記法との対応

ここで、従来の記法との対応を書いておく。

まず、 P(X)もしくは P(x) P(X=x)と書かれていた場合、これは P\langle X\rangle(x)に相当し、変数 x \in Xに対する確率分布を意味する。 (ただし、要素が1つだけの部分集合に対する確率 P\langle 2^X\rangle(\{x\})を意味していたり、累積分布関数 F(x) = P\langle 2^X\rangle(\{s \in X | s \le x\})を意味してる可能性もありそうなので、文脈をよく確認した方がいい)

そして、 P(X \le 2)もしくは P(x \le 2)のように書かれていた場合、これは P\langle 2^X\rangle(\{x \in X| x \le 2\})に相当し、部分集合 \{x \in X| x \le 2\} \subseteq Xに対する確率の値を意味する。

最後に、 P(X=2)もしくは P(x=2)のように書かれていた場合、 P\langle X\rangle(2)もしくは P\langle 2^X\rangle (\{2\})に相当する(どちらであるかは文脈依存)。 これは、前者であれば確率分布の値を意味し、後者であれば確率の値を意味することになる。

こんな感じで、従来の記法だと似た記法で確率分布と確率、さらには関数とその値を全部ごっちゃにして表現してたので、文脈をちゃんと把握する必要があったし、意味も分かりにくくなっていた。 これを自分の記法にすると、それぞれがちゃんと明確に区別され、関数の定義域もハッキリするのが分かると思う。 書くのはちょっと大変だけど。

ちなみに、 (X, 2^X, P\langle 2^X\rangle)という組を考えると、これはコルモゴロフによる確率空間の公理を満たしている。 なので、今回定義した確率は確率空間の1つであると言える。 もちろん、コルモゴロフの公理を満たす確率空間は他にも考えられるので、今回の定義は万能のものではないんだけど、実用上はこれで十分じゃないかな。

今日はここまで!

ベイズ統計学を学んでみた。(その4)

前回は分布を定義した。

その中で、分布の値は比例尺度であり、本質的に同じ分布が複数あることに言及した。

今回はその対処を考えることで確率分布を定義する。

相似な分布

「分布が本質的に同じである」ということをもう少しちゃんと定義するために、相似な分布というものを定義する。

確率変数 Xに対して2つの分布 D_1\langle X\rangle, D_2\langle X\rangleを考える。 この2つの分布に対して、ある正の実数 k > 0が存在し、任意の x \in Xについて D_2\langle X\rangle(x) = k D_1\langle X\rangle(x)が成り立つとき、 D_1\langle X\rangle D_2\langle X\rangle相似であるといい、 D_1\langle X\rangle \propto D_2\langle X\rangleと表記することにする。

記号で表現すると、以下の通り:

 
D_1\langle X\rangle \propto D_2\langle X\rangle
\overset{\text{def}}{\Longleftrightarrow}
\exists k > 0, \forall x \in X, D_2\langle X\rangle(x) = k D_1\langle X\rangle(x)

なお、これは独自の定義なので、他の統計の本ではたぶん出てこない。  \proptoの記号はよく使われてるけど。 (これは実際に上記の相似の定義と同じになっている)

前回のサイコロの例だと、 D_1\langle X\rangle (x) = 1 D_2\langle X\rangle(x) = \frac{1}{6}は相似になっている ( k = \frac{1}{6}とすればいい)。

一方で、


D_3\langle X\rangle(x) = \begin{cases}
2 & (x = 1) \\
1 & (x = 2, \ldots, 6) \\
\end{cases}

とすると、 D_3\langle X\rangle D_1\langle X\rangle D_2\langle X\rangleとは相似になっていない。 条件を満たすような k > 0が存在しないことは簡単に分かる。

さて、上のように相似を定義すると、次のことがすぐに言える:

命題
分布の相似 \proptoは同値関係である。

証明は簡単なので省略。

また、相似な分布は本質的に同じ分布であることが次の命題から分かる:

命題
確率変数 Xの2つの分布 D_1\langle X\rangle, D_2\langle X\rangleについて、 D_1\langle X\rangle \propto D_2\langle X\rangleとする。このとき、 \forall x, y \in Xについて D_1\langle X\rangle(x) : D_1\langle X\rangle(y) = D_2\langle X\rangle(x) : D_2\langle X\rangle(y)が成り立つ。

証明
 D_1\langle X\rangle \propto D_2\langle X\rangleなので、ある k>0が存在し、任意の x \in Xに対して D_2\langle X\rangle(x) = k D_1\langle X\rangle(x)となる。よって、  D_2\langle X\rangle(x) : D_2\langle X\rangle(y) = kD_1\langle X\rangle(x) : kD_1\langle X\rangle(y) = D_1\langle X\rangle(x) : D_1\langle X\rangle(y)\Box

規格化と確率分布

定義から分かるとおり、相似な分布はいくらでも作れる(適当に定数倍すればいい)ので、その相似な分布の集まりを代表するような分布を1つ考えたい。 そのときパッと思いつくのは、分布の値を全部足し合わせた値を1として基準にする方法。

今、確率変数 Xの分布 D\langle X\rangleに対して 0 \lt \int_{x \in X} D\langle X\rangle(x) dx \lt \inftyであると仮定する。 このとき、確率分布 P\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle X\rangle (x) = C\cdot D\langle X\rangle (x), \; \text{where} \; C = \frac{1}{\int_{x \in X} D\langle X\rangle(x) dx}

上記のように分布から確率分布を得ることを規格化といい、分布に掛けた定数 Cのことを規格化定数と呼ぶ。

 C = 1のとき P\langle X \rangle = D\langle X \rangleであるので、確率分布は規格化定数が1であるような分布であるとも言える。

さて、確率分布が相似な分布の集まりの代表として使えることは、次の命題から言える:

命題
確率変数 Xの2つの分布 D_1\langle X\rangle, D_2\langle X\rangleを規格化した確率分布がそれぞれ P_1\langle X\rangle, P_2\langle X\rangleであるとする。 このとき、 D_1\langle X\rangle \propto D_2\langle X\rangle \Leftrightarrow P_1\langle X\rangle = P_2\langle X\rangleである。

証明
 C_1 = \frac{1}{\int_{x \in X} D_1\langle X\rangle(x) dx}, C_2 = \frac{1}{\int_{x \in X} D_2\langle X\rangle(x) dx}とする。

 D_1\langle X\rangle \propto D_2\langle X\rangleならば、ある k>0が存在して D_2\langle X\rangle = k D_1\langle X\rangleなので、


\begin{align}
C_2 &= \frac{1}{\int_{x \in X} D_2\langle X\rangle(x) dx} \\
&= \frac{1}{\int_{x \in X} k D_1\langle X\rangle(x) dx} \\
&= \frac{1}{k \int_{x \in X} D_1\langle X\rangle(x) dx} \\
&= \frac{1}{k} C_1 \\
\end{align}

よって、


\begin{align}
P_2\langle X\rangle (x) &= C_2\cdot D_2\langle X\rangle(x) \\
&= \frac{1}{k} C_1 \cdot k D_1\langle X\rangle(x) \\
& = C_1 \cdot D_1\langle X\rangle(x) \\
&= P_1\langle X\rangle (x) \\
\end{align}

逆に、 P_1\langle X\rangle = P_2\langle X\rangleならば C_1\cdot D_1\langle X\rangle = C_2\cdot D_2\langle X\rangleであり  D_2\langle X\rangle = \frac{C_1}{C_2} \cdot D_1\langle X\rangleなので、 k = \frac{C_1}{C_2}とすれば D_1\langle X\rangle \propto D_2\langle X\rangleである。\Box

規格化の例

サイコロの例

規格化の例として、先程のサイコロの例を考えてみる。

サイコロの出目の分布 D_1\langle X\rangle(x) = 1に対する確率分布 P\langle X \rangleは、規格化定数が

 \frac{1}{\int_{x\in X} D_1\langle X\rangle(x) dx} = \frac{1}{1+1+1+1+1+1} = \frac{1}{6}

なので、

 P\langle X \rangle(x) = \frac{1}{6}

となる。

また、分布 D_2\langle X\rangle(x) = \frac{1}{6}については、規格化定数が

 \frac{1}{\int_{x\in X} D_2\langle X\rangle(x) dx}
= \frac{1}{\frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6}}
= \frac{1}{1}
= 1

であり D_2\langle X\rangle = P\langle X \rangleなので、分布 D_2\langle X\rangleは確率分布でもあることが分かる。

長さの例

別の例として、前回の、長さ1cmのものを測ったときの例も考えてみる。

この例では観測値を確率変数 Y = \{y \in \mathbb{R} | 0.9 \le y \le 1.1\}であるとし、その分布は

 D\langle Y\rangle(y) = 1−10|y−1|

であると考えた。

これを規格化した確率分布 P\langle Y\rangleは、

\displaystyle
\int_{0.9}^{1.1} 1 - 10|y-1| \;dy = \frac{1}{10}

であるので規格化定数は10であり、

 P\langle Y\rangle(y) = 10−100|y−1|

となる。

今日はここまで!

ベイズ統計学を学んでみた。(その3)

前回は確率変数を定義した。

今回は分布を定義する。

分布

確率変数は起こりうる事象の集合だった。

となると、それぞれの事象がどれくらい起こりやすいかが問題となる。

そこで、確率変数 Xの要素 x \in Xがどれくらい起こりやすいかを関数 D\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}で表すことにし、この関数を分布と呼ぶことにする。

たとえば、サイコロ1個を振るときの出目を確率変数 Xとすると、 X = \{1, 2, 3, 4, 5, 6\}であり、 どの目も同じ出やすさだとすれば、分布 D\langle X \rangle

 D\langle X \rangle (x) = 1\quad(\forall x \in X)

となる。

あるいは、実はイカサマサイコロで1だけ他の目よりも2倍出やすいなら、分布 D\langle X \rangle


D\langle X \rangle (x) = \begin{cases}
2 & (x = 1) \\
1 & (x = 2, \ldots, 6) \\
\end{cases}

となる。

記法に関する補足

この D\langle X\rangleという書き方は珍しいけれど、一種のジェネリクスみたいなものだと思ってほしい。 本当は、確率変数 Xの分布が f: X \rightarrow \mathbb{R}_{\ge 0}、確率変数 Yの分布が g: Y \rightarrow \mathbb{R}_{\ge 0}、 ・・・といった感じで、確率変数ごとにそれぞれ関数を用意すべきなんだけど、それだとアルファベットが足りなくなる。 そこで、 D\langle X\rangleと書いたら確率変数 Xの分布だし、 D\langle Y\rangleと書いたら確率変数 Yの分布だとすることで、使うアルファベットを節約している。

ちなみに、そういう場合、普通は添字にして D_X D_Yのように書くことが多い。 ただ、確率変数が複数ある場合は添字がとても複雑になってくるので、ツラいことになる。 そこで、添字にする代わりに山括弧で囲うことにした。  e^x \exp(x)と書くようなものだと捉えれば分かりやすいと思う。

また、同じ確率変数に対して何種類かの分布を考えることもある。 その場合は、1つ目の分布が D_1\langle X\rangle、2つ目の分布が D_2\langle X\rangle、 ・・・といった感じで区別することにする。

連続確率変数に対する分布

分布は連続確率変数に対しても考えることができる。

たとえば、長さ1cmのモノを定規で測ったとすると、定規の質とか測り方で誤差が出たりする。 そこで、観測された長さを確率変数 Yで表すことにすると、誤差が1mm以内だとすればすれば Y = \{y \in \mathbb{R} | 0.9 \le y \le 1.1 \}で、誤差の出やすさが線形だとすれば、分布 D\langle Y\rangle


D\langle Y\rangle (y) = 1 - 10 |y - 1|\quad(0.9 \le y \le 1.1)

となる。

f:id:yamaimo0625:20210327221142p:plain
 D\langle Y\rangle (y)のグラフ

比例尺度

一つ重要なのは、分布の値は比例尺度だということ。

比例尺度というのは、2つの値の相対的な比率にだけ意味があって、絶対的な値には意味がないものをいう。

たとえば長さが分かりやすくて、「100cm」や「150cm」といったときに「100」とか「150」という数字には意味がなくて、その比率(2:3)にだけ意味がある。 実際、単位を変えて「1m」と「1.5m」とすると、それぞれの数字は「1」と「1.5」と変わってしまうけど、比率は「1:1.5 = 2:3」と変化がない。 つまり、本質的に比率だけが意味をもっている。

だから、先のサイコロの例で「ん? なんで D\langle X\rangle(x) = \frac{1}{6}じゃなくて D\langle X \rangle(x) = 1なんだろう?」と思った人もいると思うんだけど、これはどちらの分布も本質的に同じになるから。

実際、 D_1\langle X\rangle(x) = 1 D_2\langle X\rangle(x) = \frac{1}{6}としたそれぞれについて、分布の2つの値の比率を確認してみると、


D_1\langle X\rangle(x) : D_1\langle X\rangle(y) = 1 : 1\quad(\forall x, y \in X)

で、


D_2\langle X\rangle(x) : D_2\langle X\rangle(y) = \frac{1}{6} : \frac{1}{6} = 1 : 1 \quad(\forall x, y \in X)

なので、 D_1\langle X\rangle D_2\langle X\rangleも同じ比率になっている。 つまり、どちらも本質的には同じ分布であるといえる。

ちなみに、連続確率変数で確率密度関数を考えたとき、その値は1を越える場合もあるし、その1点で積分しても確率は常に0になってしまうしで、じゃあ確率密度関数の値って何なんだ?と疑問に思った人も多いと思う。 自分もその一人。 それに対する答えがこれ(=確率密度関数の値は比例尺度である)だと自分は思っている。

さて、分布の値は比例尺度なので、上で見たように、本質的には同じ分布が複数あることになる。 けど、それは厄介なので、その対処を考えていくことになる。

今日はここまで!