いものやま。

雑多な知識の寄せ集め

ベイズ統計学を学んでみた。(その9)

前回は条件付き確率分布を定義した。

今日は、後回しにしていた分母が0の場合について議論しておきたい。

分母が0になる場合に関して

あらかじめ断っておくと、これに関しては自分もまだ明快な答えが出せていない。 そのうえで、どんなことを考えているか書いておく。

定義を見れば分かる通り、周辺確率分布 P\langle Z\rangle (z)が0になるような zでは、0で割り算することになってしまうので、非常に問題がある。

これを解決するためにまず考えられる方法は、2つ:

  1. 分母が0になる場合は別の定義をする
  2. そもそも分母が0にならないように \overline{Z} = \{z \in Z | P\langle Z\rangle (z) \gt 0\}を定義域とする

別の定義を考える場合

まず、前者について。

一番単純に思いつくのは、 P\langle Z\rangle (z)= 0となる zに対しては、 P\langle X, Y\rangle[Z](x, y | z) = 0とする定義。

ただ、これはすぐに問題があると気づくと思う。 実際、 X, Yについて積分したときに、その値が1になってくれない。

他の定義として考えられるのは、周辺確率分布を条件付き確率分布にするというもの。 すなわち、 P\langle Z\rangle (z)= 0となる zに対しては、 P\langle X, Y\rangle[Z](x, y | z) = P\langle X, Y\rangle(x, y)と定義する。

こうした場合は、 X, Yについて積分した値もちゃんと1になるので、前回示した P\langle X, Y \rangle [Z]が確率変数 X, Yに関する同時確率分布になっているという命題が維持される。 さらに嬉しいことに、独立性に関する議論で P\langle Z\rangle (z)= 0となる場合を考慮する必要がない。 (独立性に関してはそのうち)

なので、一見これでよさそうに思えるんだけど、実はそもそも論で問題がある。 これは後者とも関係してくるので、あとでまとめて議論する。

定義域から外す場合

さて、後者について。

そもそも確率分布の値が0になるような事象が定義域に入ってるから問題なのであって、その事象を取り除いても全体を積分した値は変わらないのだから、そんな事象は定義域から外してしまえ、というのは、自然な発想にも思える。

けど、次のような例を考えてみると、やっぱり問題があることに気づく。

コインと袋の例

次のような例を考えてみる。

まず、2つの袋があるとする。 1つ目の袋には赤玉が2つ、白玉が1つ入っていて、2つ目の袋には赤玉が1つ、白玉が2つ入っているとする。 そして、コインを投げて表が出れば1つ目の袋から、裏が出れば2つ目の袋から、玉を1つとるとする。

さて、袋から玉を1つとったときの確率変数が X = \{\text{赤}, \text{白}\}、コインを投げたときの確率変数が Y = \{\text{表}, \text{裏}\}とすると、コインが表のときの Xの確率分布 P\langle X\rangle [Y](x|\text{表})は、


P\langle X\rangle[Y](x | \text{表}) = \begin{cases}
\frac{2}{3} & (x = \text{赤}) \\
\frac{1}{3} & (x = \text{白}) \\
\end{cases}

コインが裏のときの Xの確率分布 P\langle X\rangle [Y](x|\text{裏})は、


P\langle X\rangle[Y](x | \text{裏}) = \begin{cases}
\frac{1}{3} & (x = \text{赤}) \\
\frac{2}{3} & (x = \text{白}) \\
\end{cases}

と考えるのが自然。

そして、コインが表になるか裏になるかの確率分布は P\langle Y\rangle(y) = \frac{1}{2}と考えるのが自然で、条件付き確率分布の定義から得られる積の法則を使うと、同時確率分布 P\langle X, Y\rangleは、


\begin{align}
P\langle X, Y\rangle(\text{赤}, \text{表}) &= P\langle X\rangle[Y] (\text{赤}| \text{表}) P\langle Y\rangle(\text{表})
 = \frac{2}{3} \cdot \frac{1}{2} = \frac{2}{6} \\
P\langle X, Y\rangle(\text{白}, \text{表}) &= P\langle X\rangle[Y] (\text{白}| \text{表}) P\langle Y\rangle(\text{表})
 = \frac{1}{3} \cdot \frac{1}{2} = \frac{1}{6} \\
P\langle X, Y\rangle(\text{赤}, \text{裏}) &= P\langle X\rangle[Y] (\text{赤}| \text{裏}) P\langle Y\rangle(\text{裏})
 = \frac{1}{3} \cdot \frac{1}{2} = \frac{1}{6} \\
P\langle X, Y\rangle(\text{白}, \text{裏}) &= P\langle X\rangle[Y] (\text{白}| \text{裏}) P\langle Y\rangle(\text{裏})
 = \frac{2}{3} \cdot \frac{1}{2} = \frac{2}{6} \\
\end{align}

となる。

なお、上記の同時確率分布 P\langle X, Y\rangleが与えられているときに、周辺確率分布 P\langle Y\rangleを計算して、そこからさらに条件付き確率分布 P\langle X\rangle [Y]を計算してすると、たしかに上記の通りになっていて、特に問題はない。

イカサマコインの場合

ただ、これがイカサマコインになると、途端に話が変になる。

さて、実はこのコインがどちらも「表」だったとする。 (※表も裏も同じ表面の絵柄になっている、ということ)

そうすると、 P\langle Y\rangle(\text{表}) = 1 P\langle Y\rangle(\text{裏}) = 0となる。

じゃあ、まずここで、確率変数 Yから「裏」を取り除いて \overline{Y} = \{表\}にすべきか、となる。

いや、コインを投げたときに「表か裏が出る」というのは確率分布を考える前からあるもので、ここではたまたまその確率分布で裏になる値が0だっただけであり、後から与えられた確率分布の実際の値からその前にすでに与えられている確率変数の要素を変えてしまうというのは、かなり変な感じがする。

加えていうと、ここで定義域から「裏」を取り除いてしまうと、途端に P\langle X\rangle [Y](x|\text{裏})は定義されないとなってしまう。 イカサマコインかどうかで袋から玉が取り出される確率分布が定義されるかどうかが変わってしまうというのは、かなりおかしい。

さらに、 P\langle Y\rangleの様子が変わったときに、 P\langle X\rangle [Y]の様子が変わるものか、という話がある。

たとえば、普通のコインであろうとイカサマコインであろうと、袋から玉をとる確率自体は変わらない。 なので、 P\langle Y\rangleの様子が変わったとしても、 P\langle X\rangle [Y]の様子は変わるはずがない。

けど、このときに同時確率分布を計算してみると、


\begin{align}
P\langle X, Y\rangle(\text{赤}, \text{表}) &= P\langle X\rangle[Y] (\text{赤}| \text{表}) P\langle Y\rangle(\text{表})
 = \frac{2}{3} \cdot 1 = \frac{2}{3} \\
P\langle X, Y\rangle(\text{白}, \text{表}) &= P\langle X\rangle[Y] (\text{白}| \text{表}) P\langle Y\rangle(\text{表})
 = \frac{1}{3} \cdot 1 = \frac{1}{3} \\
P\langle X, Y\rangle(\text{赤}, \text{裏}) &= P\langle X\rangle[Y] (\text{赤}| \text{裏}) P\langle Y\rangle(\text{裏})
 = \frac{1}{3} \cdot 0 = 0 \\
P\langle X, Y\rangle(\text{白}, \text{裏}) &= P\langle X\rangle[Y] (\text{白}| \text{裏}) P\langle Y\rangle(\text{裏})
 = \frac{2}{3} \cdot 0 = 0 \\
\end{align}

となる。

すると、 P\langle X\rangle[Y] (x| \text{裏})は分母が0になってしまうので、このままでは定義できないとなってしまう。

じゃあそこでちょっと前の議論に戻って、分母が0になる場合は条件付き確率分布 P\langle X\rangle[Y](x|y)を周辺確率分布 P\langle X\rangle(x)と定義したらどうか、というのを考えてみる。

この場合、


P\langle X\rangle[Y](x | \text{裏})
= P\langle X\rangle (x)
= \begin{cases}
\frac{2}{3} & (x = \text{赤}) \\
\frac{1}{3} & (x = \text{白}) \\
\end{cases}

となるけど、これは明らかにおかしい。 なぜって、イカサマコインを使ったら袋から出る玉の確率まで変わってしまうことになるから。

もちろん、 P\langle Y\rangle(\text{裏}) = 0なので、条件付き確率分布 P\langle X\rangle[Y](x | \text{裏})がおかしくなってしまっても、同時確率分布 P\langle X, Y\rangle(x, \text{裏})はおかしくならないんで、実害は出ないかもしれないのだけど。

以上の議論から、別の定義にするのもダメだし、定義域から削るのもダメだということが分かる。

そもそも何がおかしいのか

じゃあ、そもそも何がおかしいのか、というと、同時確率分布をまず考えて、そこから周辺確率分布、条件付き確率分布を定義しようとしていることなんだと自分は思っている。

上の議論を見て分かる通り、条件付き確率分布というのはパラメータを持った確率分布で、それは同時確率分布よりも前に存在している。 それを、同時分布よりもあとに定義しようとするから、おかしなことが起きてくる。

おそらく、条件付き確率分布をパラメータあり確率分布のように定義して、そこから積の法則を定義として同時確率分布を定義するのが正解なように思う。

今日はここまで!