いものやま。

雑多な知識の寄せ集め

ベイズ統計学を学んでみた。(その5)

前回は確率分布を定義した。

今回は確率を定義する。

確率

まず、集合 Aの部分集合をすべて集めた集合を冪集合といい、 2^Aで表すことにする:


2^A = \{ S | S \subseteq A \}

そして、確率変数 Xの部分集合 S \subseteq Xに対して、関数 P\langle 2^X\rangle : 2^X \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle 2^X \rangle (S) = \int_{x \in S} P\langle X\rangle (x) dx

この関数 P\langle 2^X\rangle確率と呼ぶ。

確率分布は引数が「確率変数の要素」であるのに対し、確率は引数が「確率変数の部分集合」だというのが重要。 そして、部分集合が引数にくるというのを分かりやすくするために、山括弧には冪集合を書くようにしている。

この定義から、次の命題がただちに言える:

命題
 P\langle 2^X\rangle(X) = 1

証明
分布 D\langle X\rangleの規格化定数を Cとすると、


\begin{align}
P\langle 2^X\rangle (X) &= \int_{x \in X} P\langle X\rangle (x) dx \\
&= C \int_{x\in X} D\langle X\rangle (x) dx \\
&= \frac{1}{\int_{x\in X} D\langle X \rangle (x) dx} \cdot \int_{x\in X} D\langle X\rangle (x) dx \\
&= 1
\end{align}

よって示された。\Box

従来の記法との対応

ここで、従来の記法との対応を書いておく。

まず、 P(X)もしくは P(x) P(X=x)と書かれていた場合、これは P\langle X\rangle(x)に相当し、変数 x \in Xに対する確率分布を意味する。 (ただし、要素が1つだけの部分集合に対する確率 P\langle 2^X\rangle(\{x\})を意味していたり、累積分布関数 F(x) = P\langle 2^X\rangle(\{s \in X | s \le x\})を意味してる可能性もありそうなので、文脈をよく確認した方がいい)

そして、 P(X \le 2)もしくは P(x \le 2)のように書かれていた場合、これは P\langle 2^X\rangle(\{x \in X| x \le 2\})に相当し、部分集合 \{x \in X| x \le 2\} \subseteq Xに対する確率の値を意味する。

最後に、 P(X=2)もしくは P(x=2)のように書かれていた場合、 P\langle X\rangle(2)もしくは P\langle 2^X\rangle (\{2\})に相当する(どちらであるかは文脈依存)。 これは、前者であれば確率分布の値を意味し、後者であれば確率の値を意味することになる。

こんな感じで、従来の記法だと似た記法で確率分布と確率、さらには関数とその値を全部ごっちゃにして表現してたので、文脈をちゃんと把握する必要があったし、意味も分かりにくくなっていた。 これを自分の記法にすると、それぞれがちゃんと明確に区別され、関数の定義域もハッキリするのが分かると思う。 書くのはちょっと大変だけど。

ちなみに、 (X, 2^X, P\langle 2^X\rangle)という組を考えると、これはコルモゴロフによる確率空間の公理を満たしている。 なので、今回定義した確率は確率空間の1つであると言える。 もちろん、コルモゴロフの公理を満たす確率空間は他にも考えられるので、今回の定義は万能のものではないんだけど、実用上はこれで十分じゃないかな。

今日はここまで!