ベイズ統計学を学んでみた。（その6）

前回までで確率変数が1つの場合の確率を定義した。

今回からはそれを複数の確率変数がある場合に拡張していく。

確率変数の数

実際に議論していく前に、確率変数の数について少し言及しておきたい。

複数の確率変数に話を拡げる場合、よくあるのは2つの確率変数 $X, Y$ について議論していくというもの。 1つのものを2つにするのだから、これはとても自然に思える。

けど、単数ではなく複数を考えていくときに、実は2つと3つ以上の間には大きな壁が存在することが多い。

たとえば、計算量理論で有名なSAT（充足可能性問題）だと、2-SATは効率よく解けるけど、3-SATは（ $P\ne NP$ の前提で）効率よく解けないことが知られている。
参考：2と3の違い（岡本先生）

これは、2つだと組み合わせはないけど、3つ以上だと組み合わせが発生してくるのが一因だと思っている。

確率についても同様で、確率変数が3つ以上あると、2つのときとは本質的に違った難しさがある（と自分は思っている）。けど、確率変数が2つで議論を進めてしまうと、その難しさに気づけない。

そこで、以下では基本的に3つの確率変数 $X, Y, Z$ について議論していくことにする。

同時分布

まずは分布 $D\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}$ の拡張から。

確率変数 $X, Y, Z$ に対して、 $(x, y, z) \in X \times Y \times Z$ がどれくらい起こりやすいかを関数 $D\langle X, Y, Z\rangle : X \times Y \times Z \rightarrow \mathbb{R}_{\ge 0}$ で表すことにし、この関数を同時分布と呼ぶことにする。

同時確率分布

次は確率分布 $P\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}$ の拡張。

1つの確率変数のときと同様に、同時分布 $D\langle X, Y, Z\rangle$ を規格化した同時分布 $P\langle X, Y, Z\rangle : X \times Y \times Z \rightarrow \mathbb{R}_{\ge 0}$ を同時確率分布と呼ぶ。

すなわち、 $0 \lt \int\!\int\!\int_{x \in X, y \in Y, z \in Z} D\langle X, Y, Z\rangle (x, y, z)\,dx\,dy\,dz \lt \infty$ であると仮定して、

$P\langle X, Y, Z\rangle (x, y, z) = C \cdot D\langle X, Y, Z\rangle (x, y, z), \; \text{where} \; C = \frac{1}{\underset{x \in X, y \in Y, z \in Z}{\int\!\int\!\int} D\langle X, Y, Z\rangle(x, y, z)\,dx\,dy\,dz}$

同時確率

そして、確率 $P\langle 2^X\rangle: 2^X \rightarrow \mathbb{R}_{\ge 0}$ の拡張。

確率変数 $X, Y, Z$ の部分集合 $S \subseteq X, T \subseteq Y, U \subseteq Z$ に対して、関数 $P\langle 2^X, 2^Y, 2^Z\rangle : 2^X \times 2^Y \times 2^Z \rightarrow \mathbb{R}_{\ge 0}$ を次のように定義する：