いものやま。

雑多な知識の寄せ集め

ベイズ統計学を学んでみた。(その4)

前回は分布を定義した。

その中で、分布の値は比例尺度であり、本質的に同じ分布が複数あることに言及した。

今回はその対処を考えることで確率分布を定義する。

相似な分布

「分布が本質的に同じである」ということをもう少しちゃんと定義するために、相似な分布というものを定義する。

確率変数 Xに対して2つの分布 D_1\langle X\rangle, D_2\langle X\rangleを考える。 この2つの分布に対して、ある正の実数 k > 0が存在し、任意の x \in Xについて D_2\langle X\rangle(x) = k D_1\langle X\rangle(x)が成り立つとき、 D_1\langle X\rangle D_2\langle X\rangle相似であるといい、 D_1\langle X\rangle \propto D_2\langle X\rangleと表記することにする。

記号で表現すると、以下の通り:

 
D_1\langle X\rangle \propto D_2\langle X\rangle
\overset{\text{def}}{\Longleftrightarrow}
\exists k > 0, \forall x \in X, D_2\langle X\rangle(x) = k D_1\langle X\rangle(x)

なお、これは独自の定義なので、他の統計の本ではたぶん出てこない。  \proptoの記号はよく使われてるけど。 (これは実際に上記の相似の定義と同じになっている)

前回のサイコロの例だと、 D_1\langle X\rangle (x) = 1 D_2\langle X\rangle(x) = \frac{1}{6}は相似になっている ( k = \frac{1}{6}とすればいい)。

一方で、


D_3\langle X\rangle(x) = \begin{cases}
2 & (x = 1) \\
1 & (x = 2, \ldots, 6) \\
\end{cases}

とすると、 D_3\langle X\rangle D_1\langle X\rangle D_2\langle X\rangleとは相似になっていない。 条件を満たすような k > 0が存在しないことは簡単に分かる。

さて、上のように相似を定義すると、次のことがすぐに言える:

命題
分布の相似 \proptoは同値関係である。

証明は簡単なので省略。

また、相似な分布は本質的に同じ分布であることが次の命題から分かる:

命題
確率変数 Xの2つの分布 D_1\langle X\rangle, D_2\langle X\rangleについて、 D_1\langle X\rangle \propto D_2\langle X\rangleとする。このとき、 \forall x, y \in Xについて D_1\langle X\rangle(x) : D_1\langle X\rangle(y) = D_2\langle X\rangle(x) : D_2\langle X\rangle(y)が成り立つ。

証明
 D_1\langle X\rangle \propto D_2\langle X\rangleなので、ある k>0が存在し、任意の x \in Xに対して D_2\langle X\rangle(x) = k D_1\langle X\rangle(x)となる。よって、  D_2\langle X\rangle(x) : D_2\langle X\rangle(y) = kD_1\langle X\rangle(x) : kD_1\langle X\rangle(y) = D_1\langle X\rangle(x) : D_1\langle X\rangle(y)\Box

規格化と確率分布

定義から分かるとおり、相似な分布はいくらでも作れる(適当に定数倍すればいい)ので、その相似な分布の集まりを代表するような分布を1つ考えたい。 そのときパッと思いつくのは、分布の値を全部足し合わせた値を1として基準にする方法。

今、確率変数 Xの分布 D\langle X\rangleに対して 0 \lt \int_{x \in X} D\langle X\rangle(x) dx \lt \inftyであると仮定する。 このとき、確率分布 P\langle X\rangle : X \rightarrow \mathbb{R}_{\ge 0}を次のように定義する:


P\langle X\rangle (x) = C\cdot D\langle X\rangle (x), \; \text{where} \; C = \frac{1}{\int_{x \in X} D\langle X\rangle(x) dx}

上記のように分布から確率分布を得ることを規格化といい、分布に掛けた定数 Cのことを規格化定数と呼ぶ。

 C = 1のとき P\langle X \rangle = D\langle X \rangleであるので、確率分布は規格化定数が1であるような分布であるとも言える。

さて、確率分布が相似な分布の集まりの代表として使えることは、次の命題から言える:

命題
確率変数 Xの2つの分布 D_1\langle X\rangle, D_2\langle X\rangleを規格化した確率分布がそれぞれ P_1\langle X\rangle, P_2\langle X\rangleであるとする。 このとき、 D_1\langle X\rangle \propto D_2\langle X\rangle \Leftrightarrow P_1\langle X\rangle = P_2\langle X\rangleである。

証明
 C_1 = \frac{1}{\int_{x \in X} D_1\langle X\rangle(x) dx}, C_2 = \frac{1}{\int_{x \in X} D_2\langle X\rangle(x) dx}とする。

 D_1\langle X\rangle \propto D_2\langle X\rangleならば、ある k>0が存在して D_2\langle X\rangle = k D_1\langle X\rangleなので、


\begin{align}
C_2 &= \frac{1}{\int_{x \in X} D_2\langle X\rangle(x) dx} \\
&= \frac{1}{\int_{x \in X} k D_1\langle X\rangle(x) dx} \\
&= \frac{1}{k \int_{x \in X} D_1\langle X\rangle(x) dx} \\
&= \frac{1}{k} C_1 \\
\end{align}

よって、


\begin{align}
P_2\langle X\rangle (x) &= C_2\cdot D_2\langle X\rangle(x) \\
&= \frac{1}{k} C_1 \cdot k D_1\langle X\rangle(x) \\
& = C_1 \cdot D_1\langle X\rangle(x) \\
&= P_1\langle X\rangle (x) \\
\end{align}

逆に、 P_1\langle X\rangle = P_2\langle X\rangleならば C_1\cdot D_1\langle X\rangle = C_2\cdot D_2\langle X\rangleであり  D_2\langle X\rangle = \frac{C_1}{C_2} \cdot D_1\langle X\rangleなので、 k = \frac{C_1}{C_2}とすれば D_1\langle X\rangle \propto D_2\langle X\rangleである。\Box

規格化の例

サイコロの例

規格化の例として、先程のサイコロの例を考えてみる。

サイコロの出目の分布 D_1\langle X\rangle(x) = 1に対する確率分布 P\langle X \rangleは、規格化定数が

 \frac{1}{\int_{x\in X} D_1\langle X\rangle(x) dx} = \frac{1}{1+1+1+1+1+1} = \frac{1}{6}

なので、

 P\langle X \rangle(x) = \frac{1}{6}

となる。

また、分布 D_2\langle X\rangle(x) = \frac{1}{6}については、規格化定数が

 \frac{1}{\int_{x\in X} D_2\langle X\rangle(x) dx}
= \frac{1}{\frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6} + \frac{1}{6}}
= \frac{1}{1}
= 1

であり D_2\langle X\rangle = P\langle X \rangleなので、分布 D_2\langle X\rangleは確率分布でもあることが分かる。

長さの例

別の例として、前回の、長さ1cmのものを測ったときの例も考えてみる。

この例では観測値を確率変数 Y = \{y \in \mathbb{R} | 0.9 \le y \le 1.1\}であるとし、その分布は

 D\langle Y\rangle(y) = 1−10|y−1|

であると考えた。

これを規格化した確率分布 P\langle Y\rangleは、

\displaystyle
\int_{0.9}^{1.1} 1 - 10|y-1| \;dy = \frac{1}{10}

であるので規格化定数は10であり、

 P\langle Y\rangle(y) = 10−100|y−1|

となる。

今日はここまで!