mathjax

2017年12月25日月曜日

「続・わかりやすい パターン認識」を読む。

目次

  • 第1章 ベイズ統計学
    • 1・1 試行と事象
    • 1・2 ベイズの定理
    • 1・3 頻度から確信度ヘ
    • 1・4 逆確率 -結果から原因を-
    • 1・5 三つの扉問題
  • 第2章 事前確率と事後確率
    • 2・ 1 事後確率の計算
      • 〔1〕 コインを1度だけ投げる場合
      • 〔2〕 コインをn回投げる場合
    • 2・2 ベイズ更新
    • 2・3 ベイズ更新の実験
  • 第3章 ベイズ決定則
  • 第4章 パラメータ推定
  • 第5章 教師付き学習と教師なし学習
  • 第6章 EMアルゴリズム
  • 第7章 マルコフモデル
  • 第8章 隠れマルコフモデル
  • 第9章 混合分布のパラメータ推定
  • 第10章 クラスタリング
  • 第11章 ノンパラメトリックベイズモデル
  • 第12章 ディリクレ過程混合モデルによるクラスタリング
  • 第13章 共クラスタリング
  • 付録A 補足事項

第1章 ベイズ統計学

p2 確率変数

“ここで、標本空間上の各根源事象に対して数値を対応させ、それらの数値のいずれかをとる変数$X$を導入する。変数$X$がどの数値をとるかは偶然に支配されていて確定できないが、$X$の値が$x$となるような確率が定まっているとき、$X$を確率変数(random variable)という。”
 ぱっと意味が分からなかったが、「$X$の値が$x$になる確率が幾つ」 と列挙できるようなものを確率変数と言うということだった。

また、
“確率密度関数の場合には$P(X=a)=0$であり、ある一点での確率は$0$となる点が、確率関数とは異なることに注意する必要がある。”
とあり、「確率密度が$0$となる」の間違いではないかと思ったが、確率が$0$になるで正しいようだった。“確率密度関数の場合には”ではなく、“Xが連続的な値を取る場合には” と説明すべきものだった。
“Xが連続的な値を取る場合には確率密度関数の場合には$P(X=a)=0$であり、ある一点での確率は$0$となる点が、非連続な場合とは確率関数とは異なることに注意する必要がある。”

p6 独立(independent)

同時確率からの流れで説明が続いているので分かりにくいが、最後にきちんと例が述べられているように、独立は事象$X$と事象$Y$の確率分布が互いに関係していないことを意味していた。$$P(X|S)=P(X)\tag{1$\cdot$18}$$の意味するところはつまり、$X$の確率は$S$の値に関係していないということ。

本来であれば、$$P(X,S)=P(X|S)P(S)\tag{1$\cdot$17}$$$P(X,S)$は、$P(X|S)$に$P(S)$を掛け合わせて表現されるべきものだが、$(1\cdot18)$が成り立っているので、$$P(X,S)=P(X)P(S)\tag{1$\cdot$19}$$となる。

p8 事前確率(priori probability)、事後確率(posteriori probability)

定理 1.1 ベイズの定理(Bayes' theorem)$$\begin{eqnarray*}P(S|X)&=&\frac{P(X,S)}{P(X)}\tag{1$\cdot$23}\\
&=&\frac{P(X|S)P(S)}{P(X)}\tag{1$\cdot$24}\end{eqnarray*}$$
“事後確率(条件付き確率)$P(S|X)$は、同時確率$P(X,S)$を「条件」の確率$P(X)$で正規化した形になっている。” 
“ベイズの定理は、観測結果$X$を得ることによって、事前確率が事後確率に変化する変換式と捉えることもできる。”

p11 逆確率 -結果から原因をー 

“ベイスの定理は、結果が判明したときにそれをもたらした原因の確率を求める式になっている。”

第2章 事前確率と事後確率

p26 事後確率の計算

[1] コインを1度だけ投げる場合

コイン $\omega_1$ $\omega_2$ $\omega_3$
含有率 $\pi_1$ $\pi_2$ $\pi_3$
表の出る確率 $\theta_1$ $\theta_2$ $\theta_3$

1枚コインを取り出して投げて表が出たとき、コインが$\omega_1$、$\omega_2$、$\omega_3$である確率。
ベイズの定理から、
$$\begin{eqnarray*}P(\omega_i|X=H)&=&\frac{P(\omega_i)P(X=H|\omega_i)}{P(X=H)}\\
&=&\frac{P(\omega_i)P(X=H|\omega_i)}{\displaystyle\sum_{j=1}^3 P(\omega_j)P(X=H|\omega_j)}\\
&=&\frac{\pi_i\theta_i}{\displaystyle\sum_{j=1}^3 P\pi_j\theta_j}\\
\end{eqnarray*}$$

[2] コインをn回投げる場合

取り出したコインをn回投げたとき、
$$P(\omega_i|\boldsymbol x^{(n)})=\frac{P(\omega_i)P(\boldsymbol x^{(n)}|\omega_i)}{P(\boldsymbol x^{(n)})}$$
ポイントは、$P(\boldsymbol x^{(n)}|\omega_i)$と$P(\boldsymbol x^{(n)})$をどう求めるか。

前者は、試行の独立性を使って、
$$P(\boldsymbol x^{(n)}|\omega_i)=P(x_1|\omega_1)P(x_2|\omega_2)\cdots P(x_n|\omega_n)={\theta_i}^r(1-\theta_i)^{n-r}$$
後者はこれを使って表現できるので、
$$P(\boldsymbol x^{(n)})=\displaystyle\sum_{j=1}^3 P(\omega_j)P(\boldsymbol x^{(n)}|\omega_j)=\displaystyle\sum_{j=1}^3 P(\omega_j){\theta_i}^r(1-\theta_i)^{n-r}=\displaystyle\sum_{j=1}^3 \pi_j{\theta_i}^r(1-\theta_i)^{n-r}$$
これらを使って最初の式は、
\begin{eqnarray*}P(\omega_i|\boldsymbol x^{(n)})&=&\frac{P(\omega_i)P(\boldsymbol x^{(n)}|\omega_i)}{P(\boldsymbol x^{(n)})}\\ &=&\frac{\pi_i{\theta_i}^r(1-\theta_i)^{n-r}}{\displaystyle\sum_{j=1}^3 \pi_j{\theta_j}^r(1-\theta_j)^{n-r}}\end{eqnarray*}
となる。

p31 ベルヌーイ試行(Bernoulli trials)

順列の計算
n個のものからr個取りだして並べるとき、その並べ方の総数は、$${}_n \mathrm{P}_r = \frac{n!}{(n-r)!}$$ 組み合わせの計算
n個のものからr個取りだしたとき、その取りだし方の総数は、$${}_n \mathrm{C}_r = \frac{{}_n \mathrm{P}_r}{r!} = \frac{n!}{r!(n-r)!}$$
“コインを何回も投げるときのように、同一条件で同じ試行を繰り返すとき、各回の試行は独立で、他の試行に影響を与えない。このような試行をベルヌーイ試行(Bernoulli trials)という。一回の試行で、ある事象が生起する確率が$\theta$であるとき、その試行を$n$回繰り返してその事象が$r$回生起する確率$P_n(r;\theta)$は、$$P_n(r;\theta) = {}_n\mathrm{C}_r\,\theta^{\,r}\,(1-\theta)^{n-r}\tag{2$\cdot$26}$$となる。”
明示されていないが、ベルヌーイ試行の条件には“結果が2種類しかない”も含まれる。

この確率になぜ、${}_n\mathrm{C}_r$が含まれるのかが最初は分からなかったのだが、直観的に分かる例を考えてみて分かった。コインを2回投げて1回表が出る確率と、2回表が出る確率は1回表が出る確率の方が高い。なぜかと言えば、2回表が出る為には必ず「表・表」でなければならないが、1回表の場合には「表・裏」「裏・表」の2種類の場合が許容されるので確率が高くなる。下の絵は$n=10$、$\theta=0.5$でコインを投げたときの確率を表にしたもの。発生回数$r$が半分の5回に近いほど組み合わせが多く、結果として発生確率$P_n(r;\theta)$も高くなっている。ちなみに$\theta=0.5$なので、$\theta^{\,r}\,(1-\theta)^{n-r}$はどの場合でも$0.5^{10}$になっている。また、確率なので当然だが$\sum_{r=0}^{10}P_n(r;\theta)=1$だった。

(${}_n\mathrm{C}_r$はExcelでcombin(n,r)という関数で計算ができる。)

そしてこれを理解してから、飛ばし読みしていた例題2.2は発生回数$r$だけでなく、発生順序$x_1x_2\cdots x_t\cdots x_n$も限定していているので、確立が${}_n\mathrm{C}_r$を含まない$${{\theta}_i}^r(1-{\theta}_i)^{n-r}\tag{2$\cdot$21}$$であることに注意文が付されていることに気付いた。

図2・2の二項分布はn=10の場合だが、これをn=100にしてみた。

二項分布 ($n=100$)
縦軸:$P_n(r;\theta)$ 横軸:$r$

nの数が増えているので確率の値のピークは下がっているが、ピークの位置は$\theta_1=0.8$、$\theta_2=0.6$、$\theta_3=0.3$が一番高くなる形を維持する。

0 件のコメント:

コメントを投稿