mathjax

2017年12月27日水曜日

「完全独習 ベイズ統計学入門」を読む。

完全独習 ベイズ統計学入門
小島 寛之
ダイヤモンド社

「ベイズ統計学」って何?な所から読み始めた。
第1部は普通に読める。面倒な所も有るけれど読める。 第2部が問題。これは何を言いたいのか?

第14講

これまで文章で表現されてきたところが、ここからは数式を使って表現されるようになる。

  • 確率 - 出来事に0~1の数値を対応させること
    • 確率モデル - 出来事と確率を決めたもの。但し割り当てる確率の合計は1とする。(正規化条件)
  • 素事象 - この本では素事象という表現が出てくるけれど、「続・わかりやすいパターン認識」(石井 健一郎、上田 修功)に出てきた根元事象(elementary event)というものではないか?
  • 事象
  • 事象の確率はその事象を構成する素事象の確率の和

第15講

ベイズ推定は「情報が得られたときに確率が変化する」。それを記述するのが条件付確率。

条件付確率とは、得られた情報である事象が全体となると再設定して、可能性のなくなった素事象を消滅させて、改めて比率を取ったもの。

15-3 タイプの与えられた確率=「条件付確率」

条件付確率の使い方に2種類あることが書かれている。
  • タイプ毎(=素事象)毎での確率を示す。
  • 事後確率を計算する。
15-4 事後確率を条件付確率の公式から理解する
ベイズ推定は「結果」から「原因」を計算する。
条件付確率の()内の|の前後が入れ替わることがベイズ推定のキモだと小島先生も石井先生も仰る。
そしてこの分かり切った回りくどい説明が永遠と続く理由が、「ベイズの公式」を導出したかったのだということがp183で分かる。
今の計算はこれまでの面積図の方法をそのまま数式化しただけだということを明らかにしましょう。”
小島先生の本でベイズ推定は面積で考えるものだと思い、数式を出されても面積のイメージが浮かぶようになってしまった私としては、明らかにしてもらうまでもなく、「そのまんまじゃん」という気持ちにしかならない。
“ベイズ推定で事後確率を計算する場合、(7)式の分母はあまり気にしなくてもよい”
“ポイントになるのは、比例式(8)であって(7)や(9)の分母は正規化条件を復旧しているものにすぎないものだから、無視しても差し支えありません。あくまで大事なのは比例関係、ということなのです。記憶にとどめるべきなのは、比例式だけで良いのです。”

$$p(B|黒)=\frac{p(B)p(黒|B)}{p(A)p(黒|A)+p(B)p(黒|B)}\tag{7}$$
$$p(A)p(黒|A):p(B)p(黒|B)\tag{8}$$


第16講

「確率分布図」と「期待値」
第14講にあるように、確率モデルは、素事象とそこへの確率の割り振りによって定義される。
「同様に確からしい」

小島先生はこの本でベイズ推定を面積図を使うことで直観的に理解できるようにした。
但し、面積図で表現できるのは、確率分布が離散的な場合のみ。
これに代って、連続系で利用できるのが確率分布図。縦軸が確率では無く確率密度となる。確率は確率密度と幅の面積によって求められるため、ある一点の確率は0となる。

この第16講の説明は、確率密度の定義を明確に文字であらわすことを忘れてしまっているために、「あれ?確率密度っていつから出て来たんだっけ?それは何だったっけ?」と読者を混乱に陥れる結果となっている。

第17講 「ベータ分布」

突然、「ベータ分布」という確率分布の紹介がされる講。
式及び、指数部の値によってそのグラフがどのように変化するかということだけが説明される。

ベータ分布
$$y=(定数)\times x^{\alpha -1}(1-x)^{\beta -1}\qquad (0\leqq x \leqq 1)\tag{1}$$

$\alpha$と$\beta$は1以上の自然数で、ベータ分布の種類を特定するもの。
定数は正規化条件(全事象の確率が1)を成立させるための調整的な数値で、ベイズ推定に於いてはそれほど重要ではない。

ベイズ推定が初学者にハードルが高いのは、ベータ分布の面積から確率を求めるように、かなり初歩でも微分積分の考え方が必要になるから。スタンダードな統計学(ネイマン・ピアソン統計学)では、初歩の所はそこを避けて説明をできる。

第18講 「期待値」

期待値の計算は、確率分布図の横軸上の数値と縦軸の数値を掛けて合計をする。
これは「重みを付ける」という意味になる。このような計算を「加重平均」と呼ぶ。

期待値は確率分布図の釣り合いの支点。

連続型の確率分布の期待値を求める場合には、積分を行う必要がある。
ベータ分布の期待値は、$$ベータ分布の期待値=\frac{\alpha}{\alpha + \beta}$$になる。(なんと便利な)

















0 件のコメント:

コメントを投稿