あたまの なかは からっぽ!

~スカスカな脳みそでれっつプログラミン愚~

ベイズ統計についての学習[1]

どうやら機械学習には、ベイズ統計とやらが非常に重要であるらしい。

ということで、とある入門書を一冊読んでみました。

それを読んで理解したことなどを書いてみます。

※使用した参考書などは後でまとめます。


ベイズ統計の特徴

  • 最近になって注目されている統計の手法
  • 従来の統計学よりも確率論を重視している
    • 特に、母数を確率変数として扱う
  • 従来の統計学よりも応用範囲が広い
  • 数学的厳密さに欠ける部分がある(恣意的である)
  • 人間の手では計算量が多い

ベイズ統計/確率論における重要そうな基本用語

(以下では事象A、事象B、データD、仮定HのことをそれぞれA、B、D、Hと略して記述する)

  • 同時確率
    • AとBが同時に起こる確率
  • 条件付き確率
    • Aが起こった場合にBが起こる確率
  • 乗法定理
    • AとBの同時確率 = Aが起こった場合にBが起こる確率 × Aが起こる確率
    • AとBの同時確率 = Bが起こった場合にAが起こる確率 × Bが起こる確率
  • 加法定理
    • [条件]事象Aと事象Bが背反であるとき
    • AまたはBが起こる確率 = Aが起こる確率 + Bが起こる確率
  • ベイズの定理
    • Aが起こった場合にBが起こる確率 × Aが起こる確率 = Bが起こった場合にAが起こる確率 × Bが起こる確率
      • これは乗法定理より等式であることが分かる。等式変換すると
    • Aが起こった場合にBが起こる確率 = Bが起こった場合にAが起こる確率 × Bが起こる確率 / Aが起こる確率
      • また、下のように読み替えることができる
    • Dが得られたときにHが成立している確率 = Hの元でDが生じる確率 × Hが成立する確率 / Dが得られた確率
  • 尤度(ゆうど)
  • 事前確率/事前分布
  • 事後確率/事後分布
  • 理由不十分の原則
    • 事前確率/事前分布が分からない場合はとりあえず適当な値を入れて良い
  • ベイズ更新
    • 新旧データがある場合、旧データの事後確率/事後分布を新データの事前確率/事前分布として利用して良い
      • 機械学習の中核となる考え方であると思われる
  • 逐次合理性
    • データが複数ある場合に、どの順に計算しても計算結果は変わらない

ベイズ統計の利用

  • 実際に得たデータを基にベイズの定理に当てはめて、確率的な予測を行う
  • 実際に得たデータが複数存在する場合は1つずつ順に当てはめていく
  • ベイズの定理の分母が与えられていない場合は、乗法定理と加法定理によって導くことができる
  • データを得るほど、理由不十分の原則とベイズ更新によって、初期の適当な事前確率/事前分布がもっともらしい値に置き換わっていくので、予測の精度が向上していく(=学習)

まとめ

入門書なので、簡単な算数だけで計算できる例などが多く、ベイズ統計というものをある程度俯瞰することができたと思う。
しかし、比較的簡単な例ばかりな上に(入門だから当たり前なのだが)喩え話が多かったので、実のところ理解したようなそうでないような感じではある。
(だからこそ俯瞰的な甘い理解ができたとも言える)
より具体的な活用法などはまた別の参考書を読むべきなのと、自分の手を動かして計算したりプログラミングするなりしなければ結局身に付かないので、それは追々やろうと思います。