新規作成日:2015年11月29日
最終更新日:2016年9月22日

ここでは、ベイズの定理を主とした、ベイズ統計学の基礎を学びます。応用の仕方は置いといて、まずは基礎固めをしましょう。

 

この記事はベイズ推定を応用して状態空間モデルを推定する一連の記事の一つです。
記事の一覧とそのリンクは以下の通りです。
ベイズ統計学基礎
ベイズと統計モデルの関係
ベイズとMCMCと統計モデルの関係
Stanによるベイズ推定の基礎
Stanで推定するローカルレベルモデル

 

スポンサードリンク


 

目次

1.ベイズ統計学とは
2.事前確率と事後確率
3.ベイズ更新
4.データと事前確率と事後確率の関係
5.ベイズの定理
6.数式で見るベイズの定理

 

1.ベイズ統計学とは

ベイズ統計学とは、ベイズの定理を基礎とした統計学の体系です。
というわけで、ベイズの定理がわかったら、ベイズ統計学の基礎がわかります。
ここでは、ベイズの応用はすべて無視して、ベイズの定理というベイズ統計学の基礎を学びます。

 

2.事前確率と事後確率

ベイズの定理を学ぶにあたって、覚えておかなくてはならない用語があります。それが、事前確率と事後確率です。

事前確率とは、データを手に入れる前に想定していた確率のことです。
事後確率とは、データを用いて事前確率を修正した結果の確率です。

ある朝、目が覚めたとき、今日の天気は雨か晴れかわからないなと思いました。何となく、今日晴れる確率は50%かなと想像しました。
この50%が事前確率です。

窓の外を見ました。日の出はとっくに過ぎているのに外がどんよりとして曇っていました。
この結果を見て、雨が降る確率は80%くらいじゃないのかなぁと修正しました。
この80%が事後確率です。

 

3.ベイズ更新

事前確率を修正して事後確率にする流れを、数値を使ってみていきます。

男性が10人、女性が10人、クラスにいたとします。
部屋の中には、クラスのメンバーが一人だけ入室しています。
その人は、女性でしょうか、男性でしょうか。

何も情報がなければ、男性である確率も、女性である確率も「50%」だと推測するところだと思います。
この「50%」が事前確率です。

次は、データが手に入ったことによる、事前確率の変化を見ていきます。

部屋の前に赤い鞄が置いてありました。

男性10人のうち、1人は赤い鞄を持っています。
女性10人のうち、3人は赤い鞄を持っています。

女性のほうが、赤い鞄を持っている確率が高いです。

クラスのメンバー全員で見ると、20人中4人、すなわち20%の人が赤い鞄を持っています。
一方、女性だけでみると、10人中3人、すなわち30%の人が赤い鞄を持っています。

30÷20=1.5ですね。すなわち、「女性はクラス平均の1.5倍、赤い鞄を持ちやすい」ことになります。

そして、部屋の前には赤い鞄が置かれている。

ということで「部屋の中にいる人は、1.5倍、女性でありやすい」と推察されます。

部屋の中にいる人が女性である確率は、事前確率を1.5倍した50×1.5=75%となります。

事前確率が、「赤い鞄が置いてあるというデータ」によって1.5倍されました。
変化した結果の75%という確率を、事後確率といいます。

このように、データを用いて事前確率を変化させることを「ベイズ更新」あるいは「ベイジアンアップデート」などと呼びます。

 

4.データと事前確率と事後確率の関係

事前確率とは「データを手に入れる前に想定していた確率」のことです。ただし、これはデータを全く持っていないことを意味しているわけではありません。
事前確率と事後確率は、あくまでも「追加で」データが得られる、その前後の確率です。

例えば、先ほどの例で「赤い鞄が置かれている」というデータが得られました。これによって、事前確率50%が、事後確率75%に変化しました。
この時の事前確率・事後確率は以下の通りです。

事前確率:クラスの人数構成のみから判断された確率
事後確率:「赤い鞄が置かれている」というデータを用いて更新された確率

さらに部屋の前に黄色いハンカチが落ちていたとしましょう。
男性で、赤い鞄を持っていて、かつ黄色いハンカチを持ってきている人はいないということがわかっていたとします。そうしたら、部屋の中にいる人は100%女性だとわかります。

この時の事前確率・事後確率は以下の通りです。

事前確率:「赤い鞄が置かれている」というデータを用いた確率
事後確率:「黄色いハンカチが落ちている」という追加データを用いてさらに更新された確率

このように、データが追加されるたびに、事前確率を更新して、事後確率を計算していきます。

 

5.ベイズの定理

ベイズの定理とは、先ほどのベイズ更新を数式で書き下したものにほかなりません。確率の公式から導いてもよいのですが、ベイズ更新を理解していれば、直接この式から始めたほうが早いでしょう。

$$事後確率=事前確率\times{修正項}$$

修正項とは、データが追加されることによる変化率のことです。

ここの修正項をもう少し詳しく書き下します。
先ほどの「赤い鞄が置かれていたときに、部屋の中に女性がいる確率」を求める例をそのまま使います。

$$事後確率=事前確率\times{\frac{部屋に女性がいるという状況で、その人が赤い鞄を持っている割合}{クラス平均での、赤い鞄を持っている割合}}$$

「クラス平均よりも、女性のほうが1.5倍赤い鞄を持ちやすい」のであれば、事前確率を1.5倍すればよいのでした。そうやって、事後確率75%が求まりましたね。

これをもう少し一般化します。

$$事後確率=事前確率\times{\frac{ある状況で、そのデータが得られる確率}{平均的に、そのデータが得られる確率}}$$

事前確率は「その状況が正しい確率」です。
事後確率は「データが手に入った後に、その状況が正しいといえる確率」です。
これがベイズの定理です。
データの使われ方に注目してください。

私たちが知りたいことは「部屋の中の状況」です。部屋の中に女性がいるのか男性がいるのか知りたいと。
けれども、部屋の中は見ることができません。
そこで、ベイズ更新を使って、見ることのできないブラックボックスの内部を推察するわけです。

 

6.数式で見るベイズの定理

今度は、日本語ではなく、数式を使ってベイズの定理を見ていきます。数式が苦手な方は、読み飛ばしていただいても結構です。

ベイズの定理の数式は以下の通りです。

$$P(θ|X)=P(θ)\times{\frac{P(X|θ)}{P(X)}}$$

ちなみに、まったく同じ式ですが、以下のような形式をとる教科書が多いです。

$$P(θ|X)=\frac{P(X|θ)P(θ)}{P(X)}$$

順番を入れ替えただけですので、違いはありません。ただし、この書き方ですと、ベイズ更新のイメージがつきにくいです。代わりに、式が短く簡潔になりました。どちらを使うかは、お好みでどうぞ。私は1つ目の式でいつも解釈しています。

ここで、記号の説明をします。P( )は確率(Probability)の頭をとったものであり、文字通り「確率」を現します。
「X」はデータです。よって、右辺の分母にある「P(X)」は、「(平均的に)そのデータが得られる確率」となります。
次の「θ」は、「見えない内部の状況」です。

「赤い鞄が置かれていたときに、部屋の中に女性がいる確率」を求める例を使って説明します。
Xが「赤い鞄が置かれている」という私たちが見ることのできるデータです。
θが「部屋の中に女性がいる」という私たちの目に見えない状況です。
P(X)が「クラス平均での、赤い鞄を持っている確率」です。
P(θ)が「部屋の中に女性がいる」という状況である「事前確率」です。

カッコの中に縦棒が入っているときは、縦棒の右側が条件を表します。
例えばP(部屋の中に女性がいる|赤い鞄が置かれている)では、「赤い鞄が置かれているというデータが手に入ったという条件での、部屋の中に女性がいる確率」を表します。これがP(θ|X)ですね。
このP(θ|X)こそが「事後確率」であることに気を付けてください。

逆に、P(X|θ)は「 部屋に女性がいるという状況で、赤い鞄が置かれている確率」です。

最後の数式はやや難易度が上がりましたが、もしわからなければ、いったんわきに置いておいてもらっても構いません。
その代わり、ベイズ更新の考え方については、ぜひ理解をしてください。
 

参考文献

参考文献です。画像はAmazonへのリンクとなっています。

Excelでスッキリわかる ベイズ統計入門

ベイズ統計学の入門書はたくさんあります。
自分に合ったものを購入されればよいかなと思いますが、ここでは、紫の表紙のこちらの本を紹介します。
この本は名前の通りExcelを使った計算例が豊富です。
また、多くの統計入門書を書かれている方が著した本ですので、安心して読めるかなと思います。
初めてベイズを学ぶ方にお勧めです。
後半部分はちょっと難しいですが、前半だけでも読まれるとよいかと思います。
 
図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術

 
紫の本と同じ作者様の書かれた本です。
こちらは新書なので読みやすそうです。
私としては、ベイズがとうとう新書になったかという心持です。ベイズは普及期を通り越したのかもしれませんね。
 
基礎からのベイズ統計学:
ハミルトニアンモンテカルロ法による実践的入門

こちらは比較的最近に出たベイズ統計学の入門書です。
紫の表紙の本よりも難易度は一気に上がりますが、文句なしの良書です。
ベイズの基礎からMCMCの考え方、そしてHMC(ハミルトニアンモンテカルロ法)、
そしてStanという統計ソフトの使い方まで書いてくれているという至れり尽くせりの本です。
私が今回の連載記事を書こうと思ったのは、実はこちらの本を読んで感化されたというのもあります。
抜群に良い本です。ベイズを学ぶなら、外せない一冊かと思います。
 

リンク

この記事はベイズ推定を応用して状態空間モデルを推定する一連の記事の一つです。
記事の一覧とそのリンクは以下の通りです。
ベイズ統計学基礎
ベイズと統計モデルの関係
ベイズとMCMCと統計モデルの関係
Stanによるベイズ推定の基礎
Stanで推定するローカルレベルモデル
 

 

スポンサードリンク