確率密度関数と正規分布
ここでは統計学の難所、確率密度関数について説明します。
確率密度関数の意味と使い方をぜひ学んでください。
目次
1.確率密度関数とは何か
2.なぜ確率密度関数が必要か
補足:確率と確率密度
3.正規分布
4.正規分布の使い方
5.正規分布がある時とない時でのデータ分析の方法の比較
6.「○○分布に従うと仮定する」ことの意義と弊害
補足:中心極限定理
スポンサードリンク
1.確率密度関数とは何か
確率密度関数とは、確率、あるいは確率密度を計算する関数のことです。
例えば、0.2×aで確率が求まるとします。aが3なら、確率は0.6です。このとき「a =3になる確率は0.6」と解釈します。
「0.2×a」でも、「a÷3+0.01」でもなんでもよいです。確率を計算する関数が確率密度関数です。
ただし、確率分布は、合計値が1になる必要があります。
なので、例えば確率密度関数が「0.2×a」なのだとしたら、xのとりうる値は{0.5,1.5,3}だけ、というように制限をつけることになります。
確率密度関数が「0.2×a」、aのとりうる範囲が{0.5,1.5,3}とすると、確率分布は以下のようになります
{P(0.5),P(1.5),P(3)}={0.1,0.3,0.6}
このとき、以下のように解釈します。
a =0.5になる確率は0.1
a =1.5になる確率は0.3
a =3 になる確率は0.6
なお、aのとりうる値を制限するのではなく、aをいくら動かしても、合計値が常に1となるよう、式を工夫することもあります。
2.なぜ確率密度関数が必要か
(2019年3月19日修正)
確率密度関数を使う理由は、ただ一つ。解析が楽になるからです。
確率密度関数を使わずに確率分布を求めようと思ったならば、データから度数分布を直接推定することになります。
度数分布を求めるためには、多くのデータが必要となります。
例えば、身長のデータから度数分布を求めるとします。
まずは、身長をいくつかのカテゴリに分けます。
100㎝~120㎝:カテゴリA
120㎝~140㎝:カテゴリB
140㎝~160㎝:カテゴリC
160㎝~180㎝:カテゴリD
180㎝~200㎝:カテゴリE
で、カテゴリAが4人、Bが7人……と求めていきます。
このとき、調査した人数が5人とか6人では、正しい度数分布が得られることはありません。カテゴリAに入る人が0人ということだってあるでしょうから。
度数分布をデータから直接求めるのにはデータが多く必要になります。
一方、確率密度関数を使うと、計算をするだけで確率分布が求められます。
心配しなくても、計算をするのはコンピュータの仕事です。
なので、確率密度関数を使うと、確率分布の推定が飛躍的に楽になり、ひいてはデータの解析がとても楽になるのです。
そして、「どのような確率密度関数を使うべきか」ということを判断するため、データを使う、というイメージになります。
補足:確率と確率密度
この記事では意識して分けることはしていませんが、確率密度と確率はその意味合いが異なります。
ここでは補足として、両者の比較と説明をします。
確率密度を積分すると、確率になります。
確率密度を使う理由は、それ単体では確率が常に0になる状況を扱うためです。
例えば、身長160㎝だと主張する人がいたとします。
しかし、お医者さんがちゃんと測りなおすと、161.21㎝となりました。
しかし、さらに電子顕微鏡を使って再度測定すると、161.20987㎝となりました。
さらに100年後、さらに技術が進み、スーパー電子顕微鏡で測定すると161.2098695730㎝となり……。
このように、測定の精度を細かくすると、「ピッタリ160㎝」の身長など存在しないことが分かります。
すると、「身長が160㎝ちょうどになる確率は0」となるわけです。
もちろん、身長が161㎝ちょうどになる確率も0であり、170㎝ちょうどになる確率も0です。
このように、数量データだと、常に確率が0となってしまいます。
そこで、確率密度が使われます。
確率密度は、それ自体では確率と異なります。
ただし、160㎝~161㎝の間のすべての確率密度を足し合わせると「身長が160㎝~161㎝になる確率」が計算できます。
なお「すべての確率密度を足し合わせる」という行為を専門的に言うと「確率密度を、身長160㎝~161㎝の間で積分する」という呼び方になります。
よって、確率密度を積分すると、確率になります。
確率密度を使う理由は、それ単体では確率が常に0になる状況を扱うためということになります。
※なお、この一連の記事の中では、確率密度を求める関数ではなく、確率が直接求まる関数であっても、「確率密度関数」と表記することにします。
本によっては「確率関数」と表記されることもあるのですが、ここでは統一しておきました。
スポンサードリンク
3.正規分布
正規分布はもっとも有名な確率分布の一つです。正規分布は誤差分布とも呼ばれます。「正しい値」があって、そこから誤差によってぶれた結果がデータとして得られることを想定しています。
本来は正規分布の詳細についても解説すべきですが、ここでは割愛します。詳しくは参考文献をご参照ください。ここでは、正規分布の使い方、すなわちデータと正規分布の確率密度関数を使って、確率分布を計算する方法だけを解説します。
正規分布の確率密度関数は以下のようになります。
なお、μは平均値(期待値)であり、σ²は分散、xはデータの値です。
$$f(x)=\frac{1}{\sqrt[]{2\pi\sigma^2}}
e^{\{-\frac{(x-μ)^2}{2\sigma^2}\}}$$
少々複雑な数式ですが、ここで理解してほしいことは1点だけです。
正規分布の確率密度関数を使うと、「平均値(期待値)、分散」が求まれば、確率密度がすくに計算でき、ひいては確率分布も求められるということです。
4.正規分布の使い方
統計学とは「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」です。
「手持ちのデータを分析する」ことによって、データから確率分布を計算します。
正規分布の場合だと、期待値と分散の2つが定まれば、確率密度関数が決まります。
期待値と分散の計算方法は記述統計の基礎で解説した通りです。なお、分散は、不偏分散を使うのが普通です。
「まだ手に入れていないデータについて議論する」ために、「手持ちのデータは、先ほど計算された確率分布から得られた」と考えます。そして「まだ手に入れていないデータも、同じ確率分布から得られるはずだ」と考えます。
すなわち、先ほど推定された正規分布から、「まだ手に入れていないデータ」も得られるはずだと考えるわけです。
やってみましょう。
データから期待値と(不偏)分散を求めてしまって、先ほどの式に代入してしまえば準備完了です。例えば、期待値が3で、不偏分散が4と、データから計算できたとしましょう。
μ=3、σ²=4を代入するとこうなります。
$$f(x)=\frac{1}{\sqrt[]{2\pi\times4}}
e^{\{-\frac{(x-3)^2}{2\times4}\}}$$
あとはデータxを変化させて足し上げる(積分する)と、その区間にデータが入る確率が計算できます。
例えばデータを「-∞~0」まで変化させて、その間の確率密度をすべて足し上げる(積分する)と、データxが「-∞~0」の間に入る確率が計算できます。言い換えると、データが0以下の値になる確率が求まるというわけです。
Rという統計分析のフリーソフトを使えば簡単に計算できます(Rの使い方についてはこちらのページをご参照ください)。期待値3、分散4(すなわち標準偏差(sd)が2)の正規分布において、データが0以下になる確率は以下の通りです。
> pnorm(q=0, mean=3, sd=2)
[1] 0.0668072
およそ6.7%となりました。
まだ手に入れていないデータに関しても、そいつが0以下となるのは6.7%になるのだろうと推測できるというわけです。
統計学の目標クリアです。
ちなみにExcel2016では「=NORM.DIST(0,3,2,TRUE)」とすれば同じ値になります。
古いExcelでも「=NORMDIST(0,3,2,TRUE)」とすればOKのはずです。こちらも分散ではなく標準偏差を引数に入れていることに注意してください。
昔は統計学の教科書の後ろのほうに表が載っていて、その表を読んで確率を計算していました。しかし、21世紀にもなってそんな表を読み込む(あるいは読むための勉強をする)のは時間の無駄なのでお勧めしません。
是非、RやExcelなどを使ってパソコンで計算してください。
5.正規分布がある時とない時でのデータ分析の方法の比較
例えば、身長のデータから確率分布を求めるとします。
まずは、身長をいくつかのカテゴリに分けます。
100㎝~120㎝:カテゴリA
120㎝~140㎝:カテゴリB
140㎝~160㎝:カテゴリC
160㎝~180㎝:カテゴリD
180㎝~200㎝:カテゴリE
正規分布がないときは、100人くらいを調査して、カテゴリAが4人、Bが7人……と求めていきます。
このとき、調査した人数が5人とか6人では、正しい度数分布が得られることはありません。カテゴリAに入る人が0人ということだってあるでしょうから。
一方、正規分布があれば、わざわざ数え上げる必要はありません。
身長の期待値と不偏分散をパソコン(RやExcelなど)で計算し、またコンピュータを使って確率を計算するだけとなります。
ほとんどをコンピュータ任せにできて、大変簡便です。
また、次のページ以降で解説する、区間推定や統計的仮設検定を行うのもとても楽になります。
統計学の教科書にいつも(「漫画でわかる統計学」でさえ!)正規分布の複雑な数式が出てくる理由は一つだけ。
データ分析が簡単になるからです。
6.「○○分布に従うと仮定する」ことの意義と弊害
データ分析を行う際、あるいは解析手法の勉強をするとほぼ必ずと言ってよいほど「データは正規分布に従うと仮定する」など「○○分布に従うと仮定する」という文言が出てきます。
ある特定の確率分布(正規分布など)に従うと仮定しておけば、先ほど見てきたように、全部コンピュータ任せで簡単に解析できて便利です。解析の手順も整備されていて、マニュアルに従っていればある程度の解析ができてしまうほどです。
なので、正規分布を含めて「○○分布に従うと仮定する」という仮定を置くことは、統計学においてはよくあることです。楽になるので大変ありがたい仮定です。
しかし、何も考えずに「楽だから」という理由だけで正規分布を仮定するのは危険です。
正規分布に従っていないデータを解析している可能性だってあるからです。
確率分布には、正規分布以外にも、ポアソン分布や二項分布など様々な確率分布があります。データが得られるプロセスもやはり様々あり、正規分布だけですべてに対応することができないからです。
そのため、データをよく見て、その都度適切な確率分布を選ぶ必要があります。
今回の一連の連載記事では紹介しませんが、そのうちは一般化線形モデルなど、正規分布以外の確率分布も扱うことのできる手法についても学んでいただければと思います。
補足:中心極限定理
正規分布は、統計学の教科書にほぼ必ず出てきます。
正規分布が重要である理由は「中心極限定理」と呼ばれる定理にあります。
中心極限定理は以下のことを示します。(2019年3月19日修正)
「正規分布以外の分布を含む様々な確率分布においても、そこからサンプリングした標本の期待値、あるいは合計値は、サンプルサイズを大きくすれば、正規分布に近づく」
例えばサイコロを少し多めに1万回振ったとします。さいころの出目そのものは、正規分布に従わないことに注意します。
そして、1万回のサイコロの目の期待値を計算します。
すると、このサイコロの目の期待値は、正規分布に従います。
期待値あるいは合計値を計算すると、正規分布は知らず知らずのうちに現れます。
正規分布の取り扱い方を学んでいると、解析にとても便利だということです。
次の記事→推定の基礎
参考文献
平均・分散から始める一般化線形モデル入門 この記事を書いた管理人の執筆した本です。 この記事は「平均・分散から始める一般化線形モデル入門」の第5部を抜粋して大幅に加筆訂正を加えたものです。書籍では、正規分布の成り立ちなども解説しています。 この書籍では、統計学の基礎の基礎から始めて、一般化線形モデルというやや高度な手法が使えるところまで説明しました。このサイトで統計学の基礎を学ばれた後に読まれると、ちょうどよいかと思います。 |
「平均・分散から始める一般化線形モデル入門」を購入されるときの注意
定価は2500円(消費税8%で2700円)ですが、Amazonさんなどでは在庫が不足しており、中古価格が高騰することがあります。
重版したので出版社には在庫が残っています。出版社のサイトからですと送料無料・書籍代は後払い・最短翌日出荷で、確実に定価で手に入ります。
以下のネット書店も併せてご利用ください。
|
|
|
|
マンガでわかる統計学 この記事を書くのに参考にした本です。 漫画とはいえ内容はしっかりしており、統計学の基礎を学ぶのに最適です。 |
統計学入門 (基礎統計学) この記事を書くのに参考にした本です。 かなり内容の濃い、言い方を変えると難しい本ですが、是非一度読まれることをお勧めします。 20年間売れ続けている、統計学のロングセラーです。 |
スポンサードリンク
2016年5月14日:新規作成
2017年4月16日:リンクの追加・修正など
2019年3月19日:本文を一部修正(読みやすさの向上、中心極限定理の説明)
「2.なぜ確率密度関数が必要か」と「5.正規分布がある時とない時でのデータ分析の方法の比較」で内容が重複してるので、整理すればもっとよくなると思います。
>度数分布をデータから直接求めるのにはデータが多く必要になります。
>一方、確率密度関数を使うと、計算をするだけで確率分布が求められます。
の部分に「データ無しで確率分布が分かる」ような感じがあるので、「わずかなデータ(と分布についての仮定)で求まる」という感じを出した方がいいと思います。
マグロ様
管理人の馬場です。
コメントありがとうございます。
より良い記事になるよう努めてまいります。
冒頭の説明おかしいですよ。
確率密度関数を積分すると確率になるのであり、この2つは違う物です。
速度を時間で積分すると距離になりますが、確率密度と確率の関係はそういう関係ですよ。
それと確率密度関数を定義域全体で積分したときに1になる事は必須です。
匿名様
コメントありがとうございます。
管理人の馬場です。
コメントありがとうございます。
ご指摘の内容は『補足:確率と確率密度』におきまして以下のように説明した部分に対応しているかと思われます。
ーーーーーーー
この記事では意識して分けることはしていませんが、確率密度と確率はその意味合いが異なります。
ここでは補足として、両者の比較と説明をします。
確率密度を積分すると、確率になります。
確率密度を使う理由は、それ単体では確率が常に0になる状況を扱うためです。
ーーーーーーー
ですので、補足説明も踏まえれば、対応は取れているかと思います。
しかし、確率質量関数と確率密度関数と使い分けをした方が、誤解を生む余地が無くてよさそうですね。
今後、記事の追記や修正も含めて、内容をよりよくする努力を進めていこうと思います。
上記回答でまだ不明点があれば、遠慮なくご指摘ください。
今後とも、よろしくお願いいたします。
中心極限定理の説明についてです。
”サンプルサイズ”を大きくすれば、「×正規分布に近づく」→「期待値に近づく」というのは大数の法則の話題ではないでしょうか?
中心極限定理は、「母平均と期待値との差異(誤差)の分布はある正規分布する」ではないでしょうか?
syrioyaji様
コメントありがとうございます。
管理人の馬場です。
まず前提ですが、当方は、中心極限定理について以下のように記載しています。
『中心極限定理は以下のことを示します。(2019年3月19日修正)
「正規分布以外の分布を含む様々な確率分布においても、そこからサンプリングした標本の期待値、あるいは合計値は、サンプルサイズを大きくすれば、正規分布に近づく」』
また、Upton and Cook(2010)『統計学辞典』において以下のように記載されています。
『中心極限定理は、大きなnに対して標本平均Xbarの分布が近似的に、平均μ、分散(σ^2)/nの正規分布に従うことを示している。よって、平均μ、分散σ^2の分布からの大量の無作為標本である観測値に対して、標本平均の分布は近似的に、平均μと分散(σ^2)/nの正規分布に従い、標本和の分布は近似的に、平均nμ、分散nσ^2の正規分布に従う』
当方の記載事項も、統計学辞典の内容もともに「標本の平均値や合計値の分布は近似的に正規分布になる」というものになります。
> ”サンプルサイズ”を大きくすれば、「×正規分布に近づく」→「期待値に近づく」というのは大数の法則の話題ではないでしょうか?
当方の記載はあくまでも「標本の平均値や合計値の分布は近似的に正規分布になる」というものです。「期待値に近づく」という記載の仕方はしていないつもりです。
> 中心極限定理は、「母平均と期待値との差異(誤差)の分布はある正規分布する」ではないでしょうか?
申し訳ないですが、こちらがどのような意図のコメントなのか、分かりかねました。
回答になっていればよいのですが。
以上、よろしくお願いいたします。