新規作成:2016年5月14日
最終更新:2016年5月14日

ここでは、統計学の肝となる「確率分布」について説明します。
統計学という学問は確率分布なしには存在しえません。

確率分布は、データが得られるプロセスの代わりとして使用されます。
統計学を学ぶとは、言い換えれば「手持ちのデータを使って、データが得られるプロセス(確率分布)を推定する方法を学ぶこと」なのです。

確率分布とは何か、そして確率分布の扱い方を学んでください



スポンサードリンク

目次

1.確率分布とは何か
2.データから確率分布を計算する
3.確率分布からデータを発生させる
4.確率変数
5.統計学と確率分布の関係
6.推定と推測

 

1.確率分布とは何か

確率分布とは、データが出てくる確率の一覧です。
例えばコイン投げの場合、出てくるデータは{コインが表、コインが裏}の2つだけになるはずです。
このとき、いかさまでないコインであれば{表:50%、裏:50%}となるはずです。この確率の集合が確率分布です。

0以上の値を持つ確率が1つ以上あって、その要素の合計が1になれば、それは確率分布です。
コインの例でいえば、必ず表になるいかさまコインがあったとします。その場合は{表:100%、裏:0%}がコイン投げの確率分布となります。

いかさまでないサイコロの場合は、以下のようになります。
データ {1,2,3,4,5,6}
確率分布{1/6,1/6,1/6,1/6,1/6,1/6}

 

2.データから確率分布を計算する

手に入れたデータから確率分布を計算する方法にはいくつかあります。
ここでは最も単純な「度数分布」を使う方法を説明します。

度数分布とは、こちらでも解説しましたが「同じものがいくつあるのか」をまとめたものです。

カテゴリデータの場合は簡単に求められます。
ある場所で猫の生態の調査をしました。10匹を調査することができました。
うち4匹がオスで、6匹がメスでした。
度数分布は、「オス:4匹、メス:6匹」となります。

度数分布が求まったら、次は、度数をサンプルサイズで割ります。
猫の場合だと、以下のようになります
オスの確率:4÷10 = 40%
メスの確率:6÷10 = 60%

よって、猫の確率分布は以下のようになります。
{オス,メス}={40%,60%}

 

3.確率分布からデータを発生させる

データから確率分布が計算できたとします。
次は、発想を切り替えます。

「データから確率分布が計算できた」のではなく
「確率分布に従ってデータが発生した」と考えるのです。

なので、次にもう一匹だけ調査をすると、40%の確率でその猫はオスなのだろうと予測されます。

 

4.確率変数

確率変数とは、確率的に変化する値のことです。
統計学では、得られたデータを「ある特定の確率分布に従う確率変数」とみなします。
「確率分布に従う」とは若干難しい専門用語ですが、以下のような使われ方をするだけなので、深く考えないでください。

使用例)
猫の雌雄は{オス,メス}={40%,60%}の確率分布に従う。

この場合、次にもう一匹だけ調査をすると、40%の確率でその猫はオス、60%の確率でメスなのだろうと予測されます。

 

5.統計学と確率分布の関係

統計学とは「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」です。

「手持ちのデータを分析する」ことによって、データから確率分布を計算します。
「まだ手に入れていないデータについて議論する」ために、「手持ちのデータは、先ほど計算された確率分布から得られた」と考えます。そして「まだ手に入れていないデータも、同じ確率分布から得られるはずだ」と考えます。

 

6.推定と推測

手持ちのデータから確率分布を計算することを「確率分布を推定する」と呼びます。
逆に、確率分布から、次に得られるであろうデータについて議論することを「推測」と呼びます。

データから確率分布を推定し、推定された確率分布からまだ見ぬデータを推測する。
この流れだけ、是非ご銘記ください。

次の記事→確率密度関数と正規分布
 

参考文献


平均・分散から始める一般化線形モデル入門

 
この記事を書いた管理人の執筆した本です。
この記事は「平均・分散から始める一般化線形モデル入門」から入門編だけを抜粋して大幅に加筆、修正したものになります。
統計学の基礎の基礎から始めて、一般化線形モデルというやや高度な手法が使えるところまで説明しました。このサイトで統計学の基礎を学ばれた後に読まれると、ちょうどよいかと思います。
 

マンガでわかる統計学

 
この記事を書くのに参考にした本です。
漫画とはいえ内容はしっかりしており、統計学の基礎を学ぶのに最適です。
 

統計学入門 (基礎統計学)

 
この記事を書くのに参考にした本です。
かなり内容の濃い、言い方を変えると難しい本ですが、是非一度読まれることをお勧めします。
20年間売れ続けている、統計学のロングセラーです。
 

次の記事
確率密度関数と正規分布



スポンサードリンク