推定の基礎
データから確率分布を推定するのが、統計解析の第一歩です。
確率分布を推定するためには、例えば正規分布だと、期待値と分散という2つのパラメタを推定できれば良いのでした。
期待値くらい簡単に計算できそうですが、ここではもう少しそれを深堀して、区間推定という推定方法を学びます。
手に入れたデータを使って、まだ手に入れていないデータについて議論する方法の核心に入っていきましょう。
スポンサードリンク
目次
1.点推定
2.母集団と標本
3.母数と推定量、推定値
4.点推定の課題
5.区間推定
6.標準誤差の復習
7.正規分布を使った期待値の区間推定
補足:1.96という値について
1.点推定
区間推定に入る前に、まずは点推定と呼ばれる手法を学びます。
点推定とは、名前の通り、期待値ならば期待値を、分散ならば分散を1つ推定することです。
以降は話を簡単にするために、期待値に絞って解説をしていきます。
点推定を実践してみましょう。
データが{1,2,3,4,5}とあれば、期待値は3となります。
よって、期待値の点推定値は「3」となります。
以上で終わりです。お付き合いいただき、ありがとうございました。
……以降では、なぜ、単に期待値を計算するだけのことに「点推定」という仰々しい名前がついているのかを説明していきます。
2.母集団と標本
統計学とは「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」です。
手持ちのデータのことを「標本」と呼びます。
手に入れたデータも、手に入れていないデータも、みんなまとめてしまったものを「母集団」と呼びます。
身長のデータを集めたとします。
例えば中学校の2年生のAクラス全員の身長を測ったとしましょう。その身長データが標本です。
で、日本全国、すべての中学2年生の身長を測った結果が母集団となります。
全体(母集団)の中から一部だけを抽出して標本とし、その標本から期待値だのなんだのという指標を計算しているわけです。
ただ、母集団のデータをすべて手に入れていることはふつうありません。
そこで、母集団の確率分布を推定します。
そして、まだ手に入れていないデータも、その「母集団の確率分布」に従って得られるはずだと考えます。
すると、「まだ手に入れていないデータ」であっても、「そのデータが160㎝以下となる確率は20%となるはずだ」といったように推測することができるわけです。
3.母数と推定値
(2019年3月19日修正)
母集団の確率分布を推定するためには、以下の2つのステップを踏みます。
1.母集団の確率分布に正規分布を仮定する
2.正規分布のパラメタ、すなわち期待値と分散を計算する
母集団の確率分布について、正確なところはわかりません。
正規分布に従っているかもしれないし、ポアソン分布に従っているかもしれない。
ただし、今回は身長データを扱っているという設定で進めているので、正規分布を仮定してもよさそうです。
次に、正規分布のパラメタを計算します。このパラメタが決まれば、母集団の確率分布が推定できることになります。
母集団の確率分布のパラメタのことを「母数」と呼びます。
でも、母数が正確にわかっていることはまずありません。母数がわからないので、標本から計算された値を使用することになります。
手持ちのデータ(標本)から推定されたパラメタのことを「推定値」と呼びます。
手持ちのデータから期待値を計算するという作業により、母数の推定値を求めていたわけです。
なので、期待値を計算する作業を、仰々しく「点推定」などと呼ぶんですね。
4.点推定の課題
以前にも説明しましたが、あえてもう一度同じことを書きます。
統計学的推測においては以下の前提を置きます。
「調べていない部分も、調べた部分と同じである」
なぜこのような前提を置くかというと、この前提がないとまったく先に進めないからです。
だって、手持ちのデータを使ってまだ手に入れていないデータについて議論するんですよ。
手持ちのデータとまだ手に入れていないデータとがまったく違っているならば、やりようがありません。
なので、手持ちのデータから計算された期待値と、母集団の期待値は等しいとみなし、ひいては「まだ手に入れていないデータ」に対しても、同じ期待値となるだろうと考えます。
「調べていない部分も、調べた部分と同じである」という前提を置くことは仕方がないことです。でも、「まったく同じである」と考えるのはさすがに無理があると思います。
自分の学校の身長の平均が160㎝だったからと言って、ほかのクラスでもまったく同じ160㎝にはならないでしょう。162㎝くらいかもしれません。少しくらいぶれているはずです。
そこで、区間推定の出番です。
5.区間推定
(2019年3月19日修正)
区間推定では文字通り、期待値などの推定値が取りうる区間を推定します。区間の計算の際には、確率の考え方を用います。
信頼係数は、区間推定の幅における信頼の度合いを確率で表現したものです。95%などがしばしば使われます。信頼区間とは、その信頼係数を満たす区間のことになります。
このように幅を持たせた推定値を提示することによって「調べていない部分も、調べた部分とまったく同じである」という相当にキツイ前提を少し和らげることができます。
スポンサードリンク
6.標準誤差の復習
(2019年3月19日修正)
区間推定をする前に、補足をしておきます。
それが標本平均の期待値と、標本平均の分散です。
10人の身長を測るという行為を1回したとします。この標本から平均値が計算できます。これを標本平均と呼びます。
10人の身長を測るという行為を、毎回別の人たちに対して100回したとします。
すると、標本平均が100個計算できることになります。
普通は測定を100回もできません。
でも、もしできたとしたならば、計算された標本平均がどれほどばらつくのかがわかるはずです。そのばらつきを加味したうえで推定を行うのが区間推定だといえます。
標本平均の期待値とは、そうやって計算された100個の標本平均に対して期待値をとったものです。
標本平均の分散は、100個ある標本平均の分散を計算したものです。
ここで重要な性質があります。
標本平均の期待値は、データの期待値と変わらないはずです。
しかし、標本平均の分散は、もともとの分散よりも必ず小さくなります。
10人の身長を測定すると、背の高い人がいることもあるでしょう、背の低い人もいるでしょう。データ(身長)が期待値から離れていることが予想されます。
しかし、身長の期待値(平均値)をとると、そういった「ぶれ」がならされます。よって、標本平均を100個とった時の分散は、もともとの身長データの分散よりも小さくなるのです。
それでは「標本平均の分散」はいくらになるのかというと、標準誤差の2乗になります。
$$\frac{分散}{サンプルサイズ}=\frac{σ^2}{n}$$
すなわち以下の式であらわされる標準誤差は「標本平均の標準偏差」とみなせそうです(xはデータ、μは期待値、nはサンプルサイズ、σは標準偏差です)。
$$\sqrt[]{
\frac{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-μ)^2}{n}
}=\frac{σ}{\sqrt[]{n}}$$
7.正規分布を使った期待値の区間推定
(2019年3月19日修正)
区間推定をやってみましょう。母集団の確率分布に正規分布を仮定していると、比較的簡単に区間推定を実施することができます。
以下のようなデータを使います
データ={1,3,5}
このデータの期待値は3です。
不偏分散は4で、標準偏差は2となります。
サンプルサイズは3なので、標準誤差はおよそ1.155です。
あとは、期待値3、標準偏差1.155の正規分布の確率密度関数を使って、データがとりうる95%区間を推定すればよいことになります。
これはExcelを使っていただいても構いませんし、Rというソフトを使っていただいても構いません。
Rを使うと以下のようになります。
> qnorm(p=0.025, mean=3, sd=sqrt(4/3))
[1] 0.7368285
> qnorm(p=0.975, mean=3, sd=sqrt(4/3))
[1] 5.263171
Excelを使う場合は、NORMINVという関数を使います。
以下の数式を一行ずつコピペしてセルに貼り付けてください
=NORMINV(0.025, 3, SQRT(4/3))
=NORMINV(0.975, 3, SQRT(4/3))
なお、sqrtとはルートをとる処理を表します。
10人の身長を測って、標本平均とその95%信頼区間を求めるという行為を、毎回別の人たちに対して1000回したとします。
そのときおよそ95%の割合で(すなわち1000回中950回くらい)、「母平均が信頼区間の中に収まる」ことが想定されます。
もちろん、期待値を1000回も計算することはできません。でも、データが得られる確率分布を仮定してしまえば、このような確率や区間を計算することができるというわけです。
なお、取得したデータが少なかった場合は、正規分布をそのままでは使えないことが知られています。
そのため、正確な区間推定を行う場合は、正規分布ではなくt分布と呼ばれる確率分布を使います。
今回は割愛しますが、t分布を使った区間推定に関しては、参考文献を参照してください。
補足:1.96という値について
区間推定の話になると、1.96が云々と先生に言われたり、教科書に書いてあったりします。
これは、ExcelやRという便利ソフトが使えなかった時代の名残なので覚えなくてもよいのですが、放置しておくのも不親切かと思いますので補足しておきます。
なお、この文章はただの補足なので、1.96という数値に見覚えがない人は飛ばしてもらって結構です。
1.96は以下のようにして計算されます(少数第三位で四捨五入すると1.96になります)。
Rの例
> qnorm(0.025, mean=0, sd=1)
[1] -1.959964
> qnorm(0.975, mean=0, sd=1)
[1] 1.959964
Excelの例
=NORMINV(0.025, 0, 1)
=NORMINV(0.975, 0, 1)
「期待値0、標準偏差1の正規分布がとる95%区間」が、-1.96~1.96になるということです。これを覚えておくと、手計算するときに便利なのですが、ソフトを使って計算する場合は、覚えなくても問題ありません。
なお、「期待値0、標準偏差1の正規分布」のことを標準正規分布と呼びます。
標準正規分布の区間推定くらいできてよね、っていう古き良き習慣で習う数値が1.96だということです。
なお、この1.96という数値を使うことで、期待値0以外、標準偏差1以外の正規分布でも区間推定をすることができます。
先ほどの例を使って、期待値:3、標準誤差:(4/3の平方根)の場合に、期待値の区間推定をしてみます。
Rの例
> 3 + qnorm(0.025, mean=0, sd=1)*sqrt(4/3)
[1] 0.7368285
> 3 + qnorm(0.975, mean=0, sd=1)*sqrt(4/3)
[1] 5.263171
Excelの例
=3+NORMINV(0.025,0,1)*SQRT(4/3)
=3+NORMINV(0.975,0,1)*SQRT(4/3)
95%区間は以下のようにして求められるということです。
期待値-1.96×標準偏差 ~ 期待値+1.96×標準偏差
期待値の区間推定の場合は、標準偏差が標準誤差となります。
大学のテストには出るので、余力のある方は覚えておいてください。
次の記事→統計的仮説検定の基礎
参考文献
平均・分散から始める一般化線形モデル入門 この記事を書いた管理人の執筆した本です。 この記事は「平均・分散から始める一般化線形モデル入門」から入門編だけを抜粋して大幅に加筆、修正したものになります。第5部にt分布を使った区間推定の方法も解説しています。 この本では、統計学の基礎の基礎から始めて、一般化線形モデルというやや高度な手法が使えるところまで説明しました。このサイトで統計学の基礎を学ばれた後に読まれると、ちょうどよいかと思います。 |
「平均・分散から始める一般化線形モデル入門」を購入されるときの注意
定価は2500円(消費税8%で2700円)ですが、Amazonさんなどでは在庫が不足しており、中古価格が高騰することがあります。
重版したので出版社には在庫が残っています。出版社のサイトからですと送料無料・書籍代は後払い・最短翌日出荷で、確実に定価で手に入ります。
以下のネット書店も併せてご利用ください。
|
|
|
|
マンガでわかる統計学 この記事を書くのに参考にした本です。 漫画とはいえ内容はしっかりしており、統計学の基礎を学ぶのに最適です。 |
統計学入門 (基礎統計学) この記事を書くのに参考にした本です。 かなり内容の濃い、言い方を変えると難しい本ですが、是非一度読まれることをお勧めします。 20年間売れ続けている、統計学のロングセラーです。 |
スポンサードリンク
2016年5月14日:新規作成
2017年4月16日:リンクの追加・修正など
2019年3月19日:本文を一部修正