統計的仮説検定の基礎

統計的仮説検定とは、標本を使って、母集団に関する判断を下す手法だといえます。
今回は、ある特定の確率分布に、データが「従っていない」ことを（少し遠回しに）判断することを試みます。
例えば、手持ちのデータの期待値が0ではないと判断しようと思ったならば、「手持ちのデータが、期待値0の確率分布に従っていない」ことを主張すればよいです。
違いがあることが主張できれば、意味の有る差、すなわち「有意差あり」と主張することができます。

ここでは、統計的仮説検定の考え方と、実際の運用方法、そして検定の注意点を説明します。

スポンサードリンク

1．統計的仮説検定を行う意義

統計学とは「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」です。
「手持ちのデータを分析する」ことによって、データから確率分布を計算します。
そして「まだ手に入れていないデータ」も、同じ確率分布から得られるはずだと考えます。

ここで重要になるのは、「正しい確率分布が推定できているかどうか」です。
ここが間違っていれば、まだ手に入れていないデータに対する推測が当たることはないでしょう。
そこで統計的仮説検定の出番です。
統計的仮説検定を使うことによって、私たちは「確率分布が間違っていないかどうか」を判定することができます。

ただし、統計的仮説検定は、その定義上「異なっている」ことは主張できますが、「等しい」ことは主張できません。
また「確率分布の違い」に関しては、確率分布同士の差異を直接測定することは普通しません。なので、例えば「手持ちのデータが、期待値0の確率分布に従っていない」ことの主張であれば、期待値にのみ焦点を当てて差異を調べることになります。
ここは、注意が必要です。

2．「異なる」ことの主張の仕方：t検定編

検定をやってみましょう。
まずは、期待値が0と異なるかどうかを検定してみます。これにはt検定という方法が使われます。

まずは、期待値が0と異なるかどうかを表す指標をつくります。t検定では「t値」と呼ばれる指標を使います。

t値は以下で計算されます。

$$t値=\frac{期待値-0}{標準誤差}$$

分子が大きければ
・期待値と0との差が大きい

分母が小さければ
・標準偏差（分散）が小さい
→データが期待値から離れておらず、期待値を信用できる
・サンプルサイズが大きい
　→データの量が多く、期待値が信用できる
の両方が満たされていることになります。

期待値や標準誤差の意味が分からない方は記述統計の基礎を確認してください。
t値が大きければ、期待値は0と異なるとみなすことができそうです。
次の課題は、t値が大きいか小さいかをどのようにして判別するか、です。

この課題を解決するため、検定は、以下の手順を踏みます。
①期待値が0となる確率分布を無理やり作り、この確率分布に従うデータをシミュレーションにより何度も取得し、t値を何度も計算する（例えば100回計算したとします）
②手持ちのデータからもt値を計算する（例えばt値＝2.59となったとします）
③①で計算された複数のt値が、②で計算されたt値（2.59）を超えた回数を記録する
④その回数が100回中5回以内であれば、「偶然でt値が2.59を超える確率」が0.05以下となります。
→この確率が0.05を下回っていれば有意差あり、とみなします。

やってみましょう。
今回は、下記のようなデータセットを使用します。

$$x_i=｛-1,-1,0,0,1,3,5,6,7,7｝$$

このデータの期待値は2.7なのですが、0以下の値も混じっています。
そこで、「このデータの期待値が0と有意に異なっているか」をt検定してみます。

t値を計算します（Rを使った計算の方法はこちらを見てください）。
期待値：2.70
標準偏差：3.30
サンプルサイズ：10
標準誤差：1.04（標準偏差÷10の平方根）
t値：2.59（期待値÷標準誤差）

t検定の難所は、「期待値が0となる確率分布を無理やり作り、この確率分布に従うデータをシミュレーションにより何度も取得し、t値を何度も計算する」という部分です。
これを普通にシミュレーションすると面倒なので、便利な数式を使います。それがt分布の確率密度関数です。
t分布とは、名前の通り、t値の確率分布です。
t値とサンプルサイズを指定すると、「シミュレーションの結果、期待値が0なのに、t値が2.59を超えた確率」がすぐに計算できます。
「偶然でt値が2.59を超える確率」が計算できるということです。

Rの例
> (1-pt(2.59, 10-1))*2
[1] 0.02921347

Excelの例
=TDIST(2.59, 10-1,2)

RよりExcelのほうが見やすいので、Excelで解説します（Rのコードの解釈はこちらを参照してください）。
TDISTという関数に、t値と「サンプルサイズ－１」を入れます。サンプルサイズそのものでない理由は難しいのですが、不偏分散で出てきたときのように、サンプルサイズをそのまま使うと偏りが出てしまうので、訂正した、くらいの感覚でまずは大丈夫です。

最後に、「２」を関数に入れています。
t値が大きくなる時は2パターンあります。「期待値が0と『離れて』いる」というところが問題。
「離れている」という条件を満たすだけなら期待値が0より大きくなくても、0より極端に小さい(マイナス100とか)状況であってもよいわけです。
このように「期待値が0から大きいときもあるし、小さいときもある」ということを指定するために「２」を入れています。

「偶然でt値が2.59を超える確率」は2.92%となりました。これは十分小さいとみなせるので、t値は大きいと判断できます。
よって、先ほどのデータの期待値は「0と有意に異なる」とみなすことができます。

3．用語：p値と危険率

「偶然でt値が2.59を超える確率」のことをp値と呼びます。
p値が0.05（5%）を下回れば、有意差ありとみなすのが、統計学の伝統です。
この5％の基準のことを危険率と呼びます。危険率は5%でなくても、1%でも、0.1%でも、何でも構いません。ただし、検定を行う前に決めておくのがルールです。

4．用語：帰無仮説と対立仮説

帰無仮説とは「異なると言いたい対象」のことです。
対立仮説とは「異なるとみなした結果」のことです。

先ほどの例を使うと、帰無仮説とは、期待値が0となる確率分布です。
対立仮説は、期待値が0と異なる、となります。

期待値が3になることの主張はできません。
検定ができるのは「○○と異なる」ことの主張だけです。
そのため、帰無仮説と呼ばれる「異なると言いたい対象」をあらかじめ用意しておきます。そのうえで、検定を行うのが手順となります。

参考文献

平均・分散から始める一般化線形モデル入門

この記事を書いた管理人の執筆した本です。
この記事は「平均・分散から始める一般化線形モデル入門」から入門編だけを抜粋して大幅に加筆、修正したものになります。
統計学の基礎の基礎から始めて、一般化線形モデルというやや高度な手法が使えるところまで説明しました。このサイトで統計学の基礎を学ばれた後に読まれると、ちょうどよいかと思います。

「平均・分散から始める一般化線形モデル入門」を購入されるときの注意
定価は2500円(消費税8%で2700円)ですが、Amazonさんなどでは在庫が不足しており、中古価格が高騰することがあります。
重版したので出版社には在庫が残っています。出版社のサイトからですと送料無料・書籍代は後払い・最短翌日出荷で、確実に定価で手に入ります。
以下のネット書店も併せてご利用ください。