新規作成:2016年5月14日
最終更新:2017年4月16日

統計学とは「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」です。

ここでは、統計学がどのようにして、まだ手に入れていないデータについて議論するのかを説明します。



スポンサードリンク

目次

1.手持ちのデータから、まだ手に入れていないデータを予測するための、たった一つのさえない方法
2.予測と推測
3.統計学がなければ対応できない問題の例
4.統計学ならばその問題に対応できる理由

 

1.手持ちのデータから、まだ手に入れていないデータを予測するための、
   たった一つのさえない方法

手持ちのデータから、まだ手に入れていないデータを予測・推測する方法は一つしかありません。

統計的予測理論の本質は極めて単純です。
統計的予測理論では、以下の前提を置きます。
「未来は過去と同じである」

この前提が成り立たなければ、話になりません。
だって、過去のデータを使って未来を予測するんですよ。未来が過去とまったく違っているならば、予測のしようなどありません。

なので、例えば「1999年4月にはビールが売れた」という過去のデータがあれば「2000年4月にもビールが良く売れる」と予測されることになります。
これが、統計的予測理論の第一歩です。

 

2.予測と推測

予測だけでなく、推測の話もしておきましょう。

予測では、「まだ起こっていない将来のデータ」を対象とします。
推測では、「手に入れることができなかった残りのデータ」を対象とします。

例えば、大きなスタジアムにおいて、来場者数を調べたかったとします。A~Jまで10区画に分かれた大きなスタジアムです。
しかし、あまりにもスタジアムが広いので、A区画の来場者数しか調べることができませんでした。
この時に、ほかの区画の来場者数も知りたかったとします。これを達成するのが「推測」です。

統計学的推測においては以下の前提を置きます。
「調べていない部分も、調べた部分と同じである」

というわけで、B区画にはA区画と同じ人数いると推測されます。

このように、予測と推測は、対象が違うだけであり、やっていることは同じです。
もちろん対象とするデータが変われば解析手法は大きく変わってくるのですが、根っこのところは同じなのだということだけご理解いただければ幸いです。

 

3.統計学がなければ対応できない問題の例

統計的予測の基礎は「過去は未来と同じ」という発想でした。
ですが、ここで一つ問題が生じます。
「過去と未来が完全に同じであるというわけではない」からです。

過去と未来、あるいは調べた地点と調べられていない地点は、似ている個所もあるでしょう。ですが、まったく同じであるとは考えられません。朝起きる時間も朝の天気も電車の込み具合も、すべてがまったく同じ1年が2回も続いたとしたら、それはもはやホラーです。

どこまでが「過去と未来で同じ」であって、どこからが「調べた部分と調べていない部分とで異なっている」のでしょうか。

この問題は、データを扱っていると、必ず付きまとってきます。
例をあげます。

例1:過去のデータをどこまで信用してよいか
あなたはある酒屋さんのデータ解析を担当することになりました。時期は2000年の1月なのだと思ってください。
1999年の4月にはビールが良く売れるというデータがあったとしましょう。でも、このデータをもっと細かく見ていくと、以下のことが分かったとします。
4月1日はあまり売れない。
4月2日はビールがものすごくよく売れる。
4月3日はあまり売れない。
4月4日もあまり売れない。
4月5日はビールがものすごくよく売れる。
……
どうも、1999年4月の2日と5日は、近所で大規模なお花見があったようです。なのでよく売れたと。
じゃあ2000年の4月2日と5日もよく売れると思ってよいのでしょうか。
「未来は過去と同じ」だから2000年もまったく同じように売れる?
これはちょっと無理がありそうです。お花見が毎年同じ日に開かれるという保証はどこにもありませんから。
「4月という月単位での予測はできそうだが、4月2日あるいは4月5日という日単位ではあまり信用できないかもしれない」ということはどのようにして判別しましょうか。
データをどこまで信用してもよいのでしょうか。

「4月にはビールが売れる」という部分は、未来も過去も同じ。
「4月2日にはビールが売れる」という部分は、未来と過去で同じとは限らない。
この2つを判別するのは大変です。
そこで統計学が使われます。

例2:環境の変化を組み込みたい
1999年の6月に、たまたま気温がすごく高くて、ビールの売り上げが増えたとします。
ならば、2000年の6月にも、ビールの売り上げは大きくなるでしょうか。
これは、おそらく「NO」です。2000年の6月にも暑くなるという保証はありません。

ならば、過去と未来で似ている個所はまったくないということでしょうか?
いいえ、そんなことはありません。
この時は、以下のように考えます。
「気温が高くなるとビールの売り上げが増えるという関係性は、過去と未来で同じだ」

上記の関係性が今年も成り立つのであれば、ビールの売り上げを気温から予測することができます。

「毎年6月にはビールが良く売れる」という部分は、未来と過去で同じとは限らない
「気温が高くなるとビールの売り上げが増えるという関係性」は未来と過去で同じ

この2つを判別するのもやはり大変です。
そこで、統計学が使われます。

 

4.統計学ならばその問題に対応できる理由

統計学は手持ちのデータを使って、データが得られるプロセス(確率分布)を推定します。

0以上の値を持つ確率が1つ以上あって、その要素の合計が1になれば、それは確率分布です。
「赤いボールが1000個、青いボールが1000個入った箱からランダムにボールを取り出したのだ」という「データが得られるプロセス」がわかっていれば、赤いボールと青いボールが半々の確率で出てくると予測できます。
この時の「データが得られるプロセス」は「赤玉:50%、青玉50%」という確率分布となります。

将来を予測する方法は一つだけ。未来は過去と同じだと考えることです。
統計学では「データが得られるプロセス」が未来と過去で変わらないと考えます。

「赤玉:50%、青玉50%」というプロセスでデータが得られたとしても、偶然に赤玉が3個連続で出てくることもあるでしょう。青玉が連続で出てくることもありえます。
でも、データが得られるプロセスは変わりません。
だから将来が予測できる。まだ測定していない部分を推測できる。
この発想が、統計学です。

4月には「よく売れる:40%、普通:40%、売れない:20%」というビールの売り上げデータが得られるプロセスがあったとしましょう。毎日、このプロセスに従ってビールの売り上げデータが得られると考えます。
4月3日や5日によく売れることがあるかもしれません。でもそれは40%の確率で起こるコトが本当に起こったというだけのことです。翌年も4月3日によく売れると考えるのは間違いだとわかるでしょう。

また「気温が高くなるとビールが良く売れる」というビールの売り上げデータが得られるプロセスを推定することもできます。
気温20度の時 {よく売れる、普通、売れない}={30%, 30%, 40%}
気温30度の時 {よく売れる、普通、売れない}={60%, 30%, 10%}
データが得られる確率分布が気温によって変化しています。
こういうデータ生成プロセスなのだとわかれば、予測ができますね。

まとめます。
統計学はデータが得られるプロセスを推定します。
データが得られるプロセスとは、確率分布のことです。ただし、常に同じ確率分布とは限りません。その場合は「確率分布の変化のパターン」を推定することになります。

また、複数のデータ生成プロセスのうち、どれが最も良いのかを判別することもできます。
ちょっとくらい複雑なデータ生成プロセスでも推定できるので、統計学は便利です。

逆に言えば「明日の売り上げを当てる」という目的に対して、統計学は役に立ちません。
統計学は「よく売れる:40%、普通:40%、売れない:20%でデータが得られる」という確率を予測することしかできないからです。

次の記事からは、データが得られるプロセスを推定する方法について学びます。

次の記事→記述統計の基礎

 

参考文献


平均・分散から始める一般化線形モデル入門

 
この記事を書いた管理人の執筆した本です。
この記事は「平均・分散から始める一般化線形モデル入門」から入門編だけを抜粋して大幅に加筆、修正したものになります。
統計学の基礎の基礎から始めて、一般化線形モデルというやや高度な手法が使えるところまで説明しました。このサイトで統計学の基礎を学ばれた後に読まれると、ちょうどよいかと思います。
 

マンガでわかる統計学

 
この記事を書くのに参考にした本です。
漫画とはいえ内容はしっかりしており、統計学の基礎を学ぶのに最適です。
 

統計学入門 (基礎統計学)

 
この記事を書くのに参考にした本です。
かなり内容の濃い、言い方を変えると難しい本ですが、是非一度読まれることをお勧めします。
20年間売れ続けている、統計学のロングセラーです。
 



スポンサードリンク

関連する記事