統計学とは何か
統計学とは何か、と聞かれたとき、私は「手持ちのデータの最適な使い方を学ぶ学問」だと答えることにしています。
これは言い換えると「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」となります。
では、「手持ちのデータの最適な使い方」とは何でしょうか。
この記事では、統計学とはどのような学問であり、統計学を学ぶとは何を学ぶことなのかを説明します。
(2019年3月19日追記)
こちらの記事では、基本的に「統計モデル」という枠組みでデータを扱うことを前提として執筆しています。統計モデルという言葉そのものは出てきませんが、その点をご留意ください。いわゆる「ノンパラメトリック検定」などの枠組みに関しては言及していません。
目次
1.統計学とは何か
2.統計学は、何を明らかにするか
3.なぜ統計学に確率が必要か
スポンサードリンク
1.統計学とは何か
統計学とは「手持ちのデータの最適な使い方を学ぶ学問」です。
これは言い換えると「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」となります。
「手持ちのデータの最適な使い方」とは何でしょうか。
これを理解する簡単な方法は「手持ちのデータの悪い使い方」を知ることです。
データの悪い使い方の例を挙げます。
あなたはある酒屋さんのデータ解析を担当することになりました。時期は2000年の1月なのだと思ってください。
データを分析した結果、1999年の4月にビールがたくさん売れたというデータがあったことが分かりました。4月は花見があるので、ビールが良く売れたのかもしれませんね。
データの悪い使い方を実践した人は、データを分析して、以下のようなプレゼンをしました。
『1999年の4月には、ビールが良く売れたというデータがありました。
しかし、今年の4月のビールの売り上げデータはまだ手に入れていないので、今年の4月にビールが良く売れるのかどうかわかりません』
これではデータを分析した意味がありません。
データをうまく使うことができていない状況といえるでしょう。
データの良い使い方の例を挙げます。
データの良い使い方を実践した人は、データを分析して、以下のようなプレゼンをしました。
『1999年の4月には、ビールが良く売れたというデータがありました。
だから、今年の4月のビールの売り上げも高くなると思います』
データの良い使い方を実践したプレゼンは以下の2つの特徴を持っています。
1.手持ちのデータを分析している
2.まだ手に入れていないデータ(結果)について議論している
まとめます。
統計学とは「手持ちのデータの最適な使い方を学ぶ学問」です。
これは言い換えると「手持ちのデータを分析して、まだ手に入れていないデータについて議論する方法を学ぶ学問」となります。
IoTの発展、ビッグデータの台頭などがあっても、決して手に入れることができないデータがあります。
それは、まだ起こっていない未来のデータです。
何テラバイト、あるいは何ペタバイト、エクサバイトのデータを保持する会社はたくさんあるでしょう。
しかし、明日の売り上げデータを持っている会社は、この世界中に一つも存在しません。
まだ手に入れていない未来について言及する際に、統計学は必要不可欠な学問であり、それはビッグデータがあったとしても、何ら変わりはないのです。
2.統計学は、何を明らかにするか
統計学は「データが得られるプロセス」を明らかにします。
「データが得られるプロセス」が分かれば、「まだ手に入れていないデータ」がどのようなものになるのか、予測・推測をすることができます。
赤いボールを渡されたとします。
次は何色のボールが来るでしょうか。
普通はわかりません。
でも、「赤いボールだけが入った箱からボールを取り出したのだ」という「データが得られるプロセス」がわかっていれば、次も赤いボールが出てくると予測できます。
「赤いボールが1000個、青いボールが1000個入った箱からランダムにボールを取り出したのだ」という「データが得られるプロセス」がわかっていれば、赤いボールと青いボールが半々の確率で出てくると予測できます。
データが得られるプロセスさえ分かれば、予測・推測をすることは造作有りません。
3.なぜ統計学に確率が必要か
(2019年3月19日修正)
統計学はそれ単体で使われることはあまりありません。
統計学は、確率と常にセットです。
確率・統計でようやく1つになります。
統計学ではデータが得られるプロセスを確率で表します。
「赤いボールだけが入った箱からボールを取り出したのだ」というデータ生成プロセスであれば、「赤いボールが出る確率が1」と解釈できます。
「赤いボールが1000個、青いボールが1000個入った箱からランダムにボールを取り出したのだ」というデータ生成プロセスであれば、「赤いボールが出る確率が50%、青いボールが出る確率が50%」と解釈されます。
統計学では「確率分布」と呼ばれる言葉がよく出てきます。平たく言うと、確率的に変化する値と、その時の確率をセットにしたものが、確率分布です。
「赤いボールが出る確率が50%、青いボールが出る確率が50%」というのも、1つの確率分布ですね。
「確率分布 種類」で検索していただくと、気が滅入るほどの多くの種類の確率分布が出てきます。
ですが、その種類を全部覚える必要はありません。
なぜそれだけたくさんの種類の確率分布が必要になったのかということだけ理解してください。
確率分布は、データが得られるプロセスの代わりとして使用されます。
いろいろな種類の確率分布があったほうが、いろいろな「データが得られるプロセス」を表すことができて便利です。
なので、統計学の教科書では、必ずといってよいほど確率分布の話が登場します。
統計学を学ぶとは、言い換えれば「手持ちのデータを使って、データが得られるプロセス(確率分布)を推定する方法を学ぶこと」なのです。
参考文献
平均・分散から始める一般化線形モデル入門 この記事を書いた管理人の執筆した本です。 この記事は「平均・分散から始める一般化線形モデル入門」から入門編だけを抜粋して大幅に加筆、修正したものになります。 統計学の基礎の基礎から始めて、一般化線形モデルというやや高度な手法が使えるところまで説明しました。このサイトで統計学の基礎を学ばれた後に読まれると、ちょうどよいかと思います。 |
「平均・分散から始める一般化線形モデル入門」を購入されるときの注意
定価は2500円(消費税8%で2700円)ですが、Amazonさんなどでは在庫が不足しており、中古価格が高騰していることがあります。
重版したので出版社には在庫が残っています。出版社のサイトからですと送料無料・書籍代は後払い・最短翌日出荷で、確実に定価で手に入ります。
以下のネット書店も併せてご利用ください。
|
|
|
|
マンガでわかる統計学 この記事を書くのに参考にした本です。 漫画とはいえ内容はしっかりしており、統計学の基礎を学ぶのに最適です。 |
統計学入門 (基礎統計学) この記事を書くのに参考にした本です。 かなり内容の濃い、言い方を変えると難しい本ですが、是非一度読まれることをお勧めします。 20年間売れ続けている、統計学のロングセラーです。 |
スポンサードリンク
2016年5月14日:新規作成
2017年4月16日:リンクの追加・修正など
2019年3月19日:本文を一部修正(用語の修正と前書きに一部追記)