ここでは、統計学初心者の方のための読書案内をします。
お勧めの統計学入門書を並べました。参考になれば幸いです。

また、記事の最後に、下記のニーズを持った方にお勧めする書籍と、読む順番も書きました。

1.統計学のリテラシーを身に着けたい
2.推測統計を学びたい。検定を理解したい
3.統計モデルを勉強してみたい

 

統計学に興味を持とう

統計学の本には2種類あります。
1つは縦書きの本。もう1つは横書きの本です。
縦書きはその仕様上、数式を載せるのがとても下手です。そのため、数式はかなり少ないです。
ですので、縦書き統計学の本は、啓蒙書だと思って読むのがよいでしょう。
縦書きの統計学入門書を読んで、統計学の理論を身に着けることができるのは稀です。
しかし、統計学に興味を持つきっかけとしては十分だと思うので、ここで紹介します。

 

その数学が戦略を決める

ワインの品質を予測する数式、データを使った野球経営「マネーボール」、データを使って映画の興行収入を予測する方法……。そういった例をたくさん挙げながら「直感や経験に基づく意思決定」から「データに基づく意思決定」へ変化しつつある状況をドキュメンタリータッチで書いた作品です。
啓蒙書らしく「データ解析を使ったらこんなすごい結果が出ますよ」という事例が多く載っています。しかし、最終章には標準偏差とその考え方、使い方についての解説が載っており、バランスが良い本かと思います。
また、章末には「まとめ」が載っており、流し読みする際に参考になります。本を読むことは修行ではありませんし、流し読みは罪ではありません。特に啓蒙書の場合は。
サラサラ読める工夫がされているのはよいことだと思います。

なお、紹介される手法は主に「回帰分析」と「ニューラルネットワーク」の2つです。
文庫本なので安く手に入るのもポイント。
私はドキュメンタリータッチの文体が好きでした。ここは好みでしょうが。

 

統計学が最強の学問である

言わずと知れた大ベストセラー。売れるのには理由があります。
「その数学が戦略を決める」がドキュメンタリーだとすれば、この本は文字通りの「啓蒙書」です。統計学を使うことによるメリットを豊富な図や例を通して解説しており、「なぜ統計学を使うべきか」がわかる構成になっています。

ビッグデータブームの際に出た本ではありますが、ビッグデータにはやや慎重な印象を受けます。推測統計学をしていると、やっぱり違和感があるからでしょうか。実例も、少数のデータを使って解析した結果が多いように思います。ですので、推測統計学をこれから勉強しようと思われた方の動機づけとしてなかなかよい本かと思います。
169ページに、さりげなく一般化線形モデルの解説が載っています。一般化線形モデル以外にも、ロジスティック回帰にサポートベクトルマシンといろいろな解析手法が紹介されているのも特徴。

タイトルからして少々あおり気味という印象はあります。別に統計学は最強でも最弱でも何でもない、一つの考え方ですから。このテンションが嫌だという方もいらっしゃるようです。でも、これくらいのテンションのほうが読んでいて楽しいですよ。文章もまったくお堅くなく、サクサク読めます。初めに読む本としてお勧め。

 

漫画で統計学入門

硬派な入門書に入る前に、硬派ではない、気軽に読める漫画の入門書を紹介します。
漫画でも内容はなかなか濃いものが多いですよ。

 

マンガでわかる統計学(オーム社)

マンガで統計学といえば、真っ先にこの本が出てきます。出版社はオーム社。よく似た名前の本が多いので気を付けてください。
何回増刷されたわからないくらいよく売れています。Amazonの統計書ランキングでほぼ常に3位圏内のすごい本です(ちなみに、ランキングのライバルは「統計学が最強の学問である」です)。
マンガでわかると謳ってはいるものの、普通の文章での解説も多いので気を付けてください。

この本が支持されている理由は、おそらく記述統計に関する丁寧な記述にあると思います。
統計解析は2つに分かれます。手持ちのデータを集計する記述統計と、手持ちのデータからまだ手に入れていないデータ(あるいはデータが出現するプロセス)を推定する推測統計学です。
統計学の花形は推測統計学なのですが、記述統計の基礎ができていなくてはちょっと厳しいです。
この本の厚さは200ページほど。その80ページは記述統計に割かれています。カテゴリデータや数量データといった「データの種類」の解説から始まり、度数分布、平均値、中央値、と少しずつ丁寧に幅を広げていきます。付録にExcelでの解析方法が書いてある点もポイント。

マンガだから売れているわけではありません。初学者に必要となる知識を厳選し、無理なく進めることのできる順序で適切に知識を配置した本だから長く売れ続けているのです。

水を差すようですが、後半の推測統計学のさわりはなかなか難しいです。計算式もたくさん出てきます。でも、ここを飛ばさずに丁寧に解説してくれていることに価値があることを忘れないでください。数式を出さなくてよいのなら、縦書きの啓蒙書で十分なわけですから。

「マンガでわかる統計学」は、入門書であって、啓蒙書ではありません。統計学の門に入るための本です。

 

マンガでわかる統計学入門(新星出版社)

「入門」という文字がついただけで、ほとんど名前が変わりませんね。出版社は新星出版社です。猫を持って指さしてくる女子大生が表紙の本です。
オーム社さんの本と違うのは、パッと見、主人公が高校生から大学生に変わったところでしょうか。絵は大分と萌え系によっています(?)。

……それはともかく、可愛らしい絵に騙されず、ちゃんと読んでみると、なかなかしっかりした本です。
この本は、記述統計ももちろん載っていますが、むしろ4章以降の推測統計の話が充実しています。確率変数や確率密度関数という、漢字だらけで飛ばしたくなるような専門用語の説明をきちんとしてくれています。こういうの大事です。
そのあとで、正規分布という「特殊な確率分布」に移るという構成になっている点は、非常に好感を持ちます。実用面だけを見ると、最初から「えいや」と確率分布を絞って解説したほうが楽なのですが、それでは統計学の本来の姿にたどり着くことは難しいです。データとは何か、確率変数と確率分布の関係は何か。これを理解できてこその推測統計です。この本は、標本から母集団を推定するという考え方だけで1つの章を設けています。ここだけを見ても、推定の考え方に力を入れていることがわかります。

記述統計~確率変数と確率分布基礎~正規分布~推定の考え方と中心極限定理~区間推定をへて、仮説検定にたどり着きます。文字通り王道の道順。
この本の作者様は大学の先生のようです。絵とは裏腹に、内容としてはむしろこちらが王道でしょう。もっと売れても良い本。オーム社さんの本よりもちょっと難しいですが、読む価値はあります。
特に「推測」の考え方に関しては明らかにこの本のほうが詳しいです。マンガであることを忘れて、本格的な統計入門書を読みたいならば、こちらのほうがよいです。後で紹介する東京大学出版会さんの「統計学入門」を読むことを考えるならば、こちらを先に読むのがお勧めです。内容的にかぶっているところが多いので、図示が多い漫画版を先に読んでおくとあとで効きます。

 

この世で一番面白い統計学

今度は海外の漫画を紹介します。読みやすく日本語訳されているので、そこはご安心ください。
ただし、絵が海外製です。かわいい女の子は出てきません。そしてアメリカンジョーク(?)が果てしなく寒いです。

本題に入りましょう。統計学の話でしたね。
この本のすばらしさは、役者解説において、端的に記されています。引用します。

だがそれ以上に、本書の何よりの特徴は、とにかく思いっきりポイントを絞ってあることだ

(p228より引用)

この本の記述統計の話はすごく雑です。
この本だけを読んでも、統計学の門には入れません。
この本だけを読んでも、統計学の単位は取れないことを保証しましょう。
でも、この本は、統計初学者が最もつまずきやすい「標本から母集団を推測するという考え方」に思いっきりポイントを絞って解説しています。普通の本なら、あまりにも難しすぎて逃げ出すか、数式がたくさん出てきてしまうような部分です。ここをひたすら、ここだけを延々と、200ページかけてマンガのみで解説したのが、本書です。
先の新星出版社さんの漫画から範囲を狭くして、考え方、発想を伝えることのみに注力した本だと思えばよいでしょう。伝え方はより漫画チックになっており、教科書という雰囲気は全くありません(新星出版社さんやオーム社さんの本はどうしても教科書っぽくなっています)。

難点としては、翻訳の関係かもしれませんが、統計用語の使われ方がちょっと特殊です。
あくまでも考え方を学ぶ本と思うのがよいでしょう。
それでも、「考え方」が載っている本は少ないので、貴重な本です。統計マニュアルとかリファレンスの類は、使ってもうまくいかないことがほとんど。そういうところにはまってしまった人は、この本を読むといいかもしれません。
難易度はもっとも低い統計漫画です。

 

気楽に読める横書き統計学

次からは漫画ではない、文字がメインの横書き統計本の紹介に移ります。
横書きでも簡単なものと「入門」とは名ばかりの難しい本までたくさんあります。
まずは、気楽に読める本から紹介していきます。

 

生物学を学ぶ人のための統計の話

生態学の業界では表紙の色から「ピンク本」としてつとに有名な書籍です。
主人公らの対話形式で進んでいく本なので、漫画の次に読むのに最適です。

物語は「検定っていうのをやらなくちゃいけないんですよね」と悩む主人公のセリフから始まります。
他のことはすっ飛ばして、検定から入るんですね。
しかし、この本の素晴らしいところは「検定の仕組み・理屈」を解説しているところです。
開始1ページ目から検定という言葉が出てくる本は「統計学リファレンス」みたいな「中身わからなくてもいいから、いう通りにやりなさい」と言ってくる本が多いのですが、本書は違います。

ノンパラメトリック検定の「仕組み」の解説が第1章から始まります。その際、p値とよばれる「なんだかよくわからない値」をどのように計算するのかを、概念図を一切使わずに、たとえ話も一切使わずに、順列組合せの知識だけを使って計算して見せます。p値って確率なんですね。確率なので「場合の数」を数え上げることができれば求めることができるんですね。p値の計算方法、ぜひこの本で学んでください。
難しい概念の説明をする際に、比喩、または複雑な数式を突然持ち出してくる本は感心しません。「考え方」を説明する場面において逃げがないことが、良書の条件だと思います。特に比喩は最悪。わかったつもりになるだけで何一つ理解できません。その点、本書は文句なし。

また、番外編の「Σ(シグマ)に強くなる」は必見。私はこれを読んで、数式を読むコツを学びました。Σが載っていないことを売りにする入門書もありますが、そんな本よりもΣの取り扱い方を説明した本のほうがよっぽど役に立ちます。
また、第6章の最尤法の解説もわかりやすいと有名。
統計を勉強し始めた人から、少し慣れてきた人まで、多くの人にとって有益な本だと思います。

内容としては「ノンパラメトリック検定」が多めだということに気を付けてください。分散分析などの解説は軽めです。
逆に、実務で使う機会の多いノンパラ検定の理屈を学びたい人には最適な本と言えます。

 

平均・分散から始める一般化線形モデル入門

管理人の書いた本です。
以下は、作者としての宣伝も兼ねた、かなり偏った意見であることに注意してください。

マンガでわかる統計学(オーム社)の次に読む本を想定して書きました。
前書きから少し引用します。

本書は、統計学の初学者が一般化線形モデルを理解するための最短経路です。

この世界は複雑です。私たちの頭で理解するのが困難なくらいに。
そこで、複雑な世界を、人間が理解できるように単純化します。それがモデル化です。
モデル化ができれば、現象に対する理解が深まるだけでなく、シミュレーションを通して、将来予測もできます。

モデルとは、単純化されたこの世界のことです。何も考えずに単純化してしまっては、本物とかけ離れたものが出来上がります。それでは困ります。
そこで、データを用いてなるべく客観的にモデルを作ります。
統計データから作られるモデルを、統計モデルと呼びます。

一般化線形モデルとは、統計モデルの一種です。
実世界の模型をデータから作成しましょう。この世界を理解し、そして予測しましょう。その最初のステップが、一般化線形モデルです。
本書では「R」と呼ばれる無料の統計解析ソフトを使って、一般化線形モデルをパソコンで計算する方法も、合わせて説明します。

今までの統計学入門書では「検定」がゴールになることが多かったように思います。でも、検定だけで解析を終わらせることはもったいない。なので、検定からスタートして、モデル化、予測ができるところまでたどり着くことが、この本の目的です。
統計基礎の次に、もっと発展的なことを学びたいという方にお勧めします。
数式の量は少な目にしておきました。また、数式は飛ばしても読み進められるように配慮してあります。

t検定やp値の解説からスタートしますので、検定の基礎を手っ取り早く学ぶのにも便利です。
本書前半のt検定の基礎に関しては、こちらから立ち読みすることもできます。

 

本格的な入門書

ここからは数式も多い(とはいえ必要十分な量ですが)立派な統計学入門書の紹介に移ります。
紹介するのは3冊。
1つは統計基礎を、1つは一般化線形モデルとその発展形の解説を、そして3冊目は一般化線形モデルの詳細を学ぶことのできる本です。

 

統計学入門(東京大学出版会)

統計学入門と名のつく本はたくさんありますが、最も人気があるのはこの本です。
ちょっと朱色っぽい表紙。大きな本屋さんなら平積みにされていることもしばしば。「東京大学出版会」と書いてあるのが目印です。

初版が1991年とかなり古い本ですが、この価値が薄れることはありません。
本書を読んだところで、統計学を実務に生かす方法がすぐにわかることはないと思います。最近の事情はまったく加味していませんし、数式は多いですし、文章はお堅いですし、統計ソフトの使い方も載っていません。

それでもこの本が売れているのは、統計学を学ぶにあたって「逃げられないこと」を解説してくれているからだと思います。

数式からは逃げたいです。
確率分布からも、確率変数からも、逃げたい。
回帰分析なんて「線(回帰直線)を引っ張っておしまい」にして、難しいことからは目を背けたいですね。
そういった「逃げたいと思っていること」をどんどん押し付けてくるのがこの本です。
あらかじめ言っておくと、「逃げたいこと」から逃げ切ることはできません。統計学を学び続ける限り、絶対に。
だからいつかみんな、この本に戻ってきます。逃げることをあきらめて、次に進もうと思った人はみんなです。

お世辞にも面白い本ではありません。
でも、いつか、先に進めなくなってしまったときに、この本を読んでください。
初めて読んだときは「統計学、これより先に進むな」と言ってくるようなこの本ですが、何年か後に読み返すと、次に進むための背中を押してくれるよき理解者になってくれます。
20年以上売れ続けるような本って、そんなもんです。

1章:統計学基礎 は導入
2章、3章は記述統計

4~10章は確率統計の説明に入ります。
この本のほとんどは、この「確率」と「統計」の考え方から成り立っているということにはぜひ注目してください。これは「統計学という学問が」主にこの考え方から成り立っていることを意味しています。

4章で確率の考え方から入り、5章確率変数、6章確率分布と進みます。新星出版社さんの「マンガでわかる統計学入門」(女子大生バージョン)の内容をより突っ込んだ感じです。先にこのマンガを読んでおくと理解がはかどるかと思います。6章においてたくさんの確率分布が紹介されていますが、すべてを理解する必要はありません。二項分布、ポアソン分布、負の二項分布、正規分布、ガンマ分布、対数正規分布あたりを読んでおけば、一般化線形モデルまでなら大体理解できます。これでもまだ多いというならば、正規分布と一様分布、二項分布だけでも読んでおけばよいでしょう。

7章以降は応用編です。7章で変数が2変数以上ある場合の確率分布を学びます。7章は無理にすべてを理解しなくてもそこまで支障はないでしょう。
8章は中心極限定理です。数式をあまり使わず、シミュレーションを通して説明しているので、読みやすいです。ぜひしっかり読んでください。ここを読まなければ正規分布という確率分布がなぜここまで広く使われているのか理解ができません。

9章の「標本分布」、10章の「正規分布からの標本」は確率分布をデータ解析に応用するための必須の知識になります。
確率だのなんだのという「パッと見何の役に立つかわからない考え方」がデータ解析に必要となる理由はこの辺りにあります。ここをちゃんと読まないまま先に行くと「統計学マニュアル」から脱却できなくなります。ぜひ頑張って読んでみてください。

11章の「推定」は9,10章をちゃんと読んでいれば大丈夫です。ここがわからなければ少し前に戻って読み直しましょう。
12章は「検定」です。
13章は「回帰分析」です。ここまでくれば、実務で使える解析っていう雰囲気ですね。ちなみに、この13章よりも、4~10章のほうがずっと難しいです。

基礎こそが難しいのが統計学。わからなければ飛ばして先に進みましょう。最初からすべてがわかることは稀ですし、全体の流れを理解することが肝心です。
ほんの少しでも身に付くところがあればラッキー。わからないところは「わからなかった」ということを覚えておきます。成功はよく準備した心に訪れます。「こんなことがわかればいいな」と思い続けていれば、別の本を開けた時にその答えが目に飛び込んできます。それを期待して、たくさんの本を読めばよいと思います。

 

データ解析のための統計モデリング入門

通称「みどり本」。近年出た統計学の書籍におけるベストセラーです。
この本は統計モデルを中心とした本です。なので、記述統計や検定に関する記述は少ないですので注意してください。
この本が売れている理由は「検定の次にいけるから」に尽きるでしょう。この本は統計学を学んでいる人たちに新しい場所を見せてくれました。

「平均・分散から始める一般化線形モデル入門」は一般化線形モデルがゴールでした。しかし、この本は一般化線形モデルからのスタートです。
第1章は導入で、2章から実質始まるのですが、ここで最尤法の考え方がさっそく出てきます。

第3章は一般化線形モデル基礎、4~6章は一般化線形モデル応用編です。

ここで終わるのではなく、さらに進んだモデルまで解説するのが本書の特徴。
第7章は、一般化線形混合モデル(GLMM)という、一般化線形モデルの発展形の紹介をしています。
さらに8、9章ではベイズ推定やMCMCという進んだパラメタ推定の手法を解説しています。パラメタ推定の方法なので、若干地味なのですが、ここを理解できれば複雑なモデルになってもパラメタをちゃんと推定してやることができます。

第10章ではMCMCを使って一般化線形混合モデルを推定し、11章ではさらに複雑な空間データのモデル化に取り組みます。こんな複雑なモデルを推定できるのも、パラメタ推定の仕方を工夫したからですね。
パラメタ推定の仕方と統計モデルの考え方がやや混在しているという批判も見受けられますが、そこだけ気を付けて読めば、とてもバランスよく情報が配置された本と言えます。

この本が出るまでは、ベイズ推定もMCMCもGLMMも高嶺の花でした。解説があまりにも難しすぎたんですね。
でも、この本のおかげで、これらの高度な手法を、統計学の専門家でない人でも使えるようになりました。基礎となる考え方から始まり、少ない数式・多くの図を使って、軽くて読みやすい文章で、解説をしてくれたからです。
RやWinBUGS(MCMCするためのソフト)の解説もあるため、すぐに実践することもできます。ここも、新しい手法を導入する壁を大きく下げてくれました。

 

一般化線形モデル

一般化線形モデルを本格的に学ぶことのできる本は2冊あります。1つはDobson先生の書かれた「一般化線形モデル入門 原著第2版」で、もう一つはこの本です。
私はこちらを推す理由は以下の通りです。
・統計ソフトRの使い方が載っており、パソコンで解析ができる
・ほかにも入門書(ピンク本です)を書かれたことのある先生の本なので、初学者が躓きやすそうなところの説明が丁寧。文章も読みやすい
・交互作用の解説が抜群に詳しい
・一般化線形モデルをすでに使っている人にも役に立つ、詳細な理論が端折らずに書いてある
・実務で問題になりそうなこと(過分散の対処法など)も載っている

じつはこの本、私の本にも参考文献として挙げたのですが、本当に良い本だと思います。
難しい内容はたくさんあります。数式も多いです。でも、記述は丁寧です。Rでの解析方法も載っています。難しいだけの本ではありません。

第1章は一般化線形モデルの概要の説明。
第2章からさっそくRのglm関数を使った解析に入ります。
第3章では、ポアソン回帰、ロジスティック回帰、対数線形モデルを一気に学べます。
第4章は、一般化線形モデルをしているとよくはまる「過分散」の問題と対処法について解説されています

第5章は擬似尤度です。過分散への対策としてよく使われますが、6章の一般化線形混合モデルを使ったほうが柔軟に解析できますので、深く読み込まなくてもOKです。とはいえ、擬似尤度の解説でここまで丁寧なのはほかに見た覚えがないので、興味のある方は是非。

第6章は一般化線形混合モデルです。
第7章は交互作用。びっくりするくらい丁寧です。交互作用の考え方や、解析の注意点、解釈の仕方が書かれています。私が読んだ本の中で、最も詳しく交互作用を解説している本です。
第8章はパラメトリックブートストラップ検定。
第9章は一般化線形モデルを拡張する方法についてです。みどり本のようなMCMCや階層ベイズの紹介とは違った方向であることに注意してください。

そして、補遺が丁寧です。数式の展開などが載っていますので、興味があればぜひ。
逆に言えば、難しい数式展開は補遺においているので、本文は読みやすくなっているのもポイントです。

 

本を読む順番

今までは、本の難易度で分けてきましたが、同じ難易度でも内容にかなり違いがあります。
そこで、簡単な本から難しい本へと進んでいく道順を紹介します。

以下のパターンを紹介します
1.統計学のリテラシーを身に着けたい
2.推測統計を学びたい。検定を理解したい
3.統計モデルを勉強してみたい

 

1.統計学のリテラシーを身に着けたい

1冊目
その数学が戦略を決める or 統計学が最強の学問である

2冊目
マンガでわかる統計学(オーム社)

副読本
この世で一番おもしろい統計学

マンガでわかる統計学を読了することを目標にするのがよいかと思います。この段階では記述統計に詳しいオーム社さんの本がお勧め。
マンガだからと甘く見ていると痛い目を見る本格的な本なので、これ1冊読み終えるだけで、だいぶんと力がついていると思いますよ。
推測統計のさわりについては、「この世で一番面白い統計学」を読んでおくとイメージがわきます。オーム社さんの本が難しければこちらをどうぞ。

 

2.推測統計を学びたい。検定を理解したい

1冊目
マンガでわかる統計学(オーム社)

2冊目
生物学を学ぶ人のための統計のはなし

3冊目
統計学入門 (東京大学出版会)

3冊目で挫折した時の副読本
マンガでわかる統計学入門(新星出版社)(4章以降)
平均・分散から始める一般化線形モデル入門(第5部まで)

こちらは逆に、マンガでわかる統計学からのスタートとなります。
統計リテラシーを身に付けた後で進むにもちょうど良いです。

2冊目にはピンク本(生物学を学ぶ人のための統計の話)をお勧めします。まずは検定のイメージをつかんでいただきたいからです。
検定は多くの人が挫折するところです。比喩を使わずに、「p値という確率」を求める発想をぜひ理解してください。

そして難関である東京大学出版会の統計学入門に移ります。
この本はとっても難しいので、わからなくてもめげないでください。ここで統計学をあきらめるのはもったいないです。
東京大学出版会さんの本が無理だったら、新星出版者さんのマンガでわかる統計学入門で確率分布の基礎などを学んでおくと、次に進む足がかりになるでしょう。確率変数や確率分布の考え方はぜひ理解しておいていただきたいです。
「平均・分散から始める一般化線形モデル入門」でも第1~3部までは検定の話題がほとんどで、第4部、第5部はひたすら確率変数と確率分布の話になっているので、内容としてかぶる点は多いです。軽い文章がお好きな方はこちらもどうぞ。

ただし、最後には、統計学入門(東京大学出版会)を読了できるようになる必要があります。副読本はあくまで副読本。
そこを忘れず、根気よく何度も読み直してください。

 

3.統計モデルを勉強してみたい

1冊目
マンガでわかる統計学(オーム社)

2冊目
平均・分散から始める一般化線形モデル入門

3冊目
データ解析のための統計モデリング入門(緑本)

4冊目
一般化線形モデル (Rで学ぶデータサイエンス 10)

ここでも、オーム社さんの「マンガでわかる統計学」からのスタートがお勧めです。

そして2冊目が「平均・分散から始める一般化線形モデル入門」です。この本は「マンガでわかる統計学」と「みどり本」の間に入る本を目指して書きました。
みどり本は新しい世界を見せてくれる素晴らしい本です。しかし、マンガでわかる統計学の次に読むのはちょっと苦しい。その間の緩衝剤になることを狙って書いた本なので、ちょうどよいかと思います。

4冊目には粕谷先生の「一般化線形モデル」をあげました。内容的にはかぶっているところもあるのですが、一般化線形モデルの基礎を学びなおす意味でも2冊読まれるのがよいと思います。1冊目で理解できなくても、似た内容が書かれている別の本を読むとすんなりわかった、ということもよくあります。また、お互い、よい感じで補完しあう関係にあると思っているので、決して無駄になりません。