新規作成:2017年12月2日
最終更新:2017年12月2日

StanとRを用いた統計モデル構築の基本について説明します。
統計学の初歩からベイズ推論、Stanというソフトウェアの概要といった基本事項から時系列モデルの推定の方法まで、順を追って説明します。

この記事はStan Advent Calendar 2017の2日目の記事となります。
詳細は「Stan Advent Calendar 2017」を参照してください。このリンクをたどると、Stanに関する様々な記事を読むことができます。



スポンサードリンク

目次

  1. 推測統計学の基本
  2. ベイズ推論の基本
  3. StanとMCMC法の基本
  4. Stanによる平均と分散の推定
  5. データ生成過程
  6. Stanによる自己回帰モデル
  7. Stanによる一般化自己回帰モデル
  8. モデルを組む時に考えていること

 

1.推測統計学の基本

たとえば「3」というデータが私たちの手元にあったとします。
ここで「あぁ、3があるなぁー」と思うのが推測統計学を知らない人です。
ここで「3というデータはどのようなプロセスで私たちの手元にやってきたのだろう」と考えるのが推測統計学です。

3というデータが、例えば魚の体長のデータだったとしましょう。近所の小さな池で釣りをしたら、3センチの魚が釣れたんだそうです。
ここで「あぁ、3センチの魚が釣れたんだなぁー」と思うのが推測統計学を知らない人です。
ここで「3センチの魚が釣れたということは、湖の中に3センチの魚がいたということだ」と考えるのが推測の第一歩です。
そのうえで「湖の中には3センチの魚がいた。次に釣りをしたらやっぱり同じくらいの大きさの魚が釣れるんじゃないだろうか」と推測するのが推測統計学というものです。

推測統計学では、データが得られるプロセスを抽象化します。
ここで登場するのが確率分布です。

近所の小さな池の中に、10尾の魚が住んでいたとしましょう。
10尾の魚の大きさはすべてわかっていて、以下の通りだったとします。
1センチ:1尾
2センチ:2尾
3センチ:4尾
4センチ:2尾
5センチ:1尾

この時、池から魚を1尾捕まえて「体長というデータが得られる」というプロセスは、以下の確率分布から乱数を1つ生成するプロセスと同じだとみなすことができます。
1センチ:10%
2センチ:20%
3センチ:40%
4センチ:20%
5センチ:10%

ほかにも、例えば、赤い魚が1万尾、青い魚が1万尾の合計2万尾の魚が住んでいるちょっと大きな湖から「データが得られるプロセス」を考えてみましょう。
これは以下の確率分布から乱数を1つ生成するのと同じです。
赤い魚:50%
青い魚:50%

これは「コインを投げて表が出たら赤い魚、裏が出たら青い魚」だとみなすことで簡単に「データが得られるプロセス」をシミュレートすることができます。

こういう確率分布を「母集団分布」と呼びます。
推測統計学では、データが得られるプロセスとして確率分布を使うということを是非覚えておいてください。

推測統計学では、この母集団分布を頑張って推定します。
母集団分布が推定できれば「次に魚を釣ったらどんな魚が釣れるだろうか」を予測することもできるようになりますね。

ところで、母集団分布を、何もわからない状況から推定するのはちょっと大変です。
そこで正規分布などの「特徴が良く知られた確率分布」を使うことが多いです。
もしも母集団分布に正規分布を仮定したら、平均と分散という2つのパラメタ(母数と呼ばれます)を推定するだけで母集団分布の推定が完了します。

別に正規分布じゃなくてもいいですし、正規分布を使うと現実の「データが得られるプロセス」と乖離してしまうこともあります。こういう時はポアソン分布など別の確率分布を使う必要があります。
この記事では、まずは簡単のため、母集団分布として正規分布を仮定して進めていきます。

 

2.ベイズ推論の基本

母集団分布が推定できると嬉しいな、という話をしました。
次は母集団分布を推定する方法論を説明します。
データと「ベイズの定理」を使って母集団分布を推定します。

ベイズの定理あるいはベイズ更新の考え方については「ベイズ統計学基礎」を参照してください。この記事では計算の方法に絞って解説します。
また、確率密度という考え方も知っておくと、この記事が読みやすいかと思います。詳しくは「確率密度関数と正規分布」を参照してください。この記事では確率密度と確率を特に区別しないこともあります。

問題を整理します。
母集団分布としては正規分布を仮定しています。
そのため、あとは平均と分散という2つのパラメタを推定することで、母集団分布を推定することができます。

両方をいっぺんに扱うのは少し難しいので、まずは平均値の推定を考えます。
これは「母集団の平均値」すなわち母平均を推定する問題だと考えてもらっても結構です。しかし、後々統計モデルを学ぶことになるので「正規分布のパラメタ(母数)」を推定しているのだという認識を持ってもらえると嬉しいです。

データがない状況で母平均はいくらになるかと聞かれても困るんじゃないかと思います。
3かもしれないし637かもしれない。この「よくわからない」という状況を表すのに便利なものが無情報事前分布です。
無情報事前分布とは、例えば「平均0、分散1000000」の正規分布などが使われます。
母平均が無情報事前分布に従うと考えると、「母平均が3になる確率密度」も「母平均が637になる確率密度」も共に(あるいは平等に)とても小さな値になります。
3になるのか637になるのか-35になるのか見当もつかないというときは、みな等しく平等に低い確率を割り当てた確率分布を使うということです。

ここで「3」というデータが手に入ったとしましょう。
そうしたらベイズの定理を使って無情報事前分布を更新します。「3」というデータが手に入ったのだとしたら、平均値は3になりやすくなると考えられますね。そのため「母平均が3になる確率」がちょっと増えることになります。逆に「母平均が637である確率」や「母平均が-35である確率」は減ります。
更新された後の母平均の確率分布は、事後分布とも呼ばれます。
標語のように言うと、ベイズの定理は事前分布を事後分布に更新する数式だと思えばよいです。

まとめます。
データは母集団分布から得られたと考えます。
母集団分布に正規分布を仮定すると、正規分布を構成するパラメタ、すなわち母平均と母分散が推定できれば、母集団分布が推定できることになります。
例えば母平均を推定することを考えます。
データがなければ、母平均がいくつになるのかさっぱりわかりません。そこで母平均を無情報事前分布に従う変数だと考えます。そうすることで「ありうる母平均の値」にみな等しく平等に低い確率を割り当てることができます。こうしておけば「母平均がいくらなのかよくわからない」という状況を数学的に表現できます。
データが手に入ったらベイズの定理を使って事前分布を事後分布に更新します。例えば「3」というデータが手に入ったならば「平均値は3でありやすい」と更新されることになります。
母平均が「3でありやすい」ことがわかれば、私たちが手に入れたそのデータは「母平均が3の正規分布から得られたのではないか」と推測することができるようになります。そして「次に得られるデータも、3に近い値かもしれない」と予測することができるでしょう。

ここで少し注意点を述べます。
2つの確率分布が出てきているので、それをごっちゃにしないように気を付けてください。
データが得られるプロセスとしての母集団分布がその1つです。
もう1つは「母集団分布のパラメタがいくらになるのかよくわからない」という「わからなさ」を定量化するために使われている確率分布です。

母集団分布のパラメタがいくらになるのかよくわからないという「わからなさ」を定量化するために「母集団分布のパラメタが従う確率分布」を想定しているということです。

 

3.StanとMCMC法の基本

MCMC法とは、任意の確率分布に従う乱数を生成する手法です。
ギブスサンプラーやハミルトニアンモンテカルロなどいろいろなアルゴリズムが提案されています。

Stanとはハミルトニアンモンテカルロ法を用いた乱数生成の機能を持つソフトウェアです。

MCMC法を使うことで、事後分布に従う乱数を生成することができます。
事後分布に従う乱数のヒストグラムを描けば、それが事後分布の形状となりますね。
事後分布の平均値を求めたいと思ったら、MCMC法により生成された「事後分布に従う乱数の平均値」を計算すればよいです。
事後分布の確率密度関数はとても複雑なものになることがしばしばあります。そんな時でもMCMC法を使えば、事後分布に従う乱数を相手にするだけで、推定結果の解釈ができるので、簡単です。

 

4.Stanによる平均と分散の推定

Stanを使って母集団分布を推定してみましょう。
やることは以下の3つです。
①母集団分布の構造を決める(今回は正規分布を仮定するので、平均と分散という2つのパラメタを推定すればOKです)
②MCMC法を使って、母集団のパラメタの事後分布に従う乱数を生成する
③生成された乱数を使って、推定結果を解釈する

Stanの細かいコードの説明などは「Stanによるベイズ推定の基礎」も併せて参照してください。ソフトのインストールの方法などもこちらに書いてあります。

まずは分析のためのライブラリを読み込みます(Stanのインストールはすでに終わっているとしています)。

データを用意します。
池で釣れた魚の大きさという架空のデータを使います。
fish_data.csv

データを読み込みます。

ここからベイズモデリング開始ですね。
①母集団分布の構造を決める(今回は正規分布を仮定するので、平均と分散という2つのパラメタを推定する)作業に移ります。

母集団分布の構造は、Stanファイルに記述します。
以下のコードを『estimate-mean.stan』という名称で保存します。
Stanファイルは作業ディレクトリに保存するように注意してください。
作業ディレクトリは、Rで「getwd()」と書いて実行すればわかります。

Stanファイルには最低でもdata、parameters、modelの3つのブロックが必要となります。

dataブロックには、名前の通り分析対象となるデータの構造を指定します。
ここではサンプルサイズNと魚の体長データlength_dataを指定しました。
『int N』とすることでサンプルサイズNは整数として扱われます。
『real length_data[N]』とすることで、length_dataは長さがNの実数として扱われます。

parametersブロックには、推定すべきパラメタを指定します。
今回は母平均と母分散を推定するため、この2つを指定しました。
<lower=0>とすることで、最小値が0であると指定することができます。

modelブロックには「データが得られるプロセス」を直接指定します。
今回はN個の体長データが「平均mu、標準偏差sqrt(sigma)の正規分布」に従って得られると仮定しているので、このように書きます。
「データが○○という確率分布に従う」というのは「データ ~ 確率分布」と表記することは覚えておくと良いと思います。
(ベクトル化をするともう少し短くコードを書くことができますが、コードが見にくくなるので、この記事では使いません。)

 

モデルの構造が決まりました。
「②MCMC法を使って、母集団のパラメタの事後分布に従う乱数を生成する」の作業に移ります。

ここからはまたRに戻ります。
まずはStanに渡すデータを作ります。これはStanファイルのdataブロックと対応している必要があります。

 

次にMCMCを実行します。

stan関数を使って「パラメタの事後分布に従う乱数」を生成します。
stan関数には、Stanファイルの名称、Stanに渡すデータ、そして乱数の種を指定します。
乱数は文字通り「ランダム」に発生しますが、乱数の種を指定すると、毎回同じ値が出るようになります。分析の再現性を担保するために、seedはなるべく指定します。
計算が終わるのにはちょっと時間がかかります(1分ほどです)。

 

「③生成された乱数を使って、推定結果を解釈する」に移ります。
結果はprint関数で確認します。

これを見ると、MCMCにより作成された「事後分布に従う乱数」の平均値や95%区間がわかります。
右端の『Rhat』は、乱数が正しく生成できたかどうかをチェックする指標です。この値が1.1未満であればOKです。

母平均muは95%の確率で2.91から3.16の間にあるだろうと推定されました。
この幅が広ければ「母平均の値がいくらなのかよくわからない」ということになります。逆に狭い範囲であれば母平均の値に関して信頼できる推定値が出せたということになります。
母平均の値を1つ推定値として提示しろ、といわれれば、生成された乱数の50%点(中央値)である『3.03』と答えます(生成された乱数の平均値である『3.04』でも構いませんが、中央値の方が多く使われる印象があります)。

何はともあれ、これで母集団分布の推定が完了ですね。
母集団分布は「平均2.99、分散0.87の正規分布」であると推定できたわけです。
次に同じ池から同じ条件で釣りをしたら、やっぱり「平均2.99、分散0.87の正規分布」からデータが得られると想定できます。



スポンサードリンク

 

5.データ生成過程

応用編として、時系列モデルを構築してみます。
時系列分析については「時系列解析_理論編」なども参照してください。

時系列モデルを構築する大きな目的は、データ生成過程を推定することです。
時間によって変化する確率分布をデータ生成過程と呼びます。

この記事では自己回帰モデルと呼ばれるデータ生成過程を対象とします。
1次の自己回帰モデルは以下のように表記されます。
1次というのは「1時点前までの情報を使った」くらいの意味です。

データ ~ β × 1時点前のデータ + ノイズ

数式で書くと以下のようになります。
$$
y[i] \sim gauss(\beta \cdot y[i - 1], \sigma) \\
$$

βは回帰係数です。添え字の[i]は時点を表すインデックスです。
gauss()は、正規分布です。平均が「β × 1時点前のデータ」であり分散がσの正規分布に従ってデータが得られると仮定しています。

 

6.Stanによる自己回帰モデル

stanを使って自己回帰モデルを推定してみます。
stanファイルは以下のようになります。「autoregressive.stan」という名前で保存します。

自己回帰モデルでは、回帰係数betaと、分散の大きさsigmaを推定します。
i時点のデータは、『beta ×「i-1時点のデータ」 + ノイズ』として得られると考えています。

 

分析対象となるデータはシミュレーションをして作ります。
真のデータ生成過程は以下の通りです。

y ~ 0.5 × 1時点前のy+ 分散1の正規分布に従うノイズ

MCMCを実行します。

結果はこちら。余計な出力は省略します。

回帰係数betaは、95%の確率で0.36から0.60の間に収まるということになりました。
分散sigmaは95%の確率で0.77から1.14の間に入ると解釈できます。

 

7.Stanによる一般化自己回帰モデル

先ほどは母集団分布として正規分布を仮定していました。
これは、-∞~+∞までの値をとる連続的な変数に対してしか用いることができません。

例えば、商品が売れた個数や観測された毎日の小鳥の数などは0以上の整数しかとりません。
こういった場合は、母集団分布に、正規分布ではなくポアソン分布を使います。
ポアソン分布の母数は平均値λ(ラムダ)のみです。

λは負の値になってはいけません。
そのため、指数関数を途中にかませます。

シミュレーションをしてデータを作ります。

自己回帰モデルをポアソン分布に従うデータに適用させます。
以下のようにモデル化することになります。
$$
\mu[i] \sim gauss(\beta \cdot \mu[i - 1], \sigma) \\
\lambda[i] = \exp ( \mu[i] ) \\
y[i] \sim pois(\lambda[i])
$$

この時のStanファイルは以下のようになります。「autoregressive_pois.stan」という名称で保存します。

変わったのは2点。
1つはtransformed parametersブロックが追加されました。
平均値λが0以上な必要があるため、指数関数exp()をかませるために使いました。

もう1つはmodelブロックです。
データ(y)は平均がλのポアソン分布に従うように変更しました。

MCMCを実行します。

推定結果はこちら。
結果が長いので『pars = c("beta", "sigma")』として表示するパラメタを指定しました。

betaがおよそ0.5でsigmaがおよそ1前後となっているので、正しく推定されていることがわかります。

 

8.モデルを組む時に考えていること

stanによるモデリングは、Rのglm関数やar関数を使った時などと比べると、様々な”改造”ができるため、自分の思い通りのモデルを構築しやすいと言えます。
しかし、書くべきコードの量が増えますし、そもそも、どういうモデルを想定すればいいのかをちゃんと自分で考えてからでなければモデル化ができません。
自由なモデリングっていうのは、裏を返せば、どういうモデルにするかを全部ユーザー任せにしたということですので。

ここではStanのコードをどうやって「思いつく」のかを、管理人個人の例ではありますが、簡単に言葉で説明してみます。

最も重要なことは、手に入ったそのデータが「何らかの確率分布に従う確率変数」であることを理解することだと思います。
例えば、手持ちの「3」というその数値は「平均3、分散1の正規分布」に従う確率変数だ、とかそういう認識です。
そのうえで「データ ~ gauss(3, 1)」のような表記の仕方に慣れることができれば、最初の関門クリアです。

統計モデルを構築する作業を
1.母集団の確率分布を選ぶ(正規分布とかポアソン分布とか)
2.確率分布の母数の変化のパターンを数式で表現する
の2つに分けて考えると話が簡単になります。
自己回帰モデルですとまずは母集団分布に正規分布を仮定しました。
そのうえで「前の時点のデータが大きな値だったら、次の時点も大きなデータとなりやすい」という状況を、「正規分布の平均値が1時点前と関係している」という状況だと考え、「データ ~ gauss(β × 1時点前のデータ, σ)」とモデル化しました。
頭で想像したモノから「データ ~ gauss(β × 1時点前のデータ, σ)」という表現が出てくれば、Stanによるモデル化ができるようになります。

モデルを改造する(例えばポアソン分布に従う自己回帰モデルを組もうと考える)時でも、できれば以下のようにまとめて数式で書けると、Stanコードの見通しがかなり良くなります。
$$
\mu[i] \sim gauss(\beta \cdot \mu[i - 1], \sigma) \\
\lambda[i] = \exp ( \mu[i] ) \\
y[i] \sim pois(\lambda[i])
$$

ここまで書けちゃえば、「=」でつながった式をtransformed parametersに「~」でつながった式をmodelブロックに入れてしまえば、Stanコードがほとんど完成です。
dataブロックは考えることがほとんどないですし、parametersブロックはmodelブロックに合うように指定すればそれほど難しくないはずです(極端な話、定義し忘れててもエラーになるのでわかる)。

 

参考文献


ベイズ統計モデリング: R,JAGS, Stanによるチュートリアル 原著第2版

 
とても大きくて分厚い本です。足の上に落とすと痛い(痛かった)です。
分厚い本ですが、逆に言えばそれだけ記述が丁寧だということです。ベイズ推論の考え方からMCMCのアルゴリズムの説明、そしてデータ分析の具体例まで載っています。
初学者の方でもゆっくりならば読み進められる難易度かなと思います。
 

StanとRでベイズ統計モデリング (Wonderful R)

 
Stanの使い方が載っている本としては、間違いなく日本で一番詳しい本です。
統計モデルの考え方についての記載もあります。
 
書籍以外の参考文献

Stan Advent Calendar 2017
 → この記事も参加しているAdvent Calendarです。Advent Calendarは12月1日~24日まで毎日誰かがその分野の記事を書くというイベントです。Stan以外にもRやPythonなどいろいろあります。「2017年プログラミング言語カテゴリーのカレンダー」も参照してみてください。

Stanの日本語のリファレンス
 → Stanのマニュアルです。日本語に翻訳してくださっているので簡単に読めます。自己回帰モデルをはじめとした様々なモデルの実装例が載っています。



スポンサードリンク

関連する記事