回帰分析

2013年7月21日 / 最終更新日時 : 2013年7月21日馬場真哉回帰分析

重回帰分析

前のページで変数選択ができたので、実際の予測を行います。

set.seed(0)
N<-100
Intercept<-5
B1<-10
B2<-5
x1<-sort(rnorm(N,sd=2))
x2<-rnorm(N,sd=2)
e<-rnorm(n=N,sd=3)
y<-Intercept+B1*x1+B2*x2+e

上記のデータは前ページのモデル選択と同じデータです。なので、同じ推定結果が出るはずです。交互作用も含めたmodel3を作ります

model3<-lm(y~x1*x2)

検定によるモデル選択は前のページを見てください。ここではAICによるモデル選択のみを行います。

パッケージMuMInをダウンロードしてから（http://mumin.r -forge.r-project.org/　）

library(MuMIn)

kekka.AIC<-dredge(model3,rank=”AIC”)
all.model <- get.models(kekka.AIC)
best.model<-all.model[1]

> best.model
$`4`

Call:
lm(formula = y ~ x1 + x2)

Coefficients:
(Intercept) x1 x2
5.202 9.973 4.986

どのモデルが最適かが分かったので、またモデルを作りなおします。

model2<-lm(y~x1+x2)

model2 が最適なモデルになります。これで予測を行います。

A<-predict(model2,se.fit=T,interval=”confidence”) #推定平均の95%推定区間付き
B<-predict(model2,se.fit=T,interval=”prediction”) #推定データの95%推定区間付き

plot(x1,y,main=”AIC最小モデルによる予測と95% 信頼区間”)
lines(x1,A$fit[,1],lwd=1)
lines(x1,A$fit[,2],col=”red”)
lines(x1,A$fit[,3],col=”red”)

lines(x1,B$fit[,2],col=”blue”)
lines(x1,B$fit[,3],col=”blue”)
legend(2.5,-20,c(“予測値”,”平均の95%信頼区間”,”データの95%予測間”),col=c(1,2,4),lwd=1)

ちなみに、シミュレーションデータを作る際、さりげなくx1<-sort(rnorm(N,sd=2))としていましたが、　sort をしておかないと、とても見難いグラフになってしまいます。ちなみに　sort 　とは、昇順並び替え関数です。

参考文献[1]
山田作太郎・北田修一：生物統計学入門、第７章　回帰分析

前のページへ　⇒　モデル選択理論編
次のページへ　⇒　平滑化スプラインと加法モデル

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください。

2013年7月21日

2013年7月21日