平均・分散から始める一般化線形モデル入門:サポートページ
最終更新:2017年7月18日
2015年7月15日に、本サイトの管理人が著しました『平均・分散から始める一般化線形モデル入門』という本が発売されます。
統計学基礎から一般化線形モデル(GLM)までを、データ解析環境「R」を併用して説明した入門書となります。
ここではその書籍の情報を記載します。
2017年7月1日:重版しました New
購入される場合は、出版社さんに直接依頼するのが最も確実です
・プレアデス出版
出版社さんに教えていただいたのですが、このサイトから申し込みをすると、翌日にはゆうメール便(送料サービス、代金後払い)で発送されるため、一番早くお届けできるということでした。
下記Amazonリンクからも購入が可能です(ただしAmazonさんは在庫が少なめです)。
平均・分散から始める一般化線形モデル入門 本文の第1部はこちらから読めます。 |
たとえAmazonに在庫がなくても、出版社にはまだ在庫が残っておりますので、書店で取り寄せていただくと確実にお手元に届くかと思います。
お手数をおかけして申し訳ありません。
以下のネット書店も併せてご利用ください。
|
|
|
|
★重要なお知らせ★
本第1部3章「Rの簡単な使い方」において載っていましたCRAN筑波大学ミラーサイトが6月で閉鎖されてしまいました。
Rは統計数理研究所のミラーサイトhttp://cran.ism.ac.jp/からダウンロードしてください。
お手数をおかけして申し訳ありません。
基本情報
・出版社 : プレアデス出版
・著者 : 馬場真哉(このサイト、Logics of Blueの管理人です)
・タイトル : 平均・分散から始める一般化線形モデル入門
・ISBN番号 : 978-4-
発売は2015年7月15日を予定しています。
(一部では14日午後から書店に並びます)
書籍の内容
初学者を対象とした統計学の入門書です。
「統計学」の入門書ではありますが、現代において「統計モデル」という考えを用いずに解析を行うことは困難です。
そのため、一般化線形モデルの理解をひとまずのゴールと定めた入門書を執筆しました。
本書の第1部(統計学の基礎と検定の考え方)に関しては、ウェブ上に全文を公開しています。
こちらから閲覧可能です。
プレアデス出版、麻畑様のご厚意に感謝いたします。
詳細な目次のPDFファイルはこちらからダウンロードできます。
逆引きR関数、及び索引はこちらからダウンロードできます。
節を除いた簡易版の目次を以下に記します。
目次
まえがき i
本書の構成 ii
第1部 統計学の基礎と検定の考え方 1
‐1章 t検定(数式なし) 2
‐2章 t検定(数式あり) 13
‐3章 Rの簡単な使い方 24
第2部 統計モデル基礎:正規線形モデル 36
‐1章 分散分析(ANOVA) 37
‐2章 統計モデルから見た分散分析 53
‐3章 回帰分析 68
‐4章 正規線形モデル 91
第3部 正規線形モデルによるデータ解析 107
‐1章 Type II ANOVAとモデル選択 108
‐2章 Type II ANOVAの応用 118
第4部 確率と統計データ 137
‐1章 確率変数 138
‐2章 データが得られるプロセス 144
‐3章 データを解析するプロセス 150
第5部 確率分布と統計モデル 154
‐1章 確率密度関数 155
‐2章 正規分布 160
‐3章 統計モデルと確率分布 180
‐4章 パラメトリックブートストラップ検定 186
‐5章 正規分布から派生した確率分布 204
第6部 一般化線形モデル 216
‐1章 一般化線形モデルの長所
‐2章 尤度と最尤法 218
‐3章 一般化線形モデルの推定 227
‐4章 Devianceと尤度比検定 243
第7部 一般化線形モデルによるデータ解析 258
‐1章 ロジスティック回帰 259
‐2章 交互作用 277
‐3章 分割表に対するGLM(対数線形モデル) 285
‐4章 ゼロ切断モデル 297
第8部 情報理論と統計学 307
‐1章 AICの考え方 308
‐2章 AICを用いたデータ解析 310
‐3章 AICと相対エントロピー 320
目次をみればわかるように、平均や分散といった統計基礎から順を追って、一般化線形モデル(GLM)まで解説をします。
あくまでも初学者むきに書かれた入門書ですので、厳密性よりも分かりやすさを優先している点は、ご容赦ください。
書籍の特徴
●本書で学べる内容
1.平均値や分散といった「統計基礎」から「一般化線形モデル(GLM)」という応用までを体形的に学ぶことができる
2.目次が非常に細かいため、GLMへ至る流れを俯瞰しやすい
3.逆引きR関数を合わせて載せている。GLMだけでなく、Rの基礎も合わせて学ぶことができる
●本書に記述がないこと
1.一般化線形混合モデルや状態空間モデルといった複雑なモデルの解説
2.サンプリング理論
3.ベイズ統計
R言語に関しては、あくまでも初学者が読むことを想定して、ggplotなど比較的高度と思われる内容に関しては割愛しています。
初学者が知っておくべき必要最低限のみを伝えることを優先しました。
逆に、つまずきやすいp値や確率分布の解説には相当の紙数を割いています。
書籍で使用されたデータ
下記CSVファイルを保存してください(右クリック~名前を付けてリンク先を保存)。
・data0_linearModel.csv
・data1_typeII_anova.csv
・data2_logistic.csv
Rのコードとサンプルデータをまとめたzipファイルは、下記リンクからダウンロードできます。
Rコードとデータ
「平均・分散から始める一般化線形モデル入門」を購入させていただき、勉強させていただいております。早速ですが、274ページの焼きそばの材料費について質問があります。
焼きそばの利益を求めるコードの「cost」の部分は容器30円と100gから300gまで1gずつ焼きそばの量を変化させた場合の「cost」だと思います。
次に「rieki200」の部分で、売れる確率「pred200yen」に売れた時の値段200円をかけ、この値から「cost」を引いて利益を求めています。
この部分で、「pred200yen」は「amount」を1gずつ変化させた売れる確率だと思いますが、「pred200yen」の「amount」と「cost」の「amount」がどうしてこの「rieki200」のコードで一致した値となるのか分かりません。
長くなり、またつたない文章で恐縮ですが、教えていただけると助かります。
よろしくお願いします。
駒澤様
コメントありがとうございます。
また、拙著をお読みいただきありがとうございます。
管理人の馬場です。
返信が遅れてしまい、失礼いたしました。
> 「pred200yen」の「amount」と「cost」の「amount」がどうしてこの「rieki200」のコードで一致した値となるのか分かりません。
ポイントは、p272の1-10節の1つ目の囲みコードです。
こちらで「pred200yen」を計算しています。
このとき、「predData200yen」として、「amount」を100から300まで変化させています。
「predData200yen」を説明変数として予測したのが「pred200yen」です。
すなわち「pred200yen」は、「amount」を100から300まで変化させたときの予測値となっています。
「cost」の「amount」もやはり100から300まで変化させているので、
結果として両者の「amount」は一致します。
参考になれば幸いです。
馬場様。
とても丁寧にご教授いただき、ありがとうございました。
おかげさまで理解することができました。
取り急ぎ、お礼申し上げます。
Logics of Blueさま
こんにちは!
度々のご連絡失礼いたします。
大学理系科目をオンラインで学べる東大発サービス「Univmath」でマーケ責任者をしている濱崎と申します。
大学数学についてブログや書籍で情報発信をされているLogics of Blueさまにぜひお話を聞いていただきたく、再度ご連絡させていただきまし
2.3点ほど状況が変わった点がございますので、もし3分ほどお時間があればお目通しいただけると幸いです。
【サービス概要】
繰り返しになり大変申し訳ありませんが、
私たちは、大学理系科目の学習ツールの少なさに悩む理系大学生向けに、オンラインで手を動かしながら学習できるサービスを構築しています。
以前ご連絡した際より開発が進み、こちらもまだ荒削りですがデモサイトを公開いたしました。
2~3分でご覧になれますので、お手すきの際にご確認いただけると幸いです。
↓
http://univmath-demo.herokuapp.com/
【ご提案】
Logics of Blueさまの非常にわかりやすい説明力と、高い数学力を私たちにお貸しいただけないでしょうか。
具体的には、「線形代数」「統計」分野で、1章分のコンテンツ作成にご協力いただきたいです。
もちろんLogics of Blueさまが得意で、ある程度メジャーな単元でお作りいただければと思います。
【さしあたってのお願い】
つきましては、ぜひ、ZoomでLogics of Blueさまとお話させていただきたいのですが、
15分ほどお時間をいただけますでしょうか。
当日は、サービス内容の詳細や謝礼金、コンテンツのご依頼の具体的な進め方についてお話できればと考えております。
(コンテンツ作成の都合上、Logics of BlueさんがTeXというソフトを使える場合、大変助かります。
もし使えるようであればそちらも伝えていただけると幸いですが、使っていない場合でも差し支えないです!)
【謝礼金】
1章あたり1000円を手付金として、最初にお支払いします。
サービス開始後、利益が出始めた段階で1章あたり5000~10000円でコンテンツをご買取させていただければと考えております。
この点については、お電話にて詳しく話し合えればと思います。
Logics of Blueさまがもし少しでも興味をもっていただけたら、ご返信いただけますと幸いです!
お忙しいことと思いますので、「よろしくお願いします」の一言でも構いません!
——————————————————————————————————————————
代表:加藤
https://twitter.com/Univmath_kato
マーケ責任者:濱崎
https://twitter.com/Univmath2
濱崎様
コメントありがとうございます。
管理人の馬場です。
> 再度ご連絡
コメントは、7月27日が初めてのようです。
もしかすると、前回のコメント入力に何か支障があったのかもしれません。
ご容赦くださいませ。
当ブログや書籍に興味を持っていただき、ありがとうございます。
また、具体的なご提案をいただき、ありがとうございます。
現在は他の業務で手が離せない状況でして、
お引き受けするのが難しくなっております。
このようなお返事となってしまい、申し訳ございません。
せっかくのご提案ですが、ご理解のほどお願い申し上げます。
末筆ながら、濱崎様のさらなるご活躍を、心よりお祈り申し上げます。
「平均・分散から始める一般化線形モデル入門」を購入し、勉強させて頂いております。私は初心者ですが理解しやすく、またとても面白く、楽しく勉強させていただいております。ありがとうございます。
早速ですが、関数に関しておひとつ質問があります。御回答頂けましたら幸いです。
Rstudio(最新版)でプログラミング実行の勉強をさしているのですが、pairs関数がエラーになってしまいます。
pairsへ数値でない引数が与えられましたと返されてしまいます。馬場様のサイトより取得したコードでもって実行しても同じような結果です。
RGui(64-bit)(最新版)でしてもエラーで返されてしまいます。理由がお分かりでしたら、お手隙の際御回答頂けましたら嬉しいです。
マリスカル
マリスカル様
コメントありがとうございます。
管理人の馬場です。
当方でも現象を確認できました。
関数の仕様が変わったものと思います。
こちらは「pairs」を「plot」に変更すると、書籍と同じグラフを再現できるはずです。
関数名を変更して実行するようお願いします。
早速のご回答、ありがとうございます。
plotに変換して実行するとできました。ありがとうございます。
大変申し訳ないのですが、あと2点、同じような仕様変更?で動作しない部分があります。どちらも同じ章です。
# ボックスプロットの部分
# ボックスプロット
> par(mfrow=c(1,2))
> plot(sell ~ sex, data=d5)
plot.window(…) でエラー: 有限な ‘xlim’ の値が必要です
追加情報: 警告メッセージ:
1: xy.coords(x, y, xlabel, ylabel, log) で:
強制変換により NA が生成されました
2: min(x) で: min の引数に有限な値がありません: Inf を返します
3: max(x) で: max の引数に有限な値がありません: -Inf を返します
> plot(sell ~ time, data=d5)
plot.window(…) でエラー: 有限な ‘xlim’ の値が必要です
追加情報: 警告メッセージ:
1: xy.coords(x, y, xlabel, ylabel, log) で:
強制変換により NA が生成されました
2: min(x) で: min の引数に有限な値がありません: Inf を返します
3: max(x) で: max の引数に有限な値がありません: -Inf を返します
> par(mfrow=c(1,1))
>
と返されてしまいます。
もう一つは# 説明変数の関係性 のグラフの部分です。
# 説明変数の関係性のグラフ
> par(mfrow=c(1,2))
> plot(n.sheets ~ experience, data=d5)
> plot(sex ~ time, data=d5)
plot.window(…) でエラー: 有限な ‘xlim’ の値が必要です
追加情報: 警告メッセージ:
1: xy.coords(x, y, xlabel, ylabel, log) で:
強制変換により NA が生成されました
2: xy.coords(x, y, xlabel, ylabel, log) で:
強制変換により NA が生成されました
3: min(x) で: min の引数に有限な値がありません: Inf を返します
4: max(x) で: max の引数に有限な値がありません: -Inf を返します
5: min(x) で: min の引数に有限な値がありません: Inf を返します
6: max(x) で: max の引数に有限な値がありません: -Inf を返します
> par(mfrow=c(1,1))
>
この様に返され、実行すると、なぜか左側のグラフしか表示されません。
度々お尋しお手数をおかけして申し訳ございません。お手すきの際、ご回答頂けましたら幸いです。
度々申し訳ございません。もう一つあるのを失念していました。
これは正規線形モデルの最後の部分のものになります。
# 予測値の図示
> lines(predMedicineYes ~ newfood, lwd = 2, lty=1)
> lines(predMedicineNo ~ newfood, lwd = 2, lty=2)
>
> # 凡例
> legend(
+ “topleft”,
+ legend = c(“薬あり”, “薬なし”),
+ pch = c(16, 1),
+ lty = c(1,2),
+ )
> plot(
+ length ~ food,
+ data = d4,
+ pch = c(1,16)[medicine],
+ ylab = “length”,
+ xlab = “food”,
+ main = “薬の有無別、体長と餌の量の関係”,
+ cex.main = 1.5,
+ font.lab = 2
+ )
>
> # 予測値の図示
> lines(predMedicineYes ~ newfood, lwd = 2, lty=1)
> lines(predMedicineNo ~ newfood, lwd = 2, lty=2)
>
> # 凡例
> legend(
+ “topleft”,
+ legend = c(“薬あり”, “薬なし”),
+ pch = c(16, 1),
+ lty = c(1,2),
+ )
問題なく動作はするのですが、本来あるはずの薬有無別のデータが表示されず、線だけがひかれたものを表示されます。pchの部分を削除し実行すると白丸の点で表示することは出来るので、pchの部分に問題があるのかもしれません。
図々しくいくつもご質問してしまい申し訳ありません。こちらのものと、さきほどの2点を合わせた計3点、ご回答いただけますと幸甚に存じます。
マリスカル
マリスカル様
コメントありがとうございます。
管理人の馬場です。
返信が遅れてしまい、大変失礼いたしました。
ボックスプロットは下記の通り修正してください。
# ボックスプロット
par(mfrow=c(1,2))
boxplot(sell ~ sex, data=d5)
boxplot(sell ~ time, data=d5)
par(mfrow=c(1,1))
説明変数同士の相関は、下記の通り修正してください。
# 説明変数の関係性のグラフ
par(mfrow=c(1,2))
plot(n.sheets ~ experience, data=d5)
mosaicplot(time ~ sex, data=d5, color=TRUE)
par(mfrow=c(1,1))
マリスカル様
コメントありがとうございます。
管理人の馬場です。
返信が遅れてしまい、大変失礼いたしました。
plot関数の引数を下記の通り修正してください。
# 図示
# ちょっと複雑なプロット
plot(
length ~ food,
data = d4,
pch = c(1,16)[as.factor(d4$medicine)],
ylab = "length",
xlab = "food",
main = "薬の有無別、体長と餌の量の関係",
cex.main = 1.5,
font.lab = 2
)
お返事が遅れてしまい大変申し訳ありません。度々の質問に関わらず丁寧に御回答いただきありがとうございます。
教えて頂いたコードを確認し、無事実行できました。ありがとうございます。
マリスカル
馬場様
「平均・分散から始める一般化線形モデル入門」を購入し、勉強させていただいております。
「第2部4章の正規線形モデル, p91-106」、「第5部2章の正規分布, p160-179」について質問があります。
第2部4章の例は、
応答変数:「魚の体長」(連続型の確率変数)
説明変数:「餌の量」(連続変数)、「薬の有無」(カテゴリ変数)
として応答変数が従う確率分布に正規分布を仮定したということでしょうか?
p166-167を読むと正規分布を仮定した場合、応答変数が取り得る確率変数は-∞から+∞までの範囲となっています。
応答変数の「魚の体長」は単なる連続型の-∞から+∞まで取り得る確率変数ではなく、0よりも大きい値を取る連続型の確率変数ではないでしょうか?
応答変数が連続値かつデータの取り得る範囲が0以上の分布を調べて、対数正規分布やガンマ分布などを見つけました。
本書の例のような負の値を取らない連続変数の応答変数には、対数正規分布やガンマ分布を仮定した方が良いのではないでしょうか?
本書の例のデータセットでは「魚の体長」は「餌の量」を0に限りなく近づけても負の値にはなりませんが、もしも、実際に観察した「魚の体長」が10-50mm程度の範囲内で予測したモデルの傾きが十分に大きければ、「餌の量」を0に近づける過程で「魚の体長」の予測値が負の値(実際にはありえない数値)を取ることも起こり得るのではないでしょうか?
このような事態を回避するために、どのようにすればよいでしょうか?
お忙しい中とは存じますが、ご教示いただけると大変うれしいです。
rvi様
コメントありがとうございます。
管理人の馬場です。
> 第2部4章の例は、
> 応答変数:「魚の体長」(連続型の確率変数)
> 説明変数:「餌の量」(連続変数)、「薬の有無」(カテゴリ変数)
> として応答変数が従う確率分布に正規分布を仮定したということでしょうか?
はい。そうです。
> 応答変数の「魚の体長」は単なる連続型の-∞から+∞まで取り得る確率変数ではなく、0よりも大きい値を取る連続型の確率変数ではないでしょうか?
はい。その通りです。
> 本書の例のような負の値を取らない連続変数の応答変数には、対数正規分布やガンマ分布を仮定した方が良いのではないでしょうか?
これはとても難しい選択です。
というのも、本書の事例では、正規分布を仮定したとしても、体長が0未満になる確率は、無視できるくらい、とても小さくなるんですね。
このような場合であれば、正規分布で「近似」をしても、事実上の悪影響はとても小さいはずです。
例えば、テストの点数の確率分布が、正規分布としばしば近くなることはよく知られています。けれども、厳密にはテストの点数は0以上100以下であるので、正規分布ではないはずです。
基本的にこの辺りは「近似」になりますね。
正規分布を使う理由は、本書でも解説がある通り「小さな誤差が積み重なって、体長などが変化している」という想定がなされているからです。
体長のばらつきが、小さな誤差の積み重ねによって説明ができるものであり、かつ正規分布を使っても「体長が0未満になる確率」が無視できるほど小さいという場合であれば、母集団分布を正規分布で近似したうえで分析を実行しても悪影響はほとんどなく、むしろ推定されたモデルの解釈は容易となります。
このようなことを勘案して、本書では体長のモデル化に正規分布を使っています。
> 本書の例のデータセットでは「魚の体長」は「餌の量」を0に限りなく近づけても負の値にはなりませんが、
> もしも、実際に観察した「魚の体長」が10-50mm程度の範囲内で予測したモデルの傾きが十分に大きければ、
> 「餌の量」を0に近づける過程で「魚の体長」の予測値が負の値 (実際にはありえない数値)を取ることも起こり得るのではないでしょうか?
はい。本書の事例では問題ありませんが、実際に0に近いようなデータを扱う場合には、このような問題が起こることはあり得ます。
> このような事態を回避するために、どのようにすればよいでしょうか?
正規線形モデルではなく、正規分布以外の確率分布や、対数や逆数などのリンク関数を使用した一般化線形モデルを使うことになります。
例えばガンマ分布を仮定した一般化線形モデルなどが候補になります。
馬場様
初歩的な質問にもかかわらず、迅速かつ丁寧にご対応いただき、ありがとうございます。
>正規分布で「近似」をしても、事実上の悪影響はとても小さい
>母集団分布を正規分布で近似したうえで分析を実行しても悪影響はほとんどなく
>実際に0に近いようなデータを扱う場合には、このような問題(「餌の量」を0に近づける過程で「魚の体長」の予測値が負の値を取ること)が起こることはあり得ます
影響がほぼ無いから正規分布に近似しても良いといったさじ加減は実際のデータを見てその都度考えるということですね。
このとき、見るべきポイントなどのアドバイスがあれば教えていただきたいです。
(0に近いデータがなく、データ数が〇以上、平均値△以上、分散□以内ていど…といった感じの基準があると嬉しいです…)
>母集団分布を正規分布で近似したうえで分析を実行
>推定されたモデルの解釈は容易
すみません、どういう意味でしょうか?
正規分布以外の確率分布で推定されたモデルの解釈は、正規分布で推定したモデルと解釈の仕方に違いがるのでしょうか?
具体的な例などを教えていただけるととても嬉しいです。
>正規分布以外の確率分布や、対数や逆数などのリンク関数を使用した一般化線形モデルを使う
p96のコードを以下のように変えてみました。
① modelgamma <- glm(length ~ food + medicine, family= Gamma(link = "identity"), data=d4)
ガンマ分布のモデル
② modellog <- glm(length ~ food + medicine, family= gaussian(link = "log"), data=d4)
対数をリンク関数にした正規分布のモデル?
③ modelinverse <- glm(length ~ food + medicine, family= gaussian(link = "inverse"), data=d4)
逆数をリンク関数にした正規分布のモデル
今まで②を対数正規分布のモデルだと思っていたのですが、ネットで調べるとどうやら間違っているらしいです…
応答変数に対数正規分布を仮定したモデルを作る方法をご存知でしたら教えていただけないでしょうか?
また、①のガンマ分布について、リンク関数はidentityで問題ないのでしょうか?
久保拓弥 (2012) データ解析のための統計モデリング入門:一般化線形モデル・階層ベイズモデル・MCMC. 岩波書店.
のp114を読むと、「リンク関数はlogかな?」といった感じでどのリンク関数を選ぶべきなのかよく分かりません…
教えていただければ嬉しいです。
お忙しい中とは存じますが、ご教示いただけないでしょうか?
rvi様
コメントありがとうございます。
管理人の馬場です。
> このとき、見るべきポイントなどのアドバイスがあれば教えていただきたいです。
平均値△以上、といった線引きは困難だと思います。
ヒストグラムを見て判断することが多いです。
> 正規分布以外の確率分布で推定されたモデルの解釈は、正規分布で推定したモデルと解釈の仕方に違いがるのでしょうか?
> 具体的な例などを教えていただけるととても嬉しいです。
正規分布に限らず、モデルで使用される確率分布は、モデルの解釈に直結します。
例えばポアソン分布は、成功確率がとても小さく、試行回数がとても大きな二項分布における成功回数が従う分布と解釈されます。
ある狭い範囲において、そこにピンポイントで生物個体が存在する確率は小さいはずです。
でも調査区域は、膨大な数の「狭い範囲」で構成されているはずなので試行回数は多いと言えます。
なので、生物個体数が従う確率分布としてポアソン分布がしばしば使われます。
生物個体数が従う確率分布としてポアソン分布を使うと、解釈がしやすいことがわかるかと思います。
ここで、テストの点数の確率分布にポアソン分布を使うことを想定します。
テストの点数は0以上の整数しかとらないので、ポアソン分布が適用できそうに思えるかもしれません。
でもテストの点数を「成功確率がとても小さく、試行回数がとても大きな二項分布における成功回数」と解釈するのは困難だと思います。
このとき、テストの点数が従う確率分布を正規分布で近似したならば、
「クラスの平均点から、個人差や当日の体調などの誤差が積み重なって、点数がばらけた」と解釈できることになります。
こっちの方が妥当な解釈ではないかと思います。
常に正規分布を使えという話ではないです。
確率分布には成り立ちがあります。
正規分布なら誤差の積み重ねであり、
ポアソン分布なら「成功確率がとても小さく、試行回数がとても大きな二項分布における成功回数」といった具合です。
確率分布を変更することで、モデルの解釈は大きく変わります。
解釈しやすくなるように確率分布を選ぶのが大切です。
確率分布の解釈については、数理統計学の入門書を読んでみてください。
> 今まで②を対数正規分布のモデルだと思っていたのですが、ネットで調べるとどうやら間違っているらしいです…
モデルとしては、応答変数を対数変換してから普通の線形回帰したら、対数正規分布のモデル化ができるはずです。
> また、①のガンマ分布について、リンク関数はidentityで問題ないのでしょうか?
logまたはinverseが多いかと思います。
馬場様
お忙しい中、何度も質問してしまい、申し訳ありません。
丁寧にご対応いただき、本当にありがとうございます。
> 解釈しやすくなるように確率分布を選ぶのが大切
> 数理統計学の入門書を読んでみてください
今まで、連続値・離散値、応答変数の取り得る値のみでほぼ機械的に判断してモデルを作っておりました。
今後は、確率分布の成り立ちもしっかりと考慮するようにいたします。
確率分布の成り立ちを学ぶのに良い数理統計学の入門書を教えていただけないでしょうか?
あまり数学が得意なほうではないので、式変形などを丁寧に行っているものや、式変形だけではなくその解釈についても詳しく書いている本があれば、ありがたいです。
> 応答変数を対数変換してから普通の線形回帰したら、対数正規分布のモデル化ができる
p96のコードを改変させていただくと、
model <- glm(log(length) ~ food + medicine, family= gaussian(link = "identity"), data=d4)
もしくは
model 0」
リンク関数がinverseのとき、どのようなをとっても「1 / = + ≠ 0」
リンク関数がinverseのとき、の取る値によっては「-∞ < = + < ∞ で0も取り得る」
から、logまたはinverseを利用するということでしょうか?
お忙しい中とは存じますが、ご教示お願いいたします。
rvi様
コメントありがとうございます。
管理人の馬場です。
すいません、コメント見逃していました。
> 良い数理統計学の入門書を教えていただけないでしょうか?
数理統計学の入門書ではないのですが、松浦(2016)「StanとRでベイズ統計モデリング」の第6章では、確率分布とモデリングの際の使い道が紹介されています。
あとは山田・北田(2004)「生物統計学入門」も比較的ていねいに確率分布が紹介されています。
2つ目の質問は、文章が切れているようで、ちょっと解読できませんでした。ご容赦ください。
馬場様の 統計とRの本に本当にお世話になっている者です。
「一般化線形モデル入門」を読んでいるのですが、p322の下から6行目の ≒ 0.19 を導いた式の上の説明の文字の式(下から8行目の)ですが、 + の両側ともにp(裏|観測)で その下の数字を当てはめた式と異なるようなのですが。これが正しいのでしょうか。
よろしくお願いいたします。
馬場真哉様
いつも我々に分かりやすい書籍を提供していただき、誠に有り難うございます。
先生のご著書「平均・分散から始める一般化線形モデル入門」を拝読していて気になった点を1つご報告申し上げます。
P166やP221などに自然対数の底「e」のことを「自然数」と表現されているのですが、一般的には「ネイピア数」の方が、通常の「自然数」(1, 2, 3, ・・・)と混同しないで良いのではないでしょうか?もう既に正誤表などで訂正され、蛇足であれば申し訳ありません。
やまうち様
コメントありがとうございます。
管理人の馬場です。
拙著をお読みいただきありがとうございます。
こちらの件、誤植でございます。ミスがありましたこと、お詫びいたします。
また、ご指摘いただいたこと、感謝いたします。
後ほど出版社と共有いたします。
早々のご返信ありがとうございます。
恐らくP322の「差分の期待値」の計算で、どちらも「p(裏|観測)」「p(裏)」となっておりますので、これも誤植かと存じます。併せてご報告申し上げます。
我々のような初心者にいつも分かりやすく書籍を提供いただきありがとうございます。大変助かっております。ついては、多少の誤植は全く問題無いと思います!ご研究もお忙しいとは存じますが、今後とも書籍のご提供よろしくお願い申し上げます!