2019年12月19日 / 最終更新日時 : 2021年1月5日馬場真哉９９．情報

R言語ではじめるプログラミングとデータ分析：サポートページ

『R言語ではじめるプログラミングとデータ分析』のサポートページです。

この記事では、書籍の特徴などの紹介をしています。
本書に使用したサンプルデータとRコードは、すべてGitHubから参照できます。

R言語ではじめるプログラミングとデータ分析

2019年12月：初版第1刷発行
2020年12月：初版第2刷発行

歯車の表紙が目印です。

出版社の書籍紹介ページはこちらです。

1．基本情報

出版社　　：ソシム
著者　　　：馬場真哉（このサイト、Logics of Blueの管理人です）
タイトル　： R言語ではじめるプログラミングとデータ分析
発売日　　： 2019年12月26日

簡易目次　：
　第1部【導入編】Rを始める
　第2部【初級編】Rによるデータ分析の基本
　第3部【中級編】長いコードを書く技術
　第4部【応用編】Tidyverseの活用

本体価格は3000円です(消費税10%で税込み3300円となります)。

2．書籍の特徴

書籍の前書きなどを参考にしつつ、本書の特徴を記します。

書籍の特徴

基礎から順にステップアップ

この本は、R言語の初心者を対象読者としています。どれくらい初心者を想定しているかというと「ベクトルという言葉を知らない」というレベルです。
そもそも「プログラミングってなんやねん」というところから本が始まります。そのうえで、少しずつ応用的な内容へとステップアップしていきます。
第2部の初級編では、3行で終わるような短いプログラミングの事例を紹介しています。こういった短いコードを気軽に実装できるようになるのが最初の目標です。

続く第3部の中級編は、Gitによるバージョン管理の方法からスタートします。バージョン管理の方法を学ぶと、プログラミングに失敗したとしても、簡単に修正ができるようになります。そのあとで繰り返し・条件分岐・関数の作成などの基本構文を解説します。

第4部で初めてTidyverseが登場します。Tidyverseは、データサイエンスのために設計された、Rのパッケージの一群です。Tidyverseを使うことで、より効率的なデータ分析ができるようになります。この本ではTidyverseの機能を「網羅」はしていません。それでも、よく使う機能はなるべく解説するようにしました。パイプ演算子の基本から始まって、データの読み込み、データの抽出・変換・集計処理、日付の操作、データの可視化、そしてデータの整形における、モダンな(現代的な)方法を体験することができます。
古典的なRプログラミングを解説してから、Tidyverseの解説に移るという流れになっているのが大きな特徴です。

難易度マークがついている

プログラミングの本は、どれもたいてい分厚いです。本書も例外ではありません。重要な項目だけを選んだつもりですが、それなりにはページ数があります。

初心者向けの入門書では、いわゆる逆引きのような「どこから読んでも大丈夫」という構成にはしにくいです。例えばベクトルについて知らない読者が、行列やデータフレームなどの高度なデータ構造を理解できるとは思いません。前から順番に読んでいただく必要があります。
しかし、分厚い本を、最初から順番にひたすら読んでいくのは大変です。

そこで、この本では、節ごとに難易度マークを付けました。難易度は以下の3つです。

★☆☆：難易度「低」
★★☆：難易度「中」
★★★：難易度「高」

最初のうちは、★☆☆の難易度「低」の節だけを読んで、ほかを読み飛ばしても大丈夫です。これなら、ページ数が半分ほどに減ります。

分厚い本を最初から最後まで目を皿のようにして読むのは大変です(もちろんそうしてくれると嬉しいのですが)。途中で挫折するくらいなら、本は簡単なところだけを流し読みして「とにかく実践」へと移るのは、一つの方法だと思います。プログラムは、やはり自分で手を動かさないと身につかないです。実践をするのが一番大切だし、それを後押ししたいと思います。

上記のような意図で難易度マークを付けました。ぜひ活用してください。

なお、第3部以降は難易度「中」以上の、やや難しい内容が増えてきます。
最後まで読み切ることを目標にする場合は、難易度が高い節にもチャレンジしてみてください。

対象読者

この本は、プログラミングに明るくない、R言語の初心者の方を対象読者としています。

R言語を今すぐ使う必要性のある方はもちろん、今すぐに必要ではないが勉強はしておきたいという人も読者として想定しています。
先述のように「飛ばし読みがしやすい(必要な箇所だけが読める)」というのは「R言語を今すぐ使う必要のある方にとって便利な特徴だと思います。
また、少し応用的な内容を入れたり、巻末にRリファレンスを載せたりしました。時間に余裕のある方はじっくりと本を読み進めることができる構成となっています。

書籍の構成

第1部【導入編】Rを始める

第1部では、Rのインストールから、プログラミングの初歩までを解説します。

第2部【初級編】Rによるデータ分析の基本

第2部では、R言語のごく基礎的な内容を解説します。
第1章から2章では、単純な3行プログラミングを紹介します。そのうえで「この3行をどのように変えていけば、自分の欲しいように結果を変えていくことができるのか」を説明する、という流れとなっています。
第3章では数値型や文字列型などのデータの型の解説をします。
第4章ではベクトル・行列・配列の基本を解説します。
第5章ではデータフレームの基本を解説します。
第6章ではリストの解説をしたうえで、データ構造の変換などの方法を解説します。
第7章では、1章かけてファイルの読み込みやファイルへの出力を解説しています。
こちらではR言語の文法とは直接関係がないところも解説しています。例えば、ファイルを読み込む際に、ファイルのパスを指定することがあります。このとき、絶対参照や相対参照という考え方も解説します。これらを理解すれば、ファイルのパスの指定が簡単になるからです。また、「文字コードが異なるために発生したエラーの対処法」のような内容も盛り込んでいます。R言語を実際に使っていたら、この手のエラーには頻繁に出くわすからです。

基本事項を解説した後、「3行で終わる短いプログラミング事例」の紹介に移ります。
こちらで、集計処理や基本的なデータの可視化、そして仮説検定を中心とした統計分析の実行方法を解説します。
第8章ではさまざまな演算子の解説をします。
第9章では3行で終わる集計をするためのプログラミング事例を紹介します。
第10章ではデータの変換をする方法を簡単に紹介します。
第11章では基本的な可視化のプログラミング事例を紹介します。
第12章では3行プログラミングを少し離れて、Rで確率分布を扱う方法を解説します。
第13章では仮説検定などのプログラミング事例を紹介します。
第14章では外部パッケージを活用する方法を解説します。

第3部【中級編】長いコードを書く技術

第3部からは「3行で終わるプログラミング」から離れて、もっと長いコードを書く技術を解説します。
第1章ではGitによるバージョン管理の方法を解説します。Gitを使うことで、ファイルの変更履歴が簡単に取得できます。うっかりしてプログラミングを誤ったとしても、簡単に元に戻すことができるようになります。
第2章では条件分岐と繰り返しを解説します。if文やfor文の基本を解説します。
第3章では関数の作り方を解説します。簡単な例外処理の解説もあります。
第4章では汎関数の使い方を解説します。汎関数とは「関数を引数にとる関数」のことです。汎関数を実際に自分で作ったり、Rが提供してくれる便利な汎関数を使ったりする方法を解説します。
第5章では長いコードを書く時の工夫を紹介します。セクション区切りをしたり、ファイルの分割をしたりする方法の紹介となります。

第4部【応用編】Tidyverseの活用

第4部ではTidyverseの解説をします。
第1章ではTidyverseの基本事項を解説します。
第2章ではmagritrパッケージが提供するパイプ演算子などの各種演算子の解説をします。
第3章ではtibbleの基本とreadrパッケージが提供するデータの読み込みの方法を解説します。
第4章ではdplyrパッケージが提供するデータ操作の基本的な方法を解説します。
第5章ではlubridateパッケージによる日付の操作とhmsパッケージによる時間の操作の基本を解説します。
第6章ではggplot2パッケージを使ったデータの可視化の基本を解説します。
第7章ではtidyrパッケージによる縦持ちデータへの変換方法と、dplyrパッケージによるテーブルの結合方法を解説します。

本書に載っていないこと

本書は、R言語の教科書というよりかはチュートリアルのようなものです。
R標準のプログラミングからTidyverseの活用まで幅広いテーマを扱っていますが、その代わりに網羅性はある程度犠牲にしています。

本書では以下の内容を扱っていません。

数理統計学の理論
分析のプレゼンテーションの方法
スクレイピング
Tidyverseの最新の潮流

3．本書のサポート情報

サポート情報を記載します。

サンプルデータとコード

本書に使用したサンプルデータとRコードはすべてGitHubから参照できます。
緑色の「Clone or download」というボタンをクリックしてから「Download ZIP」をクリックすると、すべてのファイルをZIP形式でダウンロードできます。
書籍のサンプルコードとデータ。

参考資料

主にWebで閲覧できる、R言語に関する参考資料のリンクを以下に記載します(一部は英語です)。
拙著を読んだあと、もっと上級者向けの内容を学びたいという方にお勧めします。拙著の執筆の際にも参考させていただきました。

・The Comprehensive R Archive Network(統計数理研究所のミラーサイト)
Rはこちらのサイトからダウンロードします。

・Download RStudio
Rによるプログラミングを支援してくれる便利なソフトであるRStudioはこちらのサイトからダウンロードします。

・Tidyverse
データ分析の生産性を上げてくれる便利なパッケージ群であるTidyverseのリファレンスなどが参照できます。

・RStudio Cheat Sheets
英語ですが、Cheat Sheetsと呼ばれる、よく使う機能を整理したカンニングペーパーのようなものが公開されています。

・R Advent Calendar 2019
こちらは日本語です。
Advent Calendarとは、クリスマスまでの日数を数えるカレンダーです。12月1日から25日のクリスマスまで、毎日1記事ずつ、R言語に関する記事が公開されています。
リンクは2019年バージョンですが、2011年から行われているようです。
個別の記事に目を通すのはもちろん、著名な方々がブログ記事を更新されることもあるので、興味を持ったブログ名をメモしておくと役に立つかもしれません。

・Welcome-Advanced R
Advanced RというR言語の有名な教科書の全文が公開されています(英語です)。
日本語版は共立出版さんから「R言語徹底解説」という名前で出版されています。
R言語の基本機能の詳細な解説がなされています。

・R for Data Science
こちらも著名な書籍であるR for Data Scienceの全文が公開されています(英語です)。
日本語版はO’Reilly Japanさんから「Rではじめるデータサイエンス」という名前で出版されています。
Tidyverseを用いたデータ分析のノウハウが解説されています。

・R自学自習の基礎知識-Heavy Watal
R言語に関する様々な情報が記載されています。Tidyverseにも詳しいです。

・R|を利用した統計解析およびデータの視覚化-biostatistics
R言語に関する様々な情報が記載されています。特にグラフィックスの解説が素晴らしいです。

ここで紹介した以外にも、R言語を扱った素晴らしいブログなどがたくさんあります。
R言語は歴史が長いので、情報も豊富に蓄積されています。
R Advent Calendar 2019などに寄稿しているブログ様などを参照されると良いと思います。

発行後の補足情報

2021年1月5日追記
正誤表（第1・2刷）

■　p446　索引の右列　「あ行」末尾から「か行」先頭にかけて

誤

オブジェクト 62
●か行
折れ線グラフ 416
カーネル密度推定 404

正

オブジェクト 62
折れ線グラフ 416
●か行
カーネル密度推定 404

更新履歴
2019年12月19日：新規作成
2019年12月23日：GitHubへのリンクを追加。また、様々なサポート情報を追記。
2020年12月27日：重版した旨を追記
2021年01月05日：正誤表の追加

カテゴリー: ９９．情報

タグ: R 統計基礎自著