この記事では、R言語を使って機械学習法を効率的に実装することのできるパッケージ「caret」について説明します。

ニューラルネットワークにSVM、ランダムフォレストに勾配ブースティング……。機械学習には実に様々な手法があります。
これらの手法を実装するにあたって、R言語には様々なパッケージが用意されています。自分で一から計算するのと比べると大変に簡単です。
しかし、たくさんのパッケージを管理し、それらの使い方を逐一覚えるというのもなかなか大変ですね。

そこで登場するのがパッケージ「caret」。
caretとは、数々の機械学習関連のパッケージたちを統一的に取り扱うためのパッケージです。
この記事では、caretパッケージの使い方を説明したうえで、ニューラルネットワーク、ランダムフォレスト、そしてXgboostを使った勾配ブースティングを実装してみます。

ソースコードはすべてこちらに置いてあります。

新規作成:2016年11月05日
最終更新:2016年11月05日



スポンサードリンク

目次

  1. caretパッケージとは
  2. caretパッケージでよく使う関数
  3. 機械学習法を使って予測を行う手順
  4. train関数の使い方
  5. 予測の方法
  6. caretを使った回帰の例
  7. caretを使った分類の例
  8. caretを使って勾配ブースティング(Xgboost)

 

1.caretパッケージとは

caretは、数々の機械学習関連のパッケージたちを統一的に取り扱うためのパッケージです。
なお、機械学習のことをまったく知らないという方は、先にこちらの入門記事を参照してください。

caretパッケージを一つだけインストールすれば、ほかのパッケージは何もいりません。
ニューラルネットワークを計算するパッケージも、SVMを作成するパッケージも、みんなみんなcaretパッケージが管理してくれます。私たちはcaretパッケージの操作を覚えるだけで十分です。
便利ですね。

caretパッケージを使うと、以下のことができます。

  1. 機械学習法を用いた予測モデルの作成
  2. ハイパーパラメタのチューニング
  3. 作成されたモデルを使った予測

少し見慣れぬ用語が出てきたかもしれません。
caretパッケージの使い方を学ぶ前に、機械学習法による予測の手順を先に説明します。

 

2.機械学習法を使って予測を行う手順

機械学習法を使って予測するには、以下の手順を踏みます。

  1. 使用する手法を決める
  2. その手法を実装する方法を決める
  3. パラメタのチューニングをする
  4. モデルを使って予測する
  5. 予測の評価をする

1と4に関しては、忘れる人はあまりいないのですが、2と3、5はスルーしやすいので注意が必要です。
順番に説明します。

1.使用する手法を決める

一口に機械学習法といっても様々な手法があります。
手法とは、例えばニューラルネットワークであったりランダムフォレストであったりします。

まずは、どの手法を使うかを決めます。
手法を決める明確な基準は実はなくって、いくつか候補を選んで、それを全部試すということもしばしばです。

2.その手法を実装する方法を決める

例えばランダムフォレストを使うと決めたとしましょう。
ランダムフォレストをRで実装する方法は、実はいくつかあります。

自分でイチから作るというのも一つでしょうが、多くの場合はRのパッケージを使うと思います。
で、実は、同じランダムフォレストを計算する機能を持ったパッケージが複数あるんですね。
ランダムフォレストを計算するパッケージは例えば「randomForest」パッケージであったり「ranger」パッケージであったり「Rborist」なんてものあります。
どれも一長一短で、何を使うのが良いか、悩ましいですね。

で、結局いろんなパッケージで試してみて、一番いいのを選ぶことになります。

3.パラメタのチューニング

パラメタのチューニングが、機械学習における一つの鬼門です。

機械学習は名前の通り「機械が勝手に学習してくれる手法」なのですが、全自動というわけにはいきません。
ある程度は人間が決めてやらなくてはならない部分があるのです。

人間があらかじめ与えておく必要のあるパラメタのことを「ハイパーパラメタ」と呼びます。
例えばニューラルネットワークだと、中間層にあるニューロンの個数はあらかじめ与えておく必要があります。

ニューロンの個数はいくつが良いでしょうか。2個? 3個?
そんなものはわからないので、いくつかの候補を試してみて、最も予測精度が良いものを選びます。

なお、チューニングすべきパラメタが1つとは限りません。
ニューラルネットワークの場合は、「中間層のニューロンの個数」と「手持ちのデータにどこまで合わせるか」という、手持ちのデータへの依存度のようなパラメタもあって、そいつもチューニングしなければなりません。
2つ以上のパラメタをチューニングする場合は、グリッドサーチと呼ばれる手法を使うのが普通です。

具体的には、以下のように、対にしてパラメタを変えていきます。

ニューロンの個数 データへの依存度
0.5
0.01
0.5
0.01

 

ニューロンの個数を2パタン。
データへの依存度を3パタン用意すると、2×3=6パタンも試さなければなりません。

大変に面倒ですが、このハイパーパラメタを雑に設定すると予測精度が落ちてしまうこともよくあります。
めんどくさいですが、なるべくやったほうがいいです。

4.モデルを使って予測する

これは簡単。単に予測をするだけです。
パッケージを使っていれば、たいていは予測用の関数が用意されています。

5.予測の評価をする

最後は評価です。
評価をすることによって、
・どの手法の
・どのパッケージの
・どのパラメタを
採用すべきかを判断します。

で、一番予測精度がいいやつを使って予測することになります。

たくさんの手法、たくさんのパッケージ、たくさんのパラメタの組み合わせをしらみつぶしに評価する。
普通にこれをやろうと思うと、気が遠くなってしまいますね。

そこで登場するのがパッケージ「caret」。
caretパッケージは、様々な手法・パッケージを統一的に取り扱うことができ、パラメタのチューニングもほとんど自動でやってのけます。

次からは、caretパッケージの使い方を学びます。

 

3.caretパッケージでよく使う関数

たくさんの関数があるのですが、以下の2つだけ覚えてください。

  • train()関数
  • predict()関数

train関数でモデルを推定して、predict関数で予測を行います。

 

4.train関数の使い方

train()関数の引数として、とりあえず以下のものを覚えておくとよろしいかと思います。

  • formula:モデルの書式
  • data:トレーニングデータ
  • method:使う手法
  • tuneLengthまたはtuneGrid:パラメタチューニングの範囲
  • preProcess:データの前処理
  • trControl:その他のコントロール

順に説明します。

formula:モデルの書式

応答変数と説明変数の対応を指定します。
これは一般化線形モデル(glm関数)とまったく同じ書式で書くことができます。
機械学習は、パッケージによって、formulaの書き方が変わることも多いのですが、caretパッケージはそこを吸収してくれます。

例えば、応答変数がyで、説明変数にx1,x2,x3があれば、以下のように書きます。
y ~ x1 + x2 + x3

また、交互作用がある場合は、コロン(:)を使います。
交互作用については、統計勉強会の資料を参照してください。一番下に交互作用を説明したスライドがあります。
y ~ x1 + x2 + x3 + x1:x2

すべての変数を使う場合は、ピリオド(.)を使います
y ~ .

すべての変数で、2次の交互作用を使う場合は、2乗記号(^2)を使います。
y ~ (.)^2,

data:トレーニングデータ

トレーニング用のデータを指定します。
例えば、以下のように指定します。
data = dataTrain

method:使う手法

methodと呼ばれる引数を指定することによって、使う手法を変えることができます。
ランダムフォレストだろうが、ニューラルネットワークだろうが、この引数を変えるだけでOK。便利ですね。
ニューラルネットワークを「nnetパッケージ」で計算する場合には、以下のように指定します。
method = "nnet"

同じランダムフォレストでも、methodに"rf"、"ranger"、"Rborist"を指定することで、3種類のパッケージを使うことができます。

methodにはかなり多くの種類があります。
どのような手法を設定できるかは、以下のリンク先を参照してください(英語です)。
caretパッケージで指定できるmethod一覧

新しい手法を使うとき、以下のように聞かれることがあります。
1 package is needed for this model and is not installed. (パッケージ名). Would you like to try to install it now?
1: yes
2: no
これがコンソールに出てきたら、半角の「1」を入れてエンターキーを押してください。必要なパッケージが勝手にインストールされます。

tuneLengthまたはtuneGrid:パラメタチューニングの範囲

ハイパーパラメタのチューニングも、caretにお任せ。
私たちは、チューニングしたいパラメタの範囲を指定するだけでOKです。

チューニングする範囲が明確に決まっていない場合は「何通りのパラメタを適用するか」を指定します。
それがtuneLength 。以下のように、数値を指定します。
tuneLength = 4

method = "nnet"を指定した場合は、チューニングするパラメタが2種類あります。
各々4通りのパラメタを適用するため、4 × 4 = 16通りのパラメタの組み合わせが試行されます。
あまり細かくすると、計算に時間がかかるので注意。

範囲をもっと細かく指定したい場合は、以下のようにします(method = "nnet"を指定した場合)。
tuneGrid = expand.grid(size=c(1:10), decay=seq(0.1, 1, 0.1))

method = "nnet"を指定した場合はsizeとdecayという2つのパラメタがチューニングの対象となります。
それを各々、以下のように変えます。
size :1~10まで1ずつ変更。
decay :0.1~1まで0.1ずつ変更
すると10 × 10 = 100通りのパラメタの組み合わせとなります。

チューニングの対象となるパラメタが何なのかは、先ほども紹介したリンク先の資料に載っています。
caretパッケージで指定できるmethod一覧

preProcess:データの前処理

データの前処理をしたい場合も、引数に指定をするだけでOKです。
たとえば、データを正規化したいと思った場合は、以下のように指定します。
preProcess = c('center', 'scale')

ほかにも様々な前処理ができます。

データの変換は、解釈の困難性を生むため、なるべく避けているのですが、正規化くらいはしておいても損はないと思います。
むしろやらなかったら、精度が落ちることも。
正規化に関しては、簡単にできるので、指定しておきましょう。
それ以外の前処理に関しては、データと相談して決めてください。

trControl:その他のコントロール

その他、いろいろ指定ができます。あまりにも高機能なためここでは紹介しきれませんが、とりあえず、予測の評価方法の指定の仕方を書いておきます。

クロスバリデーションを使う場合は、以下のように指定します。
trControl = trainControl(method = "cv")

ほかにも、ブートストラップ法を使うならば、"cv"のところを"boot"に変更します。

なお、"cv"を指定したときは、デフォルトで、10 fold CVを実行しています。
これはデータを10等分に分けて、評価をする方法です。
例えば、100個のデータがあった時、最初のNo:1~10のデータをテスト用データにし、残りのNo11~100のデータトレーニングデータにします。
次は、No11~20をテスト用データにして、それ以外をトレーニングデータにする・・・を10回繰り返し。
そして、トレーニングデータで学習して、テスト用データで予測の評価を行います。

データの分割の仕方を変えたければ、trainControl(method = "cv", number = 20)のように、numberを変更します。
あたりまえですが、分割数を増やすと、その分たくさん「学習~予測の評価」を繰り返すことになるので、時間がかかります。number=20なら、20回繰り返しになるわけですね。
分割数は、CPUの資源と相談して決めてください。

ここまでくれば、caretパッケージを使うことで、「予測手法の選択」「実装方法(使用パッケージ)の選択」「パラメタのチューニング」「予測の評価」が簡単にできることがご理解いただけるかと思います。

並列化演算による高速化

caretパッケージは大変高機能なのですが、計算量が膨大になり、時間がかかることもしばしば。
そんな場合は、計算を並列化して、計算速度を上げます。

並列化にはdoParallelパッケージを使います。
管理人の使っているSurface Pro4 はCore i 5なので、コア数は4つでした。
コア数がわからなければ、コマンドプロンプトを起動して、以下のコマンドを打てば、わかります。
「set NUMBER_OF_PROCESSORS」
なお、コマンドプロンプトは、Windowsボタン + r で「ファイル名を指定して実行」を呼び出し、 cmd と打ってからエンターキーを押せば出てきます(真っ黒な画面です)。ご自身のPCのスペックに合わせてmakePSOCKcluster(4)の関数の中の数値を変えてください。
管理人のPCの場合、これをやるかやらないかで、計算時間が倍近く変わりました。

 

5.予測の方法

予測は簡単。以下のように指定するだけです。
predict(作られたモデル, 予測対象データ)

 

6.caretを使った回帰の例

お待たせいたしました。caretやってみます。

予測には、定量的に数値を予測するものと、グループを分けるものがあります。
前者が回帰問題、後者が分類問題と呼ばれることもあるので、caretの実践例も、回帰と分類に分けてみました。

なお、methodによっては、回帰しかできないor分類しかできないものもあります。
詳しくはマニュアルを参照して下さい。
Type: Classification, Regressionと書いてあれば両方OK.
Type: Classificationだけなら、分類のみ。
Type: Regressionだけなら、回帰のみしか使えません。

まずは、回帰をしてみます。

データのシミュレーション

高機能な機械学習法を適用するにふさわしい、非線形+交互作用ありのシミュレーションデータを作ります。

sin()関数を使って、説明変数x1をグネグネと曲げさせた上に、x1とx2を掛け合わせて交互作用を入れてみました。
おまけとして突っ込んだx3も2乗項を入れてあります。

こんなグラフになります。これだけ見ると、x1が予測の役に立つようには見えませんね(グラフをクリックすると大きくなります)。
caret_1_simdata

ちなみに、ノイズはとても小さくしてある(rnorm(N, mean = 0, sd = 1)なので、標準偏差1の正規乱数だけです)ので、実はかなり精度よく予測ができるはずのデータです。

x1とx2の交互作用を見やすくするために、3次元プロットを描いてみます。
必要に応じて「scatterplot3d」パッケージをインストールする必要があるので注意してください。Rを右クリックして管理者として実行しないとパッケージがインストールできないことがあります。

caret_2_3dplot

最後に、データをdata.frame形式にまとめて、さらに、トレーニング用データとテスト用データに分けます。

今回使うモデル一覧

今回はニューラルネットワークを1種類、ランダムフォレストをパッケージを変えて3種類試してみます。

さらに、比較のため、線形の重回帰分析も適用し、機械学習法がどれほど優れているかをご覧に入れます。

重回帰

まずは、重回帰分析をしてみます。
formulaに「y ~ (.)^2」と指定しているので、2次の交互作用まですべて入っています。

モデルを作った後で、step関数を使って変数選択をしてみました。
変数選択についてはこちらを参照してください。

最終的に選ばれた変数はこちらです。
意外と(?)ちゃんと変数選択できていました。

caretパッケージを使う下準備

次はいよいよ、caretパッケージを使います。
まずは、下準備。必要に応じてパッケージをインストールしてください。

caretパッケージの使用と並列化の実行はほぼセットでよいと思います。

ニューラルネットワーク

ニューラルネットワークを実装してみます。
以下のコードは、管理人のPCで、実行に1~2分ほどかかりました。

ほぼ説明済みかと思いますが、唯一、10行目の「linout = TRUE」には気を付けてください。
ここをFALSEにすると、分類をしようとしてしまいます。回帰をしてほしいので、TRUEを指定します。
この引数はnnetにのみ必要です。

結果はこちら。
一番良いパラメタを選んでくれました。
size = 10、decay = 0.9が一番いいらしいです。

ランダムフォレスト

続いてランダムフォレストを実装します。
といっても、methodを変えるだけですが。

ここまでで、各々のモデルにおいて、パラメタのチューニングができたことになります。
パラメタのチューニングでは、「10 fold CVを使って評価された予測精度」が最もよくなるものが選ばれています。
次は、最適なパラメタを使って、予測モデルの手法(パッケージ)ごとの予測精度の比較をしてみましょう。

予測の評価

すべてのモデルを使って、テストデータを予測してみます。
上から順番に
重回帰
ニューラルネットワーク
ランダムフォレスト(RandomForestパッケージ)
ランダムフォレスト(rangerパッケージ)
ランダムフォレスト(Robristパッケージ)
です。

RMSEを計算してみます。これは誤差の大きさですので、小さければ小さいほどよく当たっていることになります。

一番良いのは、ランダムフォレスト(RandomForestパッケージ)の7.035でした。
全体的に見ても、ランダムフォレストの予測精度が良いみたいですね。

というわけで、様々なモデル、パッケージ、パラメタを変えてみましたが、比較的短いコードで全部を実装して比較することができました。
caret便利だなと実感していただければ幸いです。

 

7.caretを使った分類の例

続いて分類です。

使うデータ

データは、よく使われるアヤメのデータを使います。
アヤメの種類を、花弁の大きさなどの特徴を使って、自動で分類します。

アヤメのデータはこちら。

データの番号が3の倍数のものをテストデータ。それ以外をトレーニング用データに分けます。

caretによるモデル化

続いて、モデル化とハイパーパラメタのチューニングをします。
ニューラルネットワークとランダムフォレスト(RandomForestパッケージ)のみを使います。
ニューラルネットワークの場合は、linout = Fとすることに注意してください。分類の場合はFALSEを指定します。

これで、パラメタのチューニングまで終了です。
次は最適なパラメタを使って、テストデータを予測し、手法の比較を行います。

予測の評価

まずは、テスト用データを予測します。

続いて、精度評価です。
分類問題の場合は、confusionMatrix()という関数を使うと簡単です。

たくさん情報が出てきてちょっと見づらいんですが、$overallのAccuracyを見ると、ニューラルネットが的中率94%。ランダムフォレストが92%でした。
今度はニューラルネットワークの方が精度が高くなっているようです。

 

8.caretを使って勾配ブースティング(Xgboost)

最後に、予測精度がとても高いことで有名な勾配ブースティングと呼ばれる少し発展的な手法を使ってみます。
発展的な手法であろうが、難しい手法であろうが、methodを変えるだけ。
やってみます。

Xgboostは、回帰でも分類でもどちらでも使うことができます。
今回は、回帰の時に使ったシミュレーションデータをそのまま使います。

xgBoostにはmethodが「xgbLinear」と「xgbTree」があります。
これらは、ともに同じパッケージを使っているのですが、計算の仕方が異なるので、2パタンで計算してみました。

結果はこちら。
かなりたくさんのパタンのハイパーパラメタの組み合わせを試してくれていることがわかります。

テストデータを予測します。

予測精度を評価します。

methodに"xgbTree"を指定したときに最高精度「4.611」となっています。
さすがというか、素晴らしい性能です。
ランダムフォレストの最高精度「7.035」を軽々下回る値が出ました。

今回は、変数選択を一切しませんでした。
交互作用はx1とx2の間にのみあり、ほかの変数の間にはありません。
そういった部分を修正すれば、さらに精度が上がる可能性もあります。

このように、たくさんの手法で何回も何回もモデルを試行錯誤して作っていく場合に、caretパッケージは大変便利だというお話でした。

 

参考文献

はじめてのパターン認識

 
名前の通り、初めて学ぶ人にとってちょうど良い入門書です。
機械学習とパターン認識の概要と、k最近傍法やニューラルネットワーク、サポートベクトルマシンにランダムフォレストといった各種法の概要など、幅広く載っています。
まずはこの本から機械学習を学ばれるという方は多いかと思います。
 

データサイエンティスト養成読本 機械学習入門編

 
雑誌のような体裁の本です。機械学習の理論について細かく載っているわけではありませんが、大枠をつかむ入門資料として、良い本なのではないかと思います。caretについても、ほんの少しだけ載っています。
 

樹木構造接近法

ランダムフォレストをはじめとしたTreeモデル関連について記載がある本です。私の修論はランダムフォレストだったのですが、この本には大変お世話になりました。Rのコードも多く、参考になります。

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

 
ニューラルネットについて勉強したければこの本がおすすめです。
管理人、Pythonはよくわかりませんが、それでも十分読めました。
2016年に読んだ本の中で、最も良い本でした。ぜひ一読をお勧めします。
 
書籍以外の参考文献

caretパッケージのマニュアル

caretパッケージで指定できるmethod一覧



スポンサードリンク