2016年12月14日水曜日

「みんなのR」を紹介しよう

この記事は技術書献本大感謝AdventCalendar15日目の記事です。
私からは「みんなのR」を紹介させていただきたい。


まず最初に謝らなければならないのは、本書の発売は20150630日である点。
つまり昨年である。今更なぜこれをという方もいるだろうが、なかなか書けなかった理由もあり、そのためにも今回このAdventCalendarに参加したので、ご容赦いただきたい。

そう。私が本書を献本いただいたのも、ちょうど昨年の今頃だったのだ。
訳者の一人、牧山さんのご好意により、冬の忘年会シーズンにいただいた記憶がある。

2016年、R界隈ではよりHadley Wickham氏の成果が凄まじく、HadleyVersetidyverseと呼ばれるように彼の成果によるパッケージに恩恵を受けているユーザーも多いことだろう。

みんなのRも元々はニューヨークのJared P. Landar氏による著書をTokyoRの有志メンバーが翻訳することで出版されたものだ。
1年半という歳月は流れたものの、まずRに触れてみるという観点において、この書籍が最も適していることは認めてもよいところだろう。
下記に目次の構成を示す。

目次
1 Rを手に入れる
 1.1 Rのダウンロード
 1.2 Rのバージョン
 1.3 32bit64bit
 1.4 インストール
 1.5 Revolution R Community Edition
 1.6 まとめ

2 Rの環境
 2.1 コマンドラインインターフェイス(CLI)
 2.2 RStudio
 2.3 Revolution Analytics RPE(R Productivity Environment)
 2.4 まとめ

3 Rパッケージ
 3.1 インストールパッケージ
 3.2 ロードパッケージ
 3.3 パッケージの作成
 3.4 まとめ

4 Rの基本
 4.1 基本的な数学
 4.2 変数
 4.3 データ型
 4.4 ベクトル
 4.5 関数(Function)の呼び出し
 4.6 関数ドキュメント
 4.7 欠損値
 4.8 まとめ

5 高度なデータ構造
 5.1 データフレーム(data.frame)
 5.2 リスト(List)
 5.3 マトリックス(Matrix)
 5.4 アレイ(Array)
 5.5 まとめ

6 Rへのデータ取り込み
 6.1 CSVの読み込み
 6.2 Excelの読み込み
 6.3 データベースからの読み込み
 6.4 他社統計ツールからの読み込み
 6.5 Rバイナリファイル
 6.6 Rに入っているデータ
 6.7 Webサイトからの抽出
 6.8 まとめ

7 統計的なグラフィクス
 7.1 基本グラフィクス
 7.2 ggplot2
 7.3 まとめ

8 Rの関数を書く
 8.1 ハロー、ワールド!
 8.2 関数の引数
 8.3 値の返却
 8.4 do.call
 8.5 まとめ

9 制御文
 9.1 ifelse
 9.2 Switch
 9.3 ifelse
 9.4 複合テスト
 9.5 まとめ

10 ループ:Rの方法ではない反復方法
 10.1 forループ
 10.2 whileループ
 10.3 ループの制御
 10.4 まとめ

11 グループピング操作
 11.1 Applyファミリー
 11.2 aggregate
 11.3 plyr
 11.4 data.table
 11.5 まとめ

12 データ整形
 12.1 cbindrbind
 12.2 Join
 12.3 reshape2
 12.4 まとめ

13 文字列操作
 13.1 paste
 13.2 sprintf
 13.3 テキストの抽出
 13.4 正規表現
 13.5 まとめ

14 確率分布
 14.1 正規分布
 14.2 二項分布
 14.3 ポアソン分布
 14.4 その他の分布
 14.5 まとめ

15 基本統計
 15.1 要約統計
 15.2 相関と共分散
 15.3 t検定
 15.4 分散分析
 15.5 まとめ

16 線形モデル
 16.1 単回帰
 16.2 重回帰
 16.3 まとめ

17 一般化線形モデル
 17.1 ロジスティック回帰
 17.2 ポアソン回帰
 17.3 その他の一般化線形モデル
 17.4 生存時間分析
 17.5 まとめ

18 モデル評価
 18.1 残差
 18.2 モデル比較
 18.3 クロスバリデーション
 18.4 ブートストラップ
 18.5 ステップワイズ変数選択法
 18.6 まとめ

19 正則化と縮小
 19.1 Elastic Net
 19.2 Bayesian shrinkage
 19.3 まとめ

20 非線形モデル
 20.1 非線形最小二乗法
 20.2 スプライン
 20.3 一般化加法モデル
 20.4 決定木
 20.5 ランダムフォレスト
 20.6 まとめ

21 時系列と自己相関
 21.1 自己回帰移動平均
 21.2 VAR
 21.3 GARCH
 21.4 まとめ

22 クラスタリング
 22.1 K-means
 22.2 PAM
 22.3 階層型クラスタリング
 22.4 まとめ

23 knitrパッケージによる再現性・レポートとスライドショー
 23.1 Latexプログラムのインストール
 23.2 Latex 入門
 23.3 Latexを使ったknitr
 23.4 マークダウンのヒント
 23.5 knitrとマークダウンの利用
 23.6 Pandoc
 23.7 まとめ

24 Rパッケージの構築
 24.1 フォルダ構成
 24.2 パッケージファイル
 24.3 パッケージドキュメンテーション
 24.4 チェック、構築とインストール
 24.5 CRANへの登録
 24.6 C++コード
 24.7 まとめ

いかがだろうか。
強いて難点を挙げるとするのであれば、この1年半で進化したデータ操作に関する箇所は今の水準にはないかもしれない。
{dplyr}{tidyr}などがないからだ。
また、DeepLerning系のパッケージやKaggleなどで流行ったxgboostなどもないが、それは次のステップでもよいだろう。

私がR入門者にオススメを聞かれても今の時点では本書をオススメするだろう。

ということで、本書のご恵贈を改めて感謝する次第だ。

0 件のコメント:

ページビューの合計