2014年11月24日月曜日

Rで主成分分析するときに使いたいggbiplotパッケージ

本当は来月のAdvent Calenderのネタにしようかと思っていたのだが、DeepLearningのネタを書くというようにDicisionMakingしたので、自分の退路を断つという意味でも先にこれを公開しておこう。

最近、改めて多変量解析をじっくりと行うことが多いのだが、今までplotがあんまりいけてないという理由で主成分分析や因子分析などを活用することがなかった。
ggplotが広く使われるようになって、Rでのビジュアライゼーションに革命が起こったのは周知の事実だが、多変量解析のプロットについてもこの革命の手が及んでいたことが判明して、僕のQOLが向上したので、それを共有したい。

なお、主成分分析とはなんぞやという話は、下記のさのっちの資料によくまとめられているので、そちらを参照されたい。

ちなみに、Rで主成分分析を行う際はstatsパッケージというデフォルトで実装されているパッケージ内のprcomp関数を使用しないといけない。
パッケージのインストール
 
install.packages("ggbiplot")
library(ggbiplot)

このパッケージ内にwineというデータセットがあるので、そちらを使います。
これで描画すると、ggplotをベースにしたbiplotを描くことができます。 

なかなかきれいにplotできています。 引数で色々と設定できますし、個人的にはこの円がなんか響いて、けっこうよく使うようになりました。 主成分分析するときにggbiplotぜひ活用してみてください!

2014年11月9日日曜日

データ解析のための統計モデリング入門 ~一般化線形モデル・階層ベイズモデル・MCMC~を読了

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

名著で有名なデータ解析のための統計モデリング入門を読了した。
最近はちょっと専門的な本は輪読会で読了するメソッドを多用しているのだが、これは本当にいい。1人で読むとどうしても途中で挫折してしまうからだ。
本書は一般化線形モデルから階層ベイズ、MCMCまでとそれなりにハードルの高い内容が収録されているが、久保先生の丁寧な解説がそのハードルの高さを緩和してくれる内容になっているので、取り組みやすいものだろう。
これはネットの論評でも、多く寄せられているので、今更主張するまでもないことだが、事実なので、書いておく。

■目次
第1章 データを理解するために統計モデルを作る
第2章 確率分布と統計モデルの最尤推定
第3章 一般化線形モデル(GLM)―ポアソン回帰
第4章 GLMのモデル選択―AICとモデルの予測の良さ
第5章 GLMの尤度比検定と検定の非対称性
第6章 GLMの応用範囲をひろげる―ロジスティック回帰など
第7章 一般化線形混合モデル(GLMM)―個体差のモデリング
第8章 マルコフ連鎖モンテカルロ(MCMC)法とベイズ統計モデル
第9章 GLMのベイズモデル化と事後分布の推定
第10章 階層ベイズモデル―GLMMのベイズモデル化
第11章 空間構造のある階層ベイズモデル

#みどりぼん読書会で読破しているので、各章の発表スライドが下記のconnpassのリンクに上がっていますので、これから取り組まれる方はぜひ。

「データ解析のための統計モデリング入門」 読書会

またニコ生で毎回放送を行っていて、その放送内容の一部がYoutubeにアップされています。
データ解析のための統計モデリング読書会 #みどりぼん

WinBUGSは使っているOSの影響で実行できなかったものの、JAGSやstan、MCMCpackなどで実行できるので、活用の場を考えて使っていきたいなぁと思います。
参加者の皆様、お疲れさまでした。

自分の発表資料はここに
みどりぼん読書会で階層ベイズの発表した
ちなみに次回は続・わかりやすいパターン認識の読書会です。
こちらも読破してベイズをどんどん理解したいところ。

ページビューの合計