2014年12月11日木曜日

可視化の金字塔[ヴァイオリンプロット]をRで描くのを流行らせたい

R advent calendar 11日目を担当します。

こちらはatndでのシリーズですが、同時並行でqiitaでのものもあります。

その8日目の記事にこんなものがありました。
羽鳥教入信のすゝめ

R界隈に生息されている皆さんなら言わずと知れたHadley Wickhamさんですね。
僕も彼のパッケージには非常にお世話になっています。
Tokyo.R界隈ではリア充の羽鳥に対抗して中国のRenkunを応援するPipeRの勃興があったのも記憶に新しい。

ggplot2パッケージで色々とプロットしましたが、その中であまりメジャーじゃないけど、めっちゃ便利なものがあって、ぜひ流行らせたいので、今日はヴァイオリンプロットの描画を紹介しましょう。

ヴァイオリンプロットってなじみのない方も多いと思うのですが、
簡単に言ってしまうと、「箱ひげ図」+「ヒストグラム」のプロットです。

これ、超すごくないっすか?
どちらもよく利用するメジャーな統計的プロットなのに、その両方を一度に描けるなんて!

というわけで、先にコードと結果の図をお見せします。






男女別の体重の箱ひげ図とヒストグラムがご覧いただけたでしょうか?
内部のボックスが箱ひげ図、外部のアメーバのようなものがヒストグラムを表しています。
箱ひげ図だけでも、四分位点の状況は把握できるのですが、実際にどんな分布なのかは読み取ることができません。が、ヴァイオリンプロットなら、それがわかるのです!!
素晴らしい。統計の教科書にも必須でのせるべきだと思うのは私だけでしょうか。

geom_violin()だけで、デフォルトのプロットができますが、boxplotとstat_summaryの引数の設定によって、
かゆいところにまで手が届く仕様となっています。
ちょっとわかりづらいのですが、ボックス内の白丸はmean値です。箱ひげ図にはmedianのラインが引かれているので、平均値と中央値の差異も一度にわかってしまうお得なプロットです。
ぜひ、みなさんもggplot2のヴァイオリンプロットを使って、充実した可視化ライフをお過ごしください。


最後に‥

どうやら羽鳥は来年にO'Reillyから著書を出されるようです。
要チェックですね。




あと、tidyrパッケージとreshape2パッケージのバージョンが上がって、新しい関数が追加されたので、
まだアップデートしていない人は、アップデートしましょう!
tidyr 0.2.0 (and reshape2 1.4.1)

Enjoy!

お詫び
最初Deep Learning系やろうと思ったのですが、この話題、色々な場所で出まくっているので、自重しました。

0 件のコメント:

ページビューの合計