一年くらい前の下書きエントリが残っていたのでまとめてみた。ちなみに僕は会社に入ってから統計覚えたにわか(エセ?)スタティシャンで、お気楽統計が好き。t検定とかF検定とかほとんどやらない。むしろSVMとかベイズとか好んで使います。もちろんPCAとかで空間にマップするのもみて面白いんで、テキストマイニングも大好きだ。
というわけでちょっと、偏ってるかもん。
自分の過去のエントリ見てみると、perlからRを呼び出してつかったり、scipyとかnumpyに惹かれてるようだけど、視覚化ツールとしてのRも結構好き。
1.The R Tips―データ解析環境Rの基本技・グラフィックス活用集
ファーストチョイスはこれ。
Rの使い方の本だ。実際にRで動かして感触を得ながら読み進めていくのがよいかと。数値計算に関する話とか、行列計算とか丁寧に書かれているので理解しやすい。あとplotなんかの例が豊富で、それがまたRをいじる気にさせるわけだ。僕は15章のグラフィックスが一番役にたった。
そして、わからないとことか深く調べたいときにはRjpWikiで調べればよい。
欲を言えばオライリー本みたいにいい紙使って欲しかった(ちょっと重い)。
2.Rによる統計解析の基礎
こちらは、Rの使い方を懇切丁寧にというよりは、初歩の統計をRのコードを交えながらという感じ。
感覚としてはperldocみたいに知りたいとこだけ知るにはいい感じ。だいたいRの使い方わかっていればperldocのSYNOPSISのように必要最低限記述してあるほうが使い勝手がいい。
名前にだまされたとかでアマゾンではいい点ついてないけど、僕は★★★★☆ぐらいかな。確かにR初心者で懇切丁寧な本を探してる人にはどうかなぁとは思う。あとは普通に統計学学んでる人にも書いてる内容が基本的すぎてつまらないのかも知れない。
でも、H2L(Hit-to-Lead)とかLO(Lead Optimization)に関わっててQSARとは違う切り口で統計的な手法なんか使ってみたいなぁ。とか思っている人にはいいかもよ。(明らかにアッセイ条件しくってて)R2ボロボロでシグモイド曲線もよれててカテゴリカルなんじゃね?って思うのに、IC50きっちり出しといたとか言い張られると、後ろでこそっとノンパラ検定やりたくなるでしょ、奥さん。みたいな。そんな時A5なサイズで厚みもそんなにないこの本をこっそり登場させると吉だ。
3.The R Book―データ解析環境Rの活用事例集
まんま事例集。最初のほうに初級者用の章があるがあんま役にたたん。この手の本にインストールのやり方書く必要あんのか?むしろpdfにしてCDに突っ込んどけばなんて思ってしまう。あと、想定されてる読者層がいまいちわからない。というのは、イントロダクション的な内容があったり、パッケージの作り方が書いてあったりとか、内容が盛り込みすぎなんだが、節操がないんだかわからんような構成で、質がまちまちなのは著者が章ごとにバラバラだから仕方ないのかな。正直1部に章を割く必要あるのかpdfで(以下略)
一応、16章がBioconductorの章になってんだけど、十数ページしかないし、マジにイントロだけなのでちょっとRでバイオインフォじゃ!みたいなノリで読むと物足りないこと間違いなし。スポッポファイアの事例集のが役に立つかなぁ。
むしろ参考になったのが
- 第5章 Rでらくらく時系列解析
- 第6章 Rで分析する社会学・社会調査データ
- 第8章 Rによる画像処理
- 第13章 Rでロジスティック回帰分析
5章の時系列解析は、HTSなんかのマシンの癖によるエッジ効果っていうかバギーなウェルのチェックとか、経時変化による細胞のへたり具合分析ルーチン書いたりする際に参考になった。
6章8章が役に立ったのは、主にケモインフォで。カテゴリカルなデータとかバイナリなデータはケモインフォな記述子いじる場合避けては通れないし、タニモト係数で評価すんのはちょっとなあって時にロジスティック回帰などいいかと思う。まぁそんなときにはまずベイズ推定したりすることのが多いけどな。
あと、画像処理で遊びたいナァと思っているので8章も参考になった。
Rの入門書としてはどうかな?むしろアイデア頂いたりとか、新しい統計手法に触れたりとか、アイデアブックとして使っている。