Rの基礎とプログラミング技法がよさそう

同僚が買って持ってきたのでちょろっと見せてもらった。

ProductName Rの基礎とプログラミング技法
U.リゲス
シュプリンガー・ジャパン(株) / ?円 ( 2006-10-22 )


言語としてのRの説明が結構厚くて、遅延評価とか関数型言語としてのRとかオブジェクト指向的な使い方とか結構興味をそそるようなことが書いてあり、すごく欲しくなった。

あー欲しいけど、今月色々買っちゃったしなー。クリスマスという言い訳で本を何冊か買うかな。

R Commanderの本

LLで話されるような内容とは対極に近い、Rの統計解析環境としての本。かなりニッチなところをついてきた感があるが、Rのユーザー層を考えるとこっちのほうが普通の使い方なのかも。

ProductName R Commanderハンドブック―A Basic-Statistics GUI for R
舟尾 暢男
九天社 / ¥ 3,360 (2007-08)
通常4~5日以内に発送

RにおけるR Commanderってelispに対するemacsみたいな感じなのかな。

あとRってpythonみたいに対話環境がデフォルトだし。

なんつうか不思議な言語ですな。

Planet R

Planet Rがあった。

早速購読。

あとRとBioconductorを用いたバイオインフォマティクスが気になる。

が、Amazonだと洋書しか出てこない。

RSeek.orgでR関連の検索

Rの使いにくいところの一つに、一文字なので検索するときに色々と工夫しないと望む結果が得られないことがある。

RSeek.orgを使えばよさそう。検索バーへの追加ボタンもあって便利に使える。

Rで学ぶデータマイニング

目次を見る限り、一部と二部を分冊にしたほうが嬉しいかも。

二部だけだったら買ったと思うが無駄に分厚かったりするとやなので書店で立ち読みしてから、買うか買わないか決めよう。てか、九天のRの本は紙質とか構成がなんとなくアレな気がするんだけど、この本はどうだろう?

Rで自己組織化マップ

Kohonen mapsの論文

RでSOM(自己組織化マップ)フリーソフトによるデータ解析・マイニング第30 回

ユニットを大きくしてやって、散布図にしてやる方法は参考になった。

ふと、SOMってunsupervisedなクラスタリングだから、tagにSOMとかもありかなと思って探したら、タグクラウドの次はSOM…かなあというエントリを見つけたが、実際にやってる例は探せなかった。

軸に意味を持たすのが難しいから、結局アルファベット順のほうが探しやすいのかな。

Special Volume on Spectroscopy and Chemometrics in R

Journal of Statistical Softwareでかなり面白い特集が。しかも読めるし。

chemoinformaticsの読み物としても結構楽しめる。plsとか丁寧に説明してある。特にChemical Informatics Functionality in Rなどがお奨め。RCDKで記述子結構発生させられるのね。ちょっと心惹かれるかも。

あとはModel-based Methods of Classification: Using the mclust Software in Chemometricsがいまいち理解できなかったのであとでちゃんと考えてみる。うまくあてはまるモデルを選択するだけなんだろうか?

アレイの論文でも探して読めばイメージしやすいような気がしてるけど。

とりあえず検索してみた

馬蹄(アーチ)効果の除去

統計学関連なんでもあり

私見によれば、アーチ型になるのは冗長な次元が抽出されている ためであり、通常は逆U字型になる凸の次元を削除するだけでいい。 ということになりませんか。つまり線形の次元のみ有効。

統計学関連なんでもあり

馬蹄形がでてくるということは、ガットマン尺度できれいに1次元性を示しているということでしょう。他の因子は解釈する必要がないはずです。  もっとも数量化3類ではいいきることができますが、主成分分析だと、そのはずだという程度です。

ほう。わかったようなわからんような、いまいち掴みきれてない感じ。

後でちゃんと読む

PCRとかの場合はどうなるんだろうか?

Rで並列計算

Rで並列計算 - RjpWiki

Rで並列計算

(とりあえず、動いたので報告です。256ノードで動かすと、さすがに速いです。修正大歓迎。)

snowパッケージを用いてクラスターマシン上で並列計算を行う。

Rで並列計算できるらしい。

早速試したいが、いま自由にできるまとまったクラスターがないのでまた後で。

でも、PCAとか速くなると嬉しい。

random forest

最近、QSPRやったりQSARやったりという論文が幾つかまとめてでてたので、理解しとかなきゃと思いつつ、放ってあったRandom Forestを。

とりあえずrandom forestが大体どういうことをやってるのかは分かった気になったが、ブートストラップ、バギングといい、アンサンブル学習がまだしっくりとこない。

でも、ちょっとおもろいかもと思った。計算機の性能があがってきたから、蛋白レベルでも量子化学計算できるようになってきて、それはそれで色々分かって楽しいんだけども、やっぱインフォマティクス(というか学習論?)的なアプローチのほうが好きだわと思った。後でじっくり読んでみるか。