Machine Learning: An Algorithmic Perspective 8章

EM Algorithmとkd-Tree

ProductName Machine Learning: An Algorithmic Perspective (Chapman & Hall/Crc Machine Learning & Patrtern Recognition)
Stephen Marsland
Chapman & Hall / ¥ 6,593 ()
通常2~3週間以内に発送

内容はPRMLのほうが詳しい。Machine Leaningのほうはコードを読んで実装を理解するって感じだな。

ProductName パターン認識と機械学習 下 - ベイズ理論による統計的予測
C. M. ビショップ
シュプリンガー・ジャパン株式会社 / ¥ 8,190 ()
在庫あり。

kd-Treeは使ったことなかったけど、近傍探索はよく使うので、覚えておいて自由に使えるようにしようかな。

混合効果モデル

去年の夏に購入したまま積んであったMixed-Effects Models in S and S-PLUSを読んでいる。

ProductName Mixed-Effects Models in S and S-PLUS (Statistics and Computing)
José Pinheiro,Douglas Bates
Springer / ¥ 5,749 ()
在庫あり。

Rのnlmeパッケージの使い方もほとんど一緒なので、手動かしながら読めていい。内容は結構ハードでなかなか読み進まないが。

読みながら色々調べてたら生態学のデータ解析 - ランダム効果とは?というページを見つけて、固定効果それともランダム効果?のガイドラインが便利そうだったのでチャートにしてみた。

RandomEffect of FixedEffect?

最初pygraphvizで描こうと四苦八苦してたんだけど、unicodeはadd_nodeできんのにadd_edgeとかget_nodeとか出来なくてあきらめた(直接dot書いた)。

他にはMixed-Effects Models in S and S-PLUSは和訳がでるっていう情報も見つけた。これはちょっと凹む。まぁ、和訳の本は職場で入れてもらって、会社ではそっち読めばいいかな。

鯨波

先週は鯨波をぬる燗にして飲んでた。

1267877667

ぬー、これは旨いですな。

Machine Learning: An Algorithmic Perspective 7章

BoostingとBaggingの章。

AdaBoostのPython実装は参考になった。

でも、AdaBoostはRにあるのは知っているので、そっちを使ってみる。

library(ada)
data(iris)
iris[iris$Species!="setosa",]->iris
n<-dim(iris)[1]
trind<-sample(1:n,floor(.6*n),FALSE)
teind<-setdiff(1:n,trind)
iris[,5]<- as.factor((levels(iris[,5])[2:3])[as.numeric(iris[,5])-1])
gdis<-ada(Species~.,data=iris[trind,],iter=20,nu=1,type="discrete")
gdis=addtest(gdis,iris[teind,-5],iris[teind,5])
plot(gdis,TRUE,TRUE)

adaboost

ProductName Machine Learning: An Algorithmic Perspective (Chapman & Hall/Crc Machine Learning & Patrtern Recognition)
Stephen Marsland
Chapman & Hall / ¥ 6,593 ()
通常2~3週間以内に発送

「iPhoneとツイッターで会社は儲かる」を読んだ

儲かるかどうかっていうよりは社内コミュニケーションにどう生かすかって感じの内容だった。内容もゆるい感じで、少し薄い感じがした。

他の新書がBlogなら、この本はそのリアルタイム性と薄めの内容からtwitter的みたいな。こういう内容に興味がある層は、社内Wikiだイントラブログだ、シャベルだといろいろトライアンドエラーを繰り返しているだろうから、書いてある内容は大体理解しているだろうからなおさら、薄く感じるのかもしれないけど。

敢えて言えば、組織のトップが理解して実践するとどうなるか、つまり「メリット2 組織のベクトルが揃う(p.74)」ってところが印象に残ったが、組織のトップだったらメッセージを発するってのはミッションそのものだから、強いメッセージ手段と比べてどうなのかとかそういう話も入れて欲しかったけど。

社長のtwitter見てない社員は組織のベクトルが揃わないので、すぐやめるとか、やめさせることで(略)みたいな。

ProductName iPhoneとツイッターで会社は儲かる (マイコミ新書)
山本 敏行
毎日コミュニケーションズ / ¥ 819 (2010-02-23)
在庫あり。

5章以降はちょっといまいちだったな。iPhoneよりもスマートフォン一般の未来についての内容だと思ってたら、普通にiPhone使うって話だった。

PK-PDの論文

Pharmacokinetic-Pharmacodynamic Modeling of Biomarker Response and Tumor Growth Inhibition to an Orally Available cMet Kinase Inhibitor in Human Tumor Xenograft Mouse Models という論文が良かった。というか、最近ボトムのあたりを這っていた僕のモチベーションがかなり上がった。

ケモインフォマティストとして、このレベルのPK-PD解析を出来るようにしたい。

PK-PD

この本の23,24章に最適化フェーズにおけるPK-PDモデリングとかPBPKモデリングの意義とかがあって、その内容が良い。

そして、ケモインフォマティストなのでSASとかNONMEMではなくてRを使う。

「非線形混合モデルを理解するために」というpdfも見つけた。

Machine Learning: An Algorithmic Perspective 6章

決定木。ID3アルゴリズムの説明と実装をPythonで。

C4.5とかCARTの説明はあまりしていない、触りだけ。

CARTは統計的にテキスト解析(14) 〜テキストの分類分析1〜を読むのが良い。

C4.5とかはwekaの作者の本がよいらしい。

「Scalaプログラミング入門」を予約した

早くこないかな

ProductName Scalaプログラミング入門
デイビッド・ポラック
日経BP社 / 3360円 ( 2010-03-18 )


化合物情報をTokyo Cabinetで管理してみる

単にIDをキーにしてsdf呼び出すだけだったらKVSで良くね?と思ったところ、そういえばTokyoCabinetPythonバインディングがあることを思い出したので、ちょっと試してみた。

データはこの時に落としておいたsdf

import pybel
import pytc

sdffile = "pc_sample.sdf"
db = pytc.HDB('compounds.db', pytc.HDBOWRITER | pytc.HDBOCREAT)
mols = pybel.readfile("mol",sdffile)

for mol in mols:
    title = mol.OBMol.GetTitle() 
    db[title] = mol.write("mol")

100万化合物くらいなら全部メモリに載せられそうな感じ。そしたら速いよねー、CouchDBも気になってきた。

autoinsertでPythonスクリプトの定型文を自動的に埋め込む

普段Emacsを使うのだけど、autoinsertでスクリプト書くときの最初の二行は自動的に入るようにした。

;;auto insert
(require 'autoinsert)
(add-hook 'find-file-hooks 'auto-insert)
(setq auto-insert-directory "~/.emacs.d/insert/")
(setq auto-insert-query nil) ;自動的に挿入

(setq auto-insert-alist
      (append '(("\\.py$" . "pyheader.txt")
           ) auto-insert-alist))

pyheader.txt

1
2
3
4
#!/usr/bin/env python
# -*- encoding:utf-8 -*-

# kzfm <kerolinq@gmail.com>

これでOK