07 02 2007 chemoinformatics Tweet
新しい記述子発生ソフトをGPLで使えることを知った。TMACCというそうだ。むーjavaか~とか言わないで、週末にでも実際に動かしてみる。そしてそのうちperlから呼べるように変える。実際、CDKが一番盛り上がってる感じだから、追っかけないとあかんなぁ。と同時に、オープンな記述子発生ソフトは貴重というか、増えてくると色々できて面白い。
Topological MAximum Cross-Correlation
論文によると解釈可能なcorrelation descriptorだそう。
- positive,negativeのチャージのプロパティを正負二つの特性として分けて考えるよ
- autocorrelationだけじゃなくてcross-correlationも考慮するよ。pos-posだけじゃなくて、pos-negative logSみたいな
- sum()は評価しないで、GRINDのように、最大値max()をとるよ
三番目の理由により、記述子とその位置が対応するので、どのアトムのどういうプロパティが重要かっていう解釈が可能。つまりMACCだとそういうことができて、CoMFAなノリ(はGRIND)でなくてトポロジカルな勢いで記述子作ってみたよってのがTMACC
という流れなので、モデル構築は普通にPLS
比較対照はHQSAR。これはなんかdayrightのハッシュっぽいやり方。GRIND,HQSARは下のURLを参照 http://chem.clubsse.com/Tripos/Tech/QSAR/Almond/Product.html http://chem.clubsse.com/Tripos/Tech/QSAR/HQSAR/product.html
HQSARみたいに部分構造から記述子つくるんだったらベイズみたいなほうが精度が上がるような気がするんだけど。という風に考えれば、TMACCを使ってベイズでモデル構築してもいいかもしんない。
TMACC-PLSで重要そうな原子をピックアップしてから、ファーマコフォアモデルを作成するっていう流れでもいいかもな感じだけどこれはトレーニングセット次第の気がする。
ちなみに、僕は解釈できる記述子信奉派です。よくわからない謎記述子は、仮に重要なファクターだって示唆されても、じゃぁどこをどういじればよさげな方向にいくのさ?て悩んで終わるだけだし。