26112008 chemoinformatics
CBI学会で出してる本がアマゾンで買えるようになったそうです
僕は読んでないのだけど目次から察するに、アカデミックな本よりはリアルな感じで、 研究そのものというよりは、研究ビジネスといったものに興味がある場合に役立つかもしれない。
26112008 chemoinformatics
18112008 chemoinformatics
LeadOptimizationにおける合成戦略は基本的に新規な構造を追いかけるために、常にモデルを外れる傾向にある。だから精度が高すぎるQSARモデルはどうかなと思うことがあるし、あんまり最適構造にこだわんのもどうかな?なんて思ったりもする。また、あまりにも類似している構造が同じ様な活性を示すという情報は情報量的にあんまりだし、無駄に新規性を追求した結果、活性が残らなかったという状況もあれだ。
これってstrength of weak tiesに似ているんじゃないかと。つまり弱い紐帯のようなものをうまく探るのが、プロジェクトを先に進めるために必要なことのひとつであろうという仮説を立ててみた。
で、そういったネットワークを探索するのもなかなか楽しそうだ。
MCSを分解していってエッジを張って活性と類似度のバランスでエッジに重みをつけるっていうのはどうだろうか。構造は結構異なっているが適度に関連性があって活性があまり失われていないようなエッジはリードホッピングの道を指し示してはくれんじゃろか?
15112008 chemoinformatics bioinformatics PRML
chemoinformaticsにも使えそうなので色々読んでみている。
ぼんやりとした入門のそのまた入門の入り口ぐらいには立ったかなって感じ。CRPで遺伝子発現のクラスタリングをやっている論文があったので読む。
ディリクレ分布に関してはこの本見た。
09112008 chemoinformatics Arduino
08112008 chemoinformatics work
参加した皆様おつかれさまでした。
僕はというと、反応プログラミングを使った合成系人工無脳について、話させてもらいました。職場でトークしてもレスポンスが薄くて凹むのでこういう場は結構貴重だなぁと改めて。
帰りにパラパラめくってみて欲しくなったんだけど、PRMLにも書いてあるからなぁ。
先にこっちだな。
リサンプリングの話でrandom forestはどうかっていう話が出た時に、あーそれもありかなみたいなぁとその場では思ったのですが、よくよく考えたらブートストラップサンプルで標本が重複してしまうからそれをうまいこと回避できるのかなぁ?と。
なんかいい方法あるかなぁ。あとでもう少し考えてみよう。
02112008 chemoinformatics life
グラフ版数学ガール的な本。ただし、数式はほとんど出てこなく、さくさく読めてお薦め。
「ダイクストラのアルゴリズム」に始まり、最小全域木と最短経路木の話があって、greedy algorithmとして「クルスカルのアルゴリズム」へ。
このあたりで、マトロイドが出てきたんだが、ここはいまいち理解できなかった。
さらに、オイラー小路、オイラー閉路の説明があって、「チュゴクの郵便配達員問題のアルゴリズム」でだんだん面白くなってきて、巡回セールスマン問題へ至る。
ここで、「1-木」とかいう話が出てきてちと悩む。「クリストファイズのアルゴリズム」やヒューリスティックな解放をいくつか通って、多面体組み合わせ論へ。ただし、これはイメージだけつかませるような内容になっていて、ここでこの本は終了。
GASTONとかgSpanに至には次にどんな本読めばいいんだろうかのう。とりあえずAmazonをみてたら面白そうなの見つけた。
広く浅くな内容な気がするがちょっと気になる。
01112008 chemoinformatics network graph
26102008 chemoinformatics work bioinformatics
今の仕事で、data preparationのための効率的な仕組み(インタラクティブなサービス)が必要だろうなぁと感じているので、8章のサービスのデザインが参考になった。
デザイニング・インターフェースも併せて読むとおもしろい。
25102008 chemoinformatics cytoscape
pubchemはクラスタリングの結果をgml形式でダウンロードできるので、それをcytoscapeで読み込んで解析することができる。早速データをとってくる。benzothioleで検索すると大体3000件くらいヒットするのでこれをクラスタリングしたものをgmlでダウンロードして、cytoscapeで読み込んでみた。
適当に描かせて眺めてみる。なんかネットワークっぽくなってますの。
さらに、ズームしてみる。
うーん、クラスタリングの結果を見てもちょっと面白くない。むしろ部分構造(MCS:Maximum Common Substructure)から構築したネットワークのほうがわかりやすいだろうな。
あとは、合成の時系列でネットワークをつくればいいと思うが、その場合、元々参考にした化合物の構造への情報をケミストから聞かなきゃいけないのでちょっとめんどいなぁ。
ということはpatentか?あれは先行技術の特許番号ついてたはずだからあれでネットワーク構築すればいいのか。これだったら、描いてみておもしろそう。
TODO: 奇麗な絵が描けるようにcydocなどを参考にちょっと勉強しとく
22102008 chemoinformatics perl
Chemistry::Molでちょっとはまった。
Can't call method "symbol" on an undefined value
というエラーでつまづいた。
my $mol2 = $mol->clone;
Makes a copy of a molecule. Note that this is a deep copy; if your molecule has a pointer to the rest of the universe, the entire universe will be cloned! my $mol2 = $mol->safe_clone;
Like clone, it makes a deep copy of a molecule. The difference is that the copy is not "exact" in that new molecule and its atoms and bonds get assigned new IDs. This makes it safe to combine cloned molecules. For example, this is an error:
# XXX don't try this at home!
my $mol2 = Chemistry::Mol->combine($mol1, $mol1);
# the atoms in $mol1 will clash
But this is ok:
# the "safe clone" of $mol1 will have new IDs
my $mol2 = Chemistry::Mol->combine($mol1, $mol1->safe_clone);