pubchemのクラスタリングの結果をcytoscapeで見てみた

pubchemはクラスタリングの結果をgml形式でダウンロードできるので、それをcytoscapeで読み込んで解析することができる。早速データをとってくる。benzothioleで検索すると大体3000件くらいヒットするのでこれをクラスタリングしたものをgmlでダウンロードして、cytoscapeで読み込んでみた。

pubchem

適当に描かせて眺めてみる。なんかネットワークっぽくなってますの。

cytoscape

さらに、ズームしてみる。

cytoscape zoom

うーん、クラスタリングの結果を見てもちょっと面白くない。むしろ部分構造(MCS:Maximum Common Substructure)から構築したネットワークのほうがわかりやすいだろうな。

あとは、合成の時系列でネットワークをつくればいいと思うが、その場合、元々参考にした化合物の構造への情報をケミストから聞かなきゃいけないのでちょっとめんどいなぁ。

ということはpatentか?あれは先行技術の特許番号ついてたはずだからあれでネットワーク構築すればいいのか。これだったら、描いてみておもしろそう。

TODO: 奇麗な絵が描けるようにcydocなどを参考にちょっと勉強しとく

Chemistry::Mol

Chemistry::Molでちょっとはまった。

Can't call method "symbol" on an undefined value

というエラーでつまづいた。

my $mol2 = $mol->clone;

Makes a copy of a molecule. Note that this is a deep copy; if your molecule has a pointer to the rest of the universe, the entire universe will be cloned! my $mol2 = $mol->safe_clone;

Like clone, it makes a deep copy of a molecule. The difference is that the copy is not "exact" in that new molecule and its atoms and bonds get assigned new IDs. This makes it safe to combine cloned molecules. For example, this is an error:

    # XXX don't try this at home!
    my $mol2 = Chemistry::Mol->combine($mol1, $mol1);
    # the atoms in $mol1 will clash

But this is ok:

    # the "safe clone" of $mol1 will have new IDs
    my $mol2 = Chemistry::Mol->combine($mol1, $mol1->safe_clone);

chemicalize the web

やるなchemaxon的なサービスが立ち上がったようです。

URLを与えると化合物を意味している単語を抽出して二次元構造をポップアップして表示できるようになる。

http://www.chemicalize.org/

IUPAC2MOLの性能をアピールするには良いサービスですな。

Journal of Cheminformaticsが出るようだ

待望のopen accessのジャーナルだ。

Journal of Cheminformatics

  • chemical information systems, software and databases, and molecular modelling
  • chemical structure representations and their use in structure, substructure, and similarity searching of chemical substance and chemical reaction databases
  • computer and molecular graphics, computer-aided molecular design, expert systems, QSAR, and data mining techniques

「サイエンス・ビジネスの挑戦」を読んだ

「サイエンス・ビジネスの挑戦 バイオ産業の失敗の本質を検証する」の読書メモをみたら気になったので読んだ。

ProductName サイエンス・ビジネスの挑戦 バイオ産業の失敗の本質を検証する
ゲイリー・P・ピサノ
日経BP社 / ¥ 2,310 ()
通常24時間以内に発送

  • 人体を一つのシステム、医薬品をそのシステムを構成する部品と考えてみよう。人間の生物学的仕組みは、極めて複雑な上に、インテグラル型の性格が非常に強い。しかも、そのシステムはすべてあらかじめ決まっている。新薬開発に関わる科学者に、このシステムをモジュラー型に変える力はない。

  • (コンビケムへの期待に対して)生理活性をもつ化合物の構造上の特性に関する化学者の知識が新薬開発のプロセスに欠かせないことが改めて明らかになった

情報の非対称性

情報の非対称性とは、売り手と買い手の間に情報量の格差が存在することである。このギャップが大きいほど知的財産の価値などについて双方が合意に達するのが難しい。


特に情報の非対称性に関してはレイヤーや業種に関わらず常につきまとう問題ですな。他には製薬が学際領域(且つビジネス)という業界なので現場にしか分からない感覚っていう部分において本書の主張とちょっと違うよなぁという部分があった。特にモジュラー、インテグラルに関していえば、技術はもっとインテグラルよりだ。つまり、技術は選択肢の一つに過ぎないし、やりたい実験に適合するかどうかで柔軟に選択しているので技術そのものに過度な期待をするわけではない(そこらはアナリストとは違ったところかと)

Basis Set Exchange

基底関数をあつめているBasis Set Exchangeが微妙に便利でにわかクオンタムケミストの僕などは軽く重宝している。

あと、SOAPのサービスがついていて、これは!と思ったんだけど、メソッドがややこしげで、結局どう使えばいいのかわからんまま今に至る。

グラフィカルモデリング

最近、家に帰ると娘がyoutubeをせがむので、コードが書けない。あと部屋があちい。そんなわけで、寝転がって本を読んでいる事が多い。

今日も数年の間寝かせてあった、グラフィカルモデリングなどを読んで勉強中

ProductName グラフィカルモデリング (統計ライブラリー)
宮川 雅巳
朝倉書店 / ¥ 3,990 ()
通常24時間以内に発送

一通り読んだが、分からない事だらけ。数学ガールシリーズでパターン認識関連のやつをカバーしてくれれば楽しく読めるのになどと考えるのは暑いゆえの妄想か。

グラフィカルモデリングって遺伝子ネットワークみたいなのだけじゃなくて、活性構造相関みたいな研究でも役に立つとおもうんだけどなぁ。なんか適当なサンプルに適用して眺めてみたいところ。

あと、そろそろビショップ本読み始めないと。

planet chemoinformaticsにdalkescientific.comを追加

Andrew Dalke's most recent diary entriesplanet chemoinfromaticsに追加した。

bioinformaticsもchemoinformaticsも一緒にやっているので、特に自分の仕事をインフォマティクスと読んでいたのだけど、最近はインフォマティクスがやりたいがために、インフラ整備ばっかりしているので、そろそろ仕事なんですか?と問われたら

インフラマティクスっす

と答えようかなと思っている。あと、IUPAC名をカバーする正規表現とか、テキストからIUPAC名を抽出するモジュールを探してるが見つかりません。誰か知ってたら教えください、プリーズ。

080801

と思ったら、Oscar3を調べれば良い感じだった。

Open Babel 2.2.0をmacbookにインストール

Open Babel 2.2.0にバージョンがあがったのでインストールをした。ソースから。

同時に、perl,python,rubyのバインディングもコンパイルしてインストールしておく。

WindowsにおいてあるPlutoのファイル群を持ってくる

Windowsで開発しているPlutoをmacでもいじれるようにする。windowsのほうはhg serveと打てばhttpサーバーが立ち上がり、port8000番でアクセスできるようになる。

macのほうはディレクトリを作って初期化してpullしてupdate

mkdir Pluto
cd Pluto
hg init
hg pull http://192.168.XXX.XXX:8000/
hg update

これでOK