chemicalize the web

やるなchemaxon的なサービスが立ち上がったようです。

URLを与えると化合物を意味している単語を抽出して二次元構造をポップアップして表示できるようになる。

http://www.chemicalize.org/

IUPAC2MOLの性能をアピールするには良いサービスですな。

Journal of Cheminformaticsが出るようだ

待望のopen accessのジャーナルだ。

Journal of Cheminformatics

  • chemical information systems, software and databases, and molecular modelling
  • chemical structure representations and their use in structure, substructure, and similarity searching of chemical substance and chemical reaction databases
  • computer and molecular graphics, computer-aided molecular design, expert systems, QSAR, and data mining techniques

「サイエンス・ビジネスの挑戦」を読んだ

「サイエンス・ビジネスの挑戦 バイオ産業の失敗の本質を検証する」の読書メモをみたら気になったので読んだ。

ProductName サイエンス・ビジネスの挑戦 バイオ産業の失敗の本質を検証する
ゲイリー・P・ピサノ
日経BP社 / ¥ 2,310 ()
通常24時間以内に発送

  • 人体を一つのシステム、医薬品をそのシステムを構成する部品と考えてみよう。人間の生物学的仕組みは、極めて複雑な上に、インテグラル型の性格が非常に強い。しかも、そのシステムはすべてあらかじめ決まっている。新薬開発に関わる科学者に、このシステムをモジュラー型に変える力はない。

  • (コンビケムへの期待に対して)生理活性をもつ化合物の構造上の特性に関する化学者の知識が新薬開発のプロセスに欠かせないことが改めて明らかになった

情報の非対称性

情報の非対称性とは、売り手と買い手の間に情報量の格差が存在することである。このギャップが大きいほど知的財産の価値などについて双方が合意に達するのが難しい。


特に情報の非対称性に関してはレイヤーや業種に関わらず常につきまとう問題ですな。他には製薬が学際領域(且つビジネス)という業界なので現場にしか分からない感覚っていう部分において本書の主張とちょっと違うよなぁという部分があった。特にモジュラー、インテグラルに関していえば、技術はもっとインテグラルよりだ。つまり、技術は選択肢の一つに過ぎないし、やりたい実験に適合するかどうかで柔軟に選択しているので技術そのものに過度な期待をするわけではない(そこらはアナリストとは違ったところかと)

Basis Set Exchange

基底関数をあつめているBasis Set Exchangeが微妙に便利でにわかクオンタムケミストの僕などは軽く重宝している。

あと、SOAPのサービスがついていて、これは!と思ったんだけど、メソッドがややこしげで、結局どう使えばいいのかわからんまま今に至る。

グラフィカルモデリング

最近、家に帰ると娘がyoutubeをせがむので、コードが書けない。あと部屋があちい。そんなわけで、寝転がって本を読んでいる事が多い。

今日も数年の間寝かせてあった、グラフィカルモデリングなどを読んで勉強中

ProductName グラフィカルモデリング (統計ライブラリー)
宮川 雅巳
朝倉書店 / ¥ 3,990 ()
通常24時間以内に発送

一通り読んだが、分からない事だらけ。数学ガールシリーズでパターン認識関連のやつをカバーしてくれれば楽しく読めるのになどと考えるのは暑いゆえの妄想か。

グラフィカルモデリングって遺伝子ネットワークみたいなのだけじゃなくて、活性構造相関みたいな研究でも役に立つとおもうんだけどなぁ。なんか適当なサンプルに適用して眺めてみたいところ。

あと、そろそろビショップ本読み始めないと。

planet chemoinformaticsにdalkescientific.comを追加

Andrew Dalke's most recent diary entriesplanet chemoinfromaticsに追加した。

bioinformaticsもchemoinformaticsも一緒にやっているので、特に自分の仕事をインフォマティクスと読んでいたのだけど、最近はインフォマティクスがやりたいがために、インフラ整備ばっかりしているので、そろそろ仕事なんですか?と問われたら

インフラマティクスっす

と答えようかなと思っている。あと、IUPAC名をカバーする正規表現とか、テキストからIUPAC名を抽出するモジュールを探してるが見つかりません。誰か知ってたら教えください、プリーズ。

080801

と思ったら、Oscar3を調べれば良い感じだった。

Open Babel 2.2.0をmacbookにインストール

Open Babel 2.2.0にバージョンがあがったのでインストールをした。ソースから。

同時に、perl,python,rubyのバインディングもコンパイルしてインストールしておく。

WindowsにおいてあるPlutoのファイル群を持ってくる

Windowsで開発しているPlutoをmacでもいじれるようにする。windowsのほうはhg serveと打てばhttpサーバーが立ち上がり、port8000番でアクセスできるようになる。

macのほうはディレクトリを作って初期化してpullしてupdate

mkdir Pluto
cd Pluto
hg init
hg pull http://192.168.XXX.XXX:8000/
hg update

これでOK

Rによる医療統計学

一通り読んだ。分かりやすくてお薦めの一冊。

ProductName Rによる医療統計学

丸善 / ¥ 2,940 ()
通常24時間以内に発送

まぁ、なんというか僕はクラスタリングとかPLS,PCRなんかのほうに偏っていて検定とか苦手(というよりもあまり使わない)のでこういったタイプの本は勉強するによいし、手元においておくと何かと便利(なはず)

練習問題もたまに解いている

jython+web.pyでお手軽Webアプリ

jython+web.pyがお手軽で、ちょっとしたことをやるならいい感じ。

jythonのosモジュールにはfstatがないのでtrunkのSimpleHTTPServerの静的ファイルの転送ができない。そのため、2.2.1のSimpleHTTPServerと入れ替えた。

import java.io.StringReader as StringReader
import org.openscience.cdk.interfaces.IMolecule
import org.openscience.cdk.io.CMLReader as CMLReader
import org.openscience.cdk.ChemFile as ChemFile
import org.openscience.cdk.layout.StructureDiagramGenerator as StructureDiagramGenerator
import uk.ac.cam.ch.wwmm.opsin as opsin
import net.sf.structure.cdk.util.ImageKit as ImageKit

import web

urls = (
    '/(.*)', 'img2d' 
)

class img2d:       
    def GET(self, name):
        cml = opsin.NameToStructure().parseToCML(name).toXML()

        str_reader = StringReader(cml);
        cmlr = CMLReader()
        cmlr.setReader(str_reader)
        chem = cmlr.read(ChemFile());
        mol = chem.getChemSequence(0).getChemModel(0).getSetOfMolecules().getMolecule(0)

        sdg = StructureDiagramGenerator()
        sdg.setMolecule(mol)
        sdg.generateCoordinates()
        mol = sdg.getMolecule()

        ImageKit.writePNG(mol, 300, 300, "./static/test.png")
        print '<h1>' + name + '</h1>' + '<img src="/static/test.png" />'

if __name__ == "__main__": web.run(urls, globals())

http://localhost:8080/(2,3-diethyl-benzyl)-isobutanolというURLにアクセスすると、IUPACを2次元構造に変換していい感じに描画して表示してくれる。

opsin_web

ImageKitが必ずファイルに出力するのでテンポラリのファイルを作ればいいのだけど、とりあえず動く事を確認したかったので決めうちの名前で。