Drkcore

マルチサイトのMMP

先週の自分の発表の時、Hさんに複数のMMPを同時にふるようなやり方はうまくいくのか聞かれて、難しいのではないかと直感的に答えたのだけど、お昼寝しながらあの答えで正しかったのかなぁと考えていた。

というより、ゴロゴロしながら考えていたら寝てしまったのだけど。

MMPでコアの構造を考えなくて良いとした場合には再帰的にフラグメントの置換が可能になってしまうので、ちょっとこまる。メチル基3つつけたら3倍の効果がでるかと言われればそれは難しいんじゃないのと。

クラシカルなQSARやれるような場合はそれぞれのフラグメントの効果は独立だからうまくいくんだろうなと思う。

つまりフラグメント-フラグメント相互作用とかフラグメント-コア相互作用なんかを考慮しなくていい場合にはうまくいく感じがする。

FBDDやる場合にはフラグメント-コア相互作用として歪のエネルギーを考慮していますね。

09072013 chemoinformatics Python

ChEMBLのデータからMMP用のsdfセットを作成する

pychembldb使えば楽勝だというということの証明をしようと思ったが、意外に面倒くさかった。

ヒトのアッセイ系
信頼レベルマックス(Direct single protein target assigned)
アッセイのタイプはBinding

という条件でデータを引っ張ってくる。その後構造数<2のファイル（MMPにならない）を削除して、メタデータ(アッセイID, Uniprotのアクセッション番号、一般名称、データ元のジャーナル)を吐き出したあと、活性データをTSVに出力するようにしている。

最初はsdfのほうに活性情報も付けておけば楽勝じゃないかと思ったが、スキーマ見てたら測定タイプが正規化されてないうえに、AssayじゃなくてActivityのほうについてることに嫌な予感がしたので調べた。

chembl schema

やはり、pIC50とIC50が混在してたり、InhibitionとIC50が混在していた。

これはペアに出来ないので僕の場合はpandasでゴニョるのでこうしましたが、PPのスキルが高まっていてこっちでやれるのであればsdfに活性入れておいたほうが取り回しやすいかも。

コードはexamples/recreation.pyにあります。ファイル名があれなのは今朝コードを買いている時にスーパーカーを聴きまくっていたからというわけなので察してください。

09072013 chemoinformatics Python

pychembldbで結合試験系の全てのアッセイ名を出力する

こんな感じで

from pychembldb import *
for a in chembldb.query(Assay).filter(AssayType.assay_desc == "Binding").distinct():
   a.description

29062013 chemoinformatics

創薬にredmineを持ち込むという無理ゲーに突っ込むか否か

去年辺りから色々思うところがあって、ここのところまとめていくつか社外発表したし、原稿も書いたしでそろそろアレかなぁと思っていて腑抜けみたいなみたいなノリで過ごしてたのだけど、先週、他業種の方々と色々と話をする機会があって、結局のところ自分は無理ゲーを言い訳にしてなすべきことをなしてないだけじゃないか！と自省したので、創薬にredmine的なものを持ち込むところまでは頑張るか頑張るまいかと悩み始めたのであった。

-> ハードモード(残機1)でもう一回
-> 次のステージへ
-> 違うワールドに進む

というあたりで悶々していた一週間だった。そんなわけでちょっと創薬系のエントリ連投というアクセス数を確実に減少させる悪手を繰り返していた。

自分の技術力がそれなりにあがったのと、ライブラリとか充実してきてて、チーム組まなくても独りでそこまでは到達しそうかなぁという感触がつかめたというのが1つ、いきなりredmine的なものを持ち込もうとしても上手くいくチャンスがゼロなので、仕事をやり慣れている今の職場で見ておいてもいいかなというのがもう一つ。それからAstraZenecaが似たようなことをやっていてDjangoで構築しているらしいので、PythonistaとしてFlaskでやり遂げなければならないという謎の使命感に燃えたという事情もあってredmineの導入と動き出すところくらいまではコミットしようかなと。

「一見した創薬知識の総量が多い少ないなんて気休めにもならねぇ」「活性の解釈なんてたゆたってて当たり前、それが創薬プロジェクト」「だが、、、それでも」「100％成功させる気でやる」「それがフルスタック創薬インフォマティストの気概ってもんさ」

イマココ

注）今月かまってくれた皆様には非常に感謝しております。

27062013 chemoinformatics

chemit diff == MMP

かなり前に創薬プロジェクト版Git(Chemit)というCLIなアプリを思いついたのだけど、化合物データベースへのSQLAlchemyラッパー用意したり、色々ツールを揃えたおかげで簡単に実装できるようになってたので、近いうちに作っとこうかなぁーと

で、chemit diffはMCSとか買いてたけど、これはMMPの間違いだった。

Redmineによるタスクマネジメント実践技法
小川明彦
翔泳社 / 3444円 ( 2010-10-13 )

アッセイ結果から生データへのトラッキングというかトレーサビリティには気をつかうのに、合成化合物から合成案(何を目的とした合成なのか)までのトレーサビリティには注意を払わないのは如何なものかと。

というわけで、今は「この化合物は一体何を意図して作られたんだ？！」というような疑問がフツフツと湧くようなシステムを作っている。

26062013 chemoinformatics

MMPを構造ベースで解釈する試みはコンテキストが入りまくって一般性は得られないよね

VAMMPIREという

PDBの複合体構造からリガンドを引っ張ってきて
ChEMBLからMMPをサーチして
ドッキングモデルを構築してWebGLで表示する

っていうDatabaseの論文をみつけたのだけど、コンテキストが入りまくりなのはどうなのかなぁ？タンパク質-リガンド相互作用を骨格の多様性で積分したら普通ゼロになるよね？実用性に疑問符がと思ったが、

ふと、あーFMOの題材としてはいいんじゃないのかなぁと閃いた。置換基変換のペアとKi差や活性差の値が出ているからFMOのエネルギー比較して色々遊べるかな。

vammpire

18062013 chemoinformatics

Open Source Software in Life Science Research

仮設駆動デザインを強く主導しているっぽいAZの論文読んでて、そういえばDjango製であるところのDesign Trackerの論文って見たことないなぁと思って探してたら、すでに購読しているBlogの著者が開発者だった。しかもOpenEyeにジョインしているのか。

というわけでこの本超読みたい。

Open Source Software in Life Science Research: Practical Solutions in the Pharmaceutical Industry and Beyond (Woodhead Publishing Series in Biomedicine)

Woodhead Publishing / ?円 ( 2012-12-28 )

The book is divided into four parts. Part one looks at laboratory data management and chemical informatics, covering software such as Bioclipse, OpenTox, ImageJ and KNIME. In part two, the focus turns to genomics and bioinformatics tools, with chapters examining GenomicsTools and EBI Atlas software, as well as the practicalities of setting up an ‘omics’ platform and managing large volumes of data. Chapters in part three examine information and knowledge management, covering a range of topics including software for web-based collaboration, open source search and visualisation technologies for scientific business applications, and specific software such as DesignTracker and Utopia Documents. Part four looks at semantic technologies such as Semantic MediaWiki, TripleMap and Chem2Bio2RDF, before part five examines clinical analytics, and validation and regulatory compliance of free/open source software. Finally, the book concludes by looking at future perspectives and the economics and free/open source software in industry. - See more at: http://www.woodheadpublishing.com/en/book.aspx?bookID=2830#sthash.n8wZvfrs.dpufOpen source software in life science research

特にDjangoを採用した経緯がちょっと知りたかったりする。日本の製薬企業の研究所の規模程度だったらFlaskで十分な気もする(maxでも3000userくらい捌けばいいんでしょ？)が。

でもやっぱDjangoはあつかえるようにしておいたほうがいいのかなぁー、悩む。

次々回のShizuoka.pyで誰か入門Djangoとかやってくれないかなぁ。

16062013 chemoinformatics Python

pychembldbでつくるChEMBLウェブサービス

Flaskとpychembldbを使えばChEMBLウェブサービスみたいなのは簡単に作れるよと、朝の30分くらいを使ってちょっとやってみた。

pychembldbはSQLAlchemyのラッパーなので、Flaskのほうではルーティングを設定して、ハンドラ関数用意すればいいだけ。特にFlaskはJSON化する関数が用意されているのでJSONで返すのはラク。

@app.route("/chemblws/compounds/<chembl_id>")
def compound_by_ChEMBLID(chembl_id):
    compound = chembldb.query(Molecule).filter_by(chembl_id=chembl_id).one()
    result = {...}
    return jsonify(result)

という感じでDictionaryを用意してxmlかjsonに変換して返せばいいので、とりあえずChEMBLIDを与えると対応する化合物情報を返すAPIを実装してExamplesに用意してみた。

自前でサービスを用意することのメリットは

外部に情報が流れない
レスポンスが速い
沢山投げても怒られない

ということの他に

自分たちの用途に合わせて拡張できる
データベースのスキーマをきちんと理解できる

という部分もあるかなと思います。例えばChEMBLウェブサービスにはジャーナルのdoiから構造リストを返すというAPIは存在しないけど、project毎にジャーナルをまとめていたりするときにはそういうAPIが用意されていると便利かもしれませんよね？

最初、ウェブサービスが返す情報は固定なのかなと思い、決め打ちで用意したのだけど、CHEMBL1とCHEMBL2で返ってくるjsonのキーが違うので、valueが存在するのものをすべて返しているのかな。

もう少しちゃんと出来たらきちんとテストを書こう。

CHEMBL1

{
    "compound": {
        "acdLogd": 7.67, 
        "acdLogp": 7.67, 
        "alogp": 3.63, 
        "chemblId": "CHEMBL1", 
        "knownDrug": "No", 
        "medChemFriendly": "Yes", 
        "molecularFormula": "C32H32O8", 
        "molecularWeight": 544.59, 
        "numRo5Violations": 1, 
        "passesRuleOfThree": "No", 
        "rotatableBonds": 2, 
        "smiles": "COc1ccc2[C@@H]3[C@H](COc2c1)C(C)(C)OC4=C3C(=O)C(=O)C5=C4OC(C)(C)[C@@H]6COc7cc(OC)ccc7[C@H]56", 
        "stdInChiKey": "GHBOEFUAGSHXPO-XZOTUCIWSA-N"
    }
}

CHEMBL2

{
    "compound": {
        "acdBasicPka": 6.52, 
        "acdLogd": 2.09, 
        "acdLogp": 2.14, 
        "alogp": 2.11, 
        "chemblId": "CHEMBL2", 
        "knownDrug": "Yes", 
        "medChemFriendly": "Yes", 
        "molecularFormula": "C19H21N5O4", 
        "molecularWeight": 383.4, 
        "numRo5Violations": 0, 
        "passesRuleOfThree": "No", 
        "preferredCompoundName": "PRAZOSIN", 
        "rotatableBonds": 4, 
        "smiles": "COc1cc2nc(nc(N)c2cc1OC)N3CCN(CC3)C(=O)c4occc4", 
        "species": "NEUTRAL", 
        "stdInChiKey": "IENZQIKPVFGBNW-UHFFFAOYSA-N", 
        "synonyms": "CP-12299,Minipress,Minizide,PRAZOSIN,Prazosin"
    }
}

12062013 chemoinformatics work

DMTAがいいのかそれともTADMがいいのか？

PDCAに対応するものとして創薬の文脈の中ではDMTA(Design-Make-Test-Analysis)が語られるわけだが、昨日ケミストの方にTADMでサイクルを回すのはどう思うか？と聞かれ、直感的に「それは逃げなんじゃないかなぁ、結局ランダムスクリーニングを肯定することになるじゃん」と否定的に答えてしまったのだけど、後から考えてみると根拠があまりないわなと、もう少し深く考えてみた。

DMTA(PDCA)は仮説駆動サイクルですね、これはまぁ自明。じゃぁ、CAPD(TADM)っていうのはなんなんだ？って考えてみるにこれはテスト駆動サイクルかなと思っていたのだけど、CAPDサイクルでググッてみるに、どちらかと言うと探索駆動サイクルの意味合いが強そうだ。昨日はすっかり忘れていたが、これはちょっと前に考えたことがあった

創薬系においては、そもそもテストにあたるもの（アッセイ系）を構築するのに非常にコストがかかる。同様にDoに対応するMakeにも人件費が大いにかかるため、ランダムな合成というのはリスキーだ。さらに探索という側面がある。そのため、仮説なしに合成する（これをケミストは情報取りのための合成としばしば呼ぶわけだが）、ランダムな合成をして有意義な情報が取れたことが経験上ほとんどない。

という事情もあって、昨日の質問に（半ば短絡的に）否定的な返答をしたのだと思う。

でも実際にはlead optimizationはまず間違いなくDMTAをまわすべきだけど、lead generation (finding)にはTADMサイクルをまわすべきなのだと思う。そのためには探索手法（なにを探索したいのかそのためにはどういう測定系が必要か？さらにはどういう化合物セットを揃える必要があるか？）に精通した人間（またはチーム）が必要なんだろうなぁと。残念なことに僕はそういう探索特化型のメディシナルケミストと一緒に仕事をしたことがないという背景が否定的な結論を導いたのかなと思っている。

そういうヒトと一緒に仕事を出来ればハッピーだろうなぁと思いますね。

というわけで色々考えていたら、DMTAサイクルをまわす能力よりもTADMをまわす能力のほうがずっとレアかなと。昨日の主張はちょっと短絡的だったなと反省した。

長距離索敵陣形

進撃の巨人(5) (講談社コミックス)
諫山創
講談社 / 450円 ( 2011-08-09 )

もう5年目(wishlistありマス♡)
最近はPythonとDeepLearning
日本酒自粛中
ドラムンベースからミニマルまで
ポケモンGOゆるめ