A Combination of QSAR Molecular Docking (or X-Ray Structure ) and Molecular Dynamics

最近MDと従来のQSARテクニックを組み合わせた手法が提案されていますね。

アプローチとしては静的な状態である三次元構造に動的な情報を付与させるために10ns-20ns程度の短いMDをかけてからサンプリングして、従来の3D-QSARの記述子を計算してMEAN,MEDIAN,SDを取るという方法です。

5th Autumn School of Chemoinformatics in Nara, 2017ではThierry Langer先生がDynamic Pharmacophores: A New Way to Enhance Virtual Screening Screening Efficacy in Early Drug Discoveryということで、ファーマコフォアモデリングでアンサンブルをとっていた。

11th ICCSではShuzhe Wangの発表したMolecular Dynamics Fingerprints (MDFP): Combining MD and Machine Learning to Predict Physicochemical Propertiesというポスターは独自記述子を定義していて興味深かったし、Fourches, DenisのNext-Generation MD-QSAR Models of Dynamic Kinase-Inhibitor Interactions Based on Machine Learning and Molecular Dynamicsは3D-WHIMの拡張で大変すごかった。特にMDを使うことでactivity cliffの解釈ができていたという点に非常に感銘を覚えた。activity cliffは単純にリガンドからの類似性っていう人間主観のアプローチがもたらすミスマッチだからそれをきちんと説明できるのは本当にすごいと思います(立体障害じゃないやつを)。

このようなアプローチではMDを計算してサンプリングしたあとに、どういう計算で静的な状態を記述するかというのが重要なのだと思いますが、勘のいいあなたはもう既におわかりのように、既にFMOを組み合わせた手法が提案されています。この手法はかなりプロミッシングではないかなーと感じています。なぜかわからないヒトは「すごいよFMO!」を10回くらい読み直しましょう。

そもそも、QM/MMやらんでMDでサンプリングして力場よりずっと精度のいいFMO計算なんかして順番が逆なんじゃないの?とか思っていたが、実際やってみると精度出そうだし不思議だなーと思っていたのだけど、さっきシャワーを浴びていたらなんとなく理解して嬉しくなったのでちょっとエントリーをこしらえてみました。

それぞれの演題には既にペーパーでているのが多いので興味があったら追いかけるといいと思います。

Q: What is the meaning of B.C. and A.D. ?

ICCSではたくさんの刺激を受けた。特に今まであまり気にしなかったけど、あーなるほどと考えさせられたのが以下のやり取り。

今まで漠然と「ChEMBL便利!」ぐらいにしか思ってなかったけど、振り返ってみるとこういうデータがパブリックなものになったことはすごい大きなことだったと。実際にChEMBLなかった頃のサンプルデータとか本当に大変だったからね。

Mishima.sykだってハンズオンすると大抵ChEMBLのデータを使っていて、サンプルデータに関して悩まなくていいし、新しいアルゴリズムの実証もChEMBLを使えばいいから、どのデータを使うかに関して悩まなくて良くなったのはすごい大きい。

なんでもオープンにするべきかはまた違うと思うけど、論文にするようなデータは最初から再利用できる方向で著者も用意しておくのが本当はいいんだろうなぁと思う。パテントもそうならんかね、本当に。

Answer: Before ChEMBL(B.C.) After Data(A.D.)

Mishima.syk #12やります

おまたせしました。ちょっと間が空きましたが6月の終わりにやります。

DisGeNETとかopen phacts触ってみましたとかいう話をしてみたいところであるが。

Quantitative Structure-PK Relationship

個人的には、QSARがMDやMOのようなシミュレーションを併用しているように、QSPRのあたりもPBPKやPK-PDなどのシミュレーションを活用してもっとうまくやる日が来ないかなと願っている。

なんかそんなこと書いてたよなーと探したらいくつか見つけたが、その当時はRに傾倒していたのか…そして8年前か、前職で無駄にサボりすぎたな…

最近Novartisからそのあたりの論文出たので早速読んでみた。こういう論文テンション上がるわ。

スライドも見つけたのと、著者を調べたらsimulation plusからnovartisに移ったのかな?でもこのあたり精力的にやるんだろうなぁ。

論文の内容は一部はよくあるQSPRでCLintを予測してPBPKモデル(一部の人達から熱狂的支持をうけるGastroPlus、でもちょっと使いづらい)に渡してBioavailability(F)を予測するというもの。

論文中では実験値もQSPRから予測したCLintでも全然あってない、y=x+aみたいな横棒の線になってた。でもCL(local)っていう局所予測モデルになおすとすごく改善していたので、おーすごいすごいこれはと読んでたけど。これはgastroplusのFに合うようにCL(local)をoptimizeして、それをQSPRで学習したっぽい… ちょっとずるいけど仕方ないのかなぁ。以前も似たようなことあったし。

Figure.5のランドスケープは有用そう、今度試したい。

2部はPBPKでシミュレーションして、PLSで重要そうなパラメータを出してくるっていう話。スキャフォールド依存的なそういうパラーメータがシミュレーションで見つかると面白いよなぁと思うが、こういうことやるには簡易でスループットの高いPKアッセイ系がないと難しいかなと思った。

Dive into DeepChem

やっと時間が取れたので嬉々としてコードリーディングしてるけど、謎のディレクトリが結構あってexamplesに移したほうが良いんではと思うものもあった。これから洗練されていくのだとは思いますが、強化学習とかが一緒に入っていると使いづらいんじゃないかなぁ(自由度がなくなるっていう意味で)。

このあたりは、ウェブフレームワークのフルスタックがいいのか、薄いラッパーがいいのかっていう問題に似ている気がするけど、Flask使いの僕としてはdeepchemはとりあえず使いつつ、便利な機能を参考にしつつ薄いフレームワーク作って柔軟に対応できるようにしていくようになっていく気がする。

あとドッキングシミュレーション周りのコードに興味があるんだけど、MOEとか schrodingerに対応してほしいなと思うけど、これは自分でやるかもしれない。ただ、ドッキングシミュレーションの大雑把な情報をDLにかけて高次の抽象表現得られるとは全然思わない。むしろCNNのようなコンボリューションの効果のほうが、いわゆるMDのような動的な効果を考慮するようになっていいんじゃないかなぁと考えている。

ただし、自分のスタンスとして、ドッキングってのは反応の前後でproductとかreactantが変化しない化学反応 だと捉えているので、そのあたり表現できない荒い計算は未来が感じられない。正直、軌道の係数とかインプットにしてみたい。

pafnucyも読む。

DeepChemのソースコード黙々リーディング会っていう、ソースコード読みながら注釈入れつつGithubで共有して、そのあとリパブリューでビールをガブガブ飲む会を思いついたんだけど、興味ある人おるかな?

data

dataいじり用

dock

docking関連

feat

記述子関連

  • adjacency_fingerprints.py
  • atomic_coordinates.py
  • basic.py
  • binding_pocket_features.py
  • coulomb_matrices.py
  • fingerprints.py
  • graph_features.py
  • mol_graphs.py
  • nnscore_utils.py
  • one_hot.py
  • raw_featurizer.py
  • rdkit_grid_featurizer.py

hyper

parameter最適化用

metalearning

metrics

sklearn.metrics

models

molnet

nn

rl

強化学習

splits

データセット分割

trans

tree.txt

utils

最近買った本

深層学習、強化学習関係の本を買ってみた。

速習強化学習は八重洲ブックセンターでパラパラめくったら良さそうだったので購入。あとAIっていうラノベだかファンタジーの新ジャンルが出来ていて花開いているなと感じた。

それから、深層学習、強化学習をCで実装するっていう漢だなと思える本があった。

ProductName 速習 強化学習 ―基礎理論とアルゴリズム―
Csaba Szepesvari
共立出版 / 3240円 ( 2017-09-21 )


詳解ディープラーニングも読み物として良さそうだなと思ったんだけど、分厚かったので却下、家に帰ってポチるかとアマゾン開いたらKindleでも買えたのでそっちを購入、でもfire8だとちょっと文字が小さい。固定レイアウトはあんまりよくないよね。

SMILESで任意の原子を任意の位置に置きたい

例えば

CHEMBL361227

でフッ素原子が文字列の最後尾に来るようなSMILESを得たいとする。

RDKitにはRenumberAtomsというメソッドが用意されているので、原子のインデックスを変更してからSMILESに出力すればうまくいくんじゃないかと思いついたのでやってみた。

from rdkit import Chem

mol = Chem.MolFromSmiles("Fc1ccc(Nc2[nH]cnc3ncnc23)cc1")
l = list(range(mol.GetNumAtoms()))
max = l.pop()
l.insert(0, max)

new_mol = Chem.RenumberAtoms(mol, l)
print Chem.MolToSmiles(new_mol, canonical=False)

出力結果

c1c(F)ccc(Nc2[nH]cnc3ncnc2-3)c1

うまくいかない

今回の場合はアルゴリズムの空気感を読んでリバースすれば上手くいった。

from rdkit import Chem

mol = Chem.MolFromSmiles("Fc1ccc(Nc2[nH]cnc3ncnc23)cc1")
l = list(range(mol.GetNumAtoms()))
#max = l.pop()
#l.insert(0, max)
l.reverse()

new_mol = Chem.RenumberAtoms(mol, l)
print Chem.MolToSmiles(new_mol, canonical=False)

結果

c1cc(Nc2c3ncnc-3nc[nH]2)ccc1F

やっぱりランダムにSMILESを生成してみて、お目当てのSMILESが出るまでトライする方法しかないんだろうかね

ChEMBLからフラグメントスクリーニングのアッセイ系を検索したいのですが

ChEMBLからフラグメントスクリーニングのアッセイ系を検索したいのですがやり方がわかりません。誰か知っていたら教えてもらえると助かります。

とりあえず、キナーゼのアッセイ系で、分子量250未満の化合物が20化合物以上登録されている系を抜き出してみました

AIについて知りたいなら美味しんぼを読め

あけましておめでとうございます。

今年もこの風潮は続くのでしょうか?

『なんでもいいからビッグデータを集めて、AIでなんとかしろ』

そんなときには美味しんぼの24巻カレーライス対決を読むといいと思います。

ProductName 美味しんぼ(24) (ビッグコミックス)
花咲アキラ
小学館 / ?円 ( 2013-01-01 )


あらすじ

川遊びに来ていた山岡たちだが、いざ創薬のAIを作る段になって大騒ぎ。みな、それぞれに自分のレシピを持っていて、お互い絶対に譲ろうとしないのだ。翌日、AIで仲たがいしたら、AIで仲直りするのが一番、とばかりにAIコンソの「マイダス王」を訪れると、入口に休業の張紙が。中では店主の栃川が落ち込んでいる。実は1週間前に海原雄山が突然現れ、「AIとは何か?、AI粉とは何か?、そしてAIはビッグデータと食べるのが正しいのか?」と3つの質問を投げ掛けたというのだ。自分の仕事に関わる根源的なこの質問に、ひとつとして答えられなかった栃川は、それ以来すっかり自信を失ってしまったのだ。そして後日、「次の究極VS至高のテーマは、AIではどうだ」と雄山から提案がなされた。山岡はそれを受け入れ、日本の様々なAI屋を訪ね、AIの研究家なども取材する。だが、雄山が提示した3つの質問の答えは見つからなかった。そこで山岡は、AIの謎を探るため、シリコンバレーへの取材旅行を決意する。

僕はデータサイエンティストなので、カレー粉など使わずに都度ミルでスパイスを調合しています。

今年はなにか新たな調合法を見出したいですね。

今年を振り返ります

今年を振り返るために、過去のエントリを眺めてみたが、ポケモンGOと食べ物関連のエントリしかなかった。この1年は家であんまりコード書けなかった感じ。職場では結構書いたけど来年はもう少し公開できるようなコードを書ければいいなと思っています。食べることに関しては引き続き美味しいものを開拓していきたい。

ポケモンGOに関しては今1000万XP弱で再開した時点で250万XPくらいだったので、どんだけやったんだ?って感じ。LV40まであと1000万XPなので週末の運動がてら継続したい。

仕事関連

今年は色々と新しい取り組みが出来て良かったと思っている。チームの皆さんに助けられて、大きな前進が幾つかあったし、自分たちのチームのプレゼンスも高められたと思っている。

色々とタイミングが良かったのだろうと思っている。そして企業のなかのチームっていうのはある意味スタートアップみたいなもんだけど、スタートアップと違うのはタイミングよりもチームのほうが重要なんじゃないかなと。良いチームだからうまくタイミングを見極められるのではないのかなーと。実際、全てそうだったしね。下のTEDはためになると思うので一度は聞いておくことをオススメします(7分弱だし)。

それから「誰をバスに乗せるか」はやっぱり重要なんだなーと感じたけど、そういうバスを用意するかというあたりも今後考えなきゃならないんだろうなぁとは感じている。

ProductName ビジョナリー・カンパニー2 飛躍の法則
ジム コリンズ
日経BP社 / ?円 ( 2014-08-29 )


他にはこのあたりを実践して、OSQAと社内twitterを導入してみたところ、色々とつながりも増えたし、よいアイデアやソリューションもシェアリング出来てよかったかなと思った。それからイントラGithubクローン便利すぎ。この1年でシステム周りが改善されて快適にコード書いたり、計算できるようになったかなと。

仕事以外のしごとっぽいこと。

mishima.sykのサイトを作った。これもコミュニティが良いから継続できてていいですね。来年も皆さんで集まれたら良いなと思います。

Bioinformatics関連

Dr. Bonoの生命科学データ解析-読書会に参加してバイオインフォ愛が戻ってきたのと、今後に関してちょっと思うところがあって、余裕があればターゲットファインディング周りも少し手を付けていきたいなぁと思った。open target platformなどのAPIついてるサービスを上手く活用できないとなーと思っている。

ただ、周りの状況を聞いていると、今の状況って僕がバイオインフォをやっていたポストゲノムって言われてた15年くらい前にやっていることと基本変わってないので(だから余裕でついていけるw)機械学習というよりはアブダクション的な手法が求められるのかなーという気はちょっとしている。最近の状況丁寧にサーベイしているわけではないから間違っているかもしれないけど、ターゲットファインディングが相変わらず難しいという状況には変わらないのかなと。

ProductName アブダクション―仮説と発見の論理
米盛 裕二
勁草書房 / 3024円 ( 2007-09-20 )


それではまた来年もよろしくお願いします。