ADMET Prediction with PotentialNet

うちのSlackオルタネティブのAI創薬絡みのチャンネルではArxivの機械学習新着が流れてくるようになっていて、たまに大きな桃がどんぶらこどんぶらこと流れてきては、中身をぶった切ってチャンネル参加者の皆でキャッキャウフフしてるわけです。

で、今回流れてきたのがStep Change Improvement in ADMET Prediction with PotentialNet Deep FeaturizationというPande先生のとこで開発したPotentialNetっていう手法をメルクのデータで検証したら調子良かった(良すぎ!)っていう論文です。

なんかfuとかmicrosomeのクリアランスとかADMEの予測がすごい改善していて期待度高いです。PotentialNetってのはGCNN(Neural FP)のとこにLeRUじゃなくてGRUつかうことで特徴量抽出を工夫しているようです。具体的になにがよろしくなってどういう特徴量が抽出されているのかイメージつかめないんですが、何が良くなるんでしょうね?

それから実装はPyTorchらしいけどGithubには上がってないようなので自分で再実装する必要ありそうだし、最初にAtomにどういう情報持たせるのかに工夫の余地はありそう。

PotentialNetはいずれdeepchemに取り入れられるのでしょうか?

深層学習も積みっぱなしだから読まないと、、、

ProductName 深層学習 (アスキードワンゴ)

ドワンゴ / ?円 ( 2018-08-27 )


AI in Medicinal Chemistry終わりました

参加者の皆様お疲れ様でした。楽しんでいただけて且つ何か得るものがあったのなら企画の甲斐があったなと思います。

それにしてもauto-DMTAやばかったですね。我々も頑張らないといけないなーと思いました。

さて、Thierryさんとはどういう経由で呼んだの?とかなり聞かれたのですが、実は去年のICCSでポスター出してたのでネホリンハホリンしたら次の日のexcursionで話しかけてきたので、「来年AI in Medicinal Chemistry企画してるんだけど興味ある?」って聞いたら「めっちゃある、呼ばれたら絶対行くで!」って、まぁそんな感じで決まりました。ICCSは面白い割に日本からの参加者はほぼいないので機会があれば参加すると良いと思います(3年ごとに開催)。

尚、ランチははん亭にしました。

1553687389

演者は懇親会は質問攻めにあってあまり食べられないので、皆で帰りに「にし乃」に寄りました。

1553687384 1553687387

美味しかった。

ADと特徴量

ちょっと質問されたので、py4chemoinformaticsの説明追加してみたんだけど自分の中で問題が整理されて良かった。

結局acivity cliffとかmagic methylってのはApplicability domainの問題ではなくて、特徴量の抽出のほうの問題なんですよね。グラフ類似性が実際の三次元の構造の類似性とは微妙に違うし、結合モードの類似性とかとも異なるのに、その類似性が活性の類似性と相関するという仮説そのものが正しくない可能性があるということを認識した上でモデルを作らんといかんよなと再認識させられた。

尚、CoMFAはぶつかって活性消失したという事実がないとモデリングできないし、ファーマコフォアの排除体積も同様。ドッキングのスコア関数はそれっぽい特徴表現だけど、粗すぎてネガティブスクリーニングにしか使えんけど、ファーマコフォア表現ってのが特徴量としては一番しっくりくるかなと言ったところ。

ファーマコフォアについてのよもやま話

ファーマコフォアはもともとは、同じターゲットで複数の異なる骨格の薬剤とか開発化合物を3次元的に重ね合わせて共通の特徴を抽出するLBDD的な手法により推定されていてCatalystを使って計算するのが一般的だったように思います。

で、ファーマコフォアを作ろうとする話で触れられているように、ファーマコフォアをSBDDの側から解釈するとターゲット蛋白質でのポケット内で、強く相互作用している残基とリガンドの官能基の相互作用を見ていることになるわけです。

というわけで、ターゲットのアポ体の構造がわかっていたり、新規なスキャフォールドが欲しかったり(知財の関係で)する場合にターゲットのポケットの中で水素結合をする可能性のある残基や主査に水素結合ポイントを定義して三点ファーマコフォアでスクリーニングするというようなこともよくやっていましたが、これは結構ヒット率低かったです。

そもそも、ファーマコフォアポイントじゃないところにファーマコフォアを仮定する時点で外れ確定なのでそのあたりが難しい要因でした。

  • リガンド重ね合わせのアプローチの場合、似た構造を重ね合わせに使ってしまい、アーティファクトが出やすい(ベンゼン環起因のアロマティックなポイントとか)、そもそも異なるポケットに結合しているとか別の残基と相互作用している化合物が混じっているとかで共通項が取れない場合もある。
  • 結晶構造から推定する場合は、水素結合はいいとして、アロマティックなフィーチャーは設定しにくい。Catalystが不安定なコンフォマーもファーマコアマッピングするので、それヒットにしていいの?と疑問を呈したい場合も多々あった。

なので、もし複合体結晶構造がある場合は一度FMOをかけて、きちんと相互作用を確認してからファーマコフォアぽいイントを設定するなり、ドッキングシミュレーションをしたほうが成功確率が上がります。

こんな感じのFMO計算用のAMIがあるとクラスターもってなくてもサクッと計算できるから良いかもしれませんね。てか、今度作ろっと。

ASP–ARG塩橋とヘテロ環の相互作用に関する論文が多くの示唆を含んでいる件

PsikitでEnergy Decomposition Analysis(EDA)をやりたくてKitaura-Morokuma Analysisとか実装されてないかなーと調べてたんですが、SAPTってのを使えばよろしいらしいところまでは到達した。

でもって、そのあたり使ってる論文がJ.C.I.Mあたりに投稿されてないかなーとさらに調べた結果、Tuning Stacking Interactions between Asp–Arg Salt Bridges and Heterocyclic Drug Fragmentsという論文をみつけて読んだらやばかったという話。

Asp–Arg塩橋とヘテロ環のスタッキングってよくみられるし強い相互作用っぽいんだけど、よくわかってないよね?だから量子化学計算で調べるわっていう内容で、単環、二環、三環のヘテロ環(窒素シャッフリングが多い)の63モデルでローカルミニマム、グローバルミニマムを探索して、どういう位置関係になっているかとかEDAしてみてどういう成分が効いているのかを調べていた。

得られた結論としては塩橋だけどヘテロ環はカチオニックな残基(LYS,ARG)との相互作用のほうが安定に形成しそうだってことと、ElectroStaticな項が相互作用に支配的で、DispersionInteractionがまぁまぁ効いてそうってこと。それから双極子モーメントはほとんど寄与していないってことから無指向性の相互作用ってこと。

論文では塩橋をモデル化しているけど、内容をよく考えるてみるとこれはおそらくカチオニックな残基単体でも成り立つだろうし、そっちのほうが強いんだろうなぁというところまで理解できたので非常に良かった。うまくやればプロアクティブにヘテロ環導入して活性向上できるかなと思う。一方でなんでカチオニックな残基との相互作用が強いの?ってことに関してはおそらく窒素シャッフリングの環だからだろうなぁと思った。

じゃぁアニオニックな残基(ASP,GLU)と強く相互作用するようなヘテロ環、アリルは何よ?っていう疑問が湧くと思うんだけど、そっちに関しては既に理解しているのでそのあたりまとめてどこかで発表しようかなと思っている。ちょっとコントラバーシャルかなーと思わないこともないけど、量子化学系の人たちがもっとSBDDに参入するきっかけになってくれると嬉しいなーと。

Scanning the torsional potential in Psikit(RDKit+Psi4)

Considering the conformational effects of the compound is important in Structure Based Drug Design, this paper discussed about it, in terms Protein-Ligand binding using torsional scan of each ligands(PDB:2JH0,2JH5,2JH6). They calculated torsional energy, and explained the relation between inhibitory activity and torsional energy.

Torsional scanning is the task of the quantum chemistry rather than that of chemoinformatics. But I wanted to conduct quantum chemical calculation as an extention of chemoinformatics way, so I implemented it in Psikit

日本語訳

jupyterでRDKitからのB3LYP/6-31G*でのDFT計算さっくりうごくの素晴らしい。

Mishima.syk #13やりました

今回バイオインフォマティクス寄りの発表がいくつかあったので、非常に勉強になった。テンソル分解ちゃんと勉強しないとなと思いました。

ハンズオンのほうは、condaはあまり万能じゃないなと。油断してた。Windowsだとunzipのcondaバイナリないとか、SMILESを""で囲うとだめだとかよくわからないエラーに悩まされた。まぁでもWindowsでもREINVENTが動いたので良かったとしよう。

お昼は王味で小エビラーメン

1549758352

懇親会の刺し身

1549758350

二次会のリパブリューのラムチョップ

1549758354

そしてアルコール度数17.5%のビール

1549758357

次回もまた楽しくやりましょう

来週末はMishima.sykです

参加はこちらから。

今回の会の趣旨とか狙いみたいなものはこちらを御覧ください

私はSitagliptinのアナログを出すようなジェネレータを動かすハンズオンをやろうかなと考えています。デモのために訓練300回させたモデルでとりあえずjupyter notebook作ってみましたが、出来がイマイチなので週末にでも3000 iterationくらい回したモデルを作り直して更新する予定です。

Mishima.syk #13でGenerator mini hands-onをやります

あけましておめでとうございます、今年もよろしくおねがいします。

昨日まで日本酒飲みまくってグダグダしていたので、今日からそろそろ始動しようかなと思います。@iwatobipenがアクティブにGitHubにプッシュしまくっているみたいなので、Mishima.sykのタイムスケジュールも更新しましたが、あと40分くらい空いているのでLT入れたい人は早めに時間を確保してください。

今回はGenerator mini hands-onをやることにしました。理由は、第404回CBI学会講演会ではThierry KogejさんにMolecular de novo design through deep learningと似たような公演をしてもらう予定にしているからです。

スライド3でDe novo molecular generation with deep learning has developed very rapidlyってあるんだけど、今大体どのくらいの化合物生成してくるのかを知らないと、公演楽しめないと思うんですよね。この手の話って知らないで聞くと期待感あふれるストーリーなのか、現実味を帯びているのかいまいち掴めないという。

というわけで彼らの提案しているREINVENTを実際に動かして、化合物提案がどんなもんなのかを見てみようというハンズオンになります。予めChEMBLでトレーニング済みのモデルはこちらで用意しましたのでjupyterでちょっとコード打てば動くようにする予定です。

本当は参加者に、それぞれ上市された薬剤のもとの特許を渡して、生成モデルがどのくらい生成したら実施例をカバーすんのかな?っていうのをやってもらうハンズオンにしたかったんだけど、それはGPU必須っぽいので今回は断念しました。

参加はこちらから。

ハンズオンをやってから改めて読むと味わい深いエントリはこちらです。

Augmented Medicinal Chemistry

将棋を指される方はご存知だと思いますが、将棋ウォーズっていうアプリがあって、それには棋神というコンピューターが3手くらい指してくれるシステムが存在します。

ま、どういうことかと言うと、自分の能力を超えてブーストしてくれるわけですね(実際あれを使うと万能感に浸れますw)。

で、化学構造の生成モデルも似たような立ち位置として使えるんじゃないかなーと話していて、最近、実際にそういう事例の話を聞かされて、やっぱブーストするのか!と感激したわけです。

なにもないところからアイデアを出すのは人間には苦痛を伴う作業だけど、幾つかの選択肢が与えられた場合、妙手を選びやすいのは人間の特性なのかなーと思った次第。