今日読んだ論文

今日は飛行機の中でいくつか論文読んだのでメモを残しておこうと思ったんだけど、全部座席の網棚に置いてきてしまったらしい。邪魔だったから読み終わったのをパンフの網棚に突っ込んで最後に取り出すのを忘れたw 個人的には最後のJ.C.T.C.のやつが面白かったです、FMOにも触れられているのでSBDDerは目を通すべき。

Drug Repurposing Using Deep Embeddings of Gene Expression Profiles

ざっと目を通したんだけど embedding spaceってのが実態としてどんなもんなのかピンとこなかった。実装見て手を動かさないとわかんないのかなぁ。次元圧縮してどうすんだろ?

もう少し先行論文たどってみようかと思う。

Exploring Activity Profiles of PAINS and Their Structural Context in Target–Ligand Complexes

キャッチーな絵を見てPAINSをSBDD的に解釈するのかなーと思い読んでみたんだけど、なんかよくわからない話だった。最近あまりライブラリとかHTSに興味が無いのも相まって読み飛ばしてしまった。構造出したらちゃんと解釈してもらわないとね。

A Simple Representation Of Three-Dimensional Molecular Structure

E3FPの論文も ACSのほうを再度読み返してみた。部分構造に3次元情報を取り入れて細分類してECFPからどれくらいの精度が上がるかっていうのは興味ありますよね。このあたりはPLECにも拡張する余地ありそうだけど、それでどこまで上積みが見込めるかというところでしょうかね。

Theoretical Study of Protein–Ligand Interactions Using the Molecules-in-Molecules Fragmentation-Based Method

創薬わかってる感じやなーと思いつつ読んでいて読み終わってから共著にLilyの人が入ってるの気づいた。元論文紛失しちゃったから引用できないんだけど、FMOはFragmentationのやり方のせいで高精度の基底関数とかDiffuse関数を使いにくい(使っても精度が出にくい)、だから6-31G+分極関数くらいの基底関数の論文が多いみたいなことが書いてあったのと、精度出すには結論パートでダイナミクスを考慮しないといけないみたいなことが書いてあって、 ダイナミクス考慮するなら基底関数の精度そんなに要らないんじゃ? とちょっと思った。あと相互作用エネルギーにsolvation energy考慮していてあれってどの程度効いてくるのかなーとふと思いました。

って書いてたらあと1報読んだの思い出した。

Anion-π Interactions in Computer-Aided Drug Design: Modeling the Inhibition of Malate Synthase by Phenyl-Diketo Acids

これはRivaroxabanとかと同じような相互作用ですかね?FMOかけると楽しい案件だと思った。ただPDKAってAcidだから負電荷持ってるしMgイオンとも相互作用してるっぽいので計算する時にちょっと手間ですね、、、

ロマン結合のこと

(2017年の終わりの下書きだった。下書きを眺めているとなんか思うことがあったらしいが、よくおぼえてないのでタイトル以外は削除した)

FMO計算をしていると、見かけ上結合しているような位置関係にある原子ペアーにたまに出会います。そういうロマンを追い求めて再現しようとするのは良いんだけど、プロジェクトは確実に前進しないから害悪っすよね。

ってことは言っておきたい。

あと今年も創薬アドベントカレンダーやるみたい

船堀(フナヴォリー)に行ってきました

船堀の学会に行ってきました。今回みんなで仲良くポスター出してきたうえに全員オーラルでしかも初日だったので、発表終了後にお疲れ会をしてきました。

昼はゴヴィンダスでカレーを食べました。船堀に行ったら一度は寄らないといけない店かと思います。

1540100366

お疲れ会会場。いきなり金の玉子がお通しで出て、これはポスター賞の予感ではという話をしていたら、一人ポスター賞を取りました、おめでとうございます。でも、(話すの)飽きたから出したくないという生成モデル(コンピュータに合成案提案させるやつ)の話を出したら、ベストポスター取れたのではないかと思いました。尚、生成モデルの話はうちでは既に当たり前過ぎてみんな応用の話(メドケムとかSBDDとか)をしたがるので、どこかで誰かが基本的なことを話したほうがいいような気がしています。まぁ、生成モデルは今後の分子設計には必須だと思うので、それを使って何を為すかっていうのに夢中になる気持ちはわからんでもないです。SaaSとかIaaSみたいにメドケムが抽象化されてプログラマブルに扱えるわけですからねw

というわけで、mishima.sykで電影少女のパロディで合成少女的な内容でやるのもありかなと思っています。まぁハンズオンもいいすけどね。

金の卵と、山盛りトロぶつ

1540100368 1540100371

二日目の昼は大島に味噌ラーメンではなく塩ラーメンを食べに行きました。さらにこれがきっかけで来月の札幌出張に際して美味しい店リストを仕入れたので満足です。

1540100373 1540100375

三日目は「たくみ(感じ忘れた)」でつけ麺

1540100378 1540100380

Psi4 install error

I got a this error. Conda always irritates me ;-)

>>> import psi4
Traceback (most recent call last):
  File "/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/__init__.py", line 55, in <module>
    from . import core
ImportError: dlopen(/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so, 2): Library not loaded: @rpath/libiomp5.dylib
  Referenced from: /Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so
  Reason: image not found

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/__init__.py", line 60, in <module>
    raise ImportError("{0}".format(err))
ImportError: dlopen(/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so, 2): Library not loaded: @rpath/libiomp5.dylib
  Referenced from: /Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so
  Reason: image not found

@rpathという変数がMacでは何らかの理由により正しく設定されないらしい

朝からイラツキすぎてまともに解決する気力もないので、当面放置するかも。これから買い物いかないといけないし。 それにしてもCondaよくわからんエラー多すぎるわ。RDKitもそうだったしさー。あんまよくないんじゃないの?職場では使ってないしー

forum見たけど報告されてないっぽいし、あとで気力が戻ったら投げておきます(未定)。

追記 0800くらい

エントリ書いて朝ごはん食べたら冷製になったのでなおした。

$ install_name_tool -change @rpath/libiomp5.dylib /Users/kzfm/anaconda3/pkgs/intel-openmp-2018.0.0-h8158457_8/lib/libiomp5.dylib /Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so

Better featurizations are required

I believe better featurizations are required, but there is a limit to physiological activity prediction only from ligand information 'cause it's a molecular recognition.

MoleculeNet: A Benchmark for Molecular Machine Learning

Results for biophysical and physiological datasets are currently weaker than for other datasets, suggesting that better featurizations or more data may be required for data-driven physiology to become broadly useful.

What features are multitask modering shared in physiological activity prediction ?

Multitask modeling relies on the fact that some features have explanatory power that is shared among multiple tasks.

I'm guessing it's a liposoluble feature such as logP expressed in Hansch-Fujita equation.

Mishima.syk #12をやりました

最近沼津でばかりやっているMishima.sykをやりました。初めての人も多くなかなか楽しい会になってよかったです。

特に、初めての発表の方々のクオリティが高かったのと、LTが名人芸に達してきている人たちがいて最高でしたね。 あと、今回休憩という名のバッファーを15分しか撮っていないにもかかわらず、凄腕タイムキーパーのおかげでほぼ時間通りに演題が進行して最高でした。

私のプレゼンは訳あって公開できませんが、みんながんばれ(適度に!)というエールとエスプリとエスプレッソを2で割って3余らした感じになりましたが、ちょっと真面目に考えないといけない状況なのかなーとは思っています。ルールを逸脱した手を打てる状況はあまりないからそういう意味では低分子化合物戦略は機械学習と共存する部分が増えていくのかもしれませんが、当分はウェットの知識のあるドライなケミストが強い時代がちょっと来ると思います。

私自身は工学部出身で、「シミュレーションできない学問は未熟な学問である」という立場を貫いてきて、化学反応とかドッキングシミュレーションを偉大なる波動方程式でシミュレートする未来が正しい世界の在り方に違いないとずっと信じてたんだけど、実際はその方向に行かなくて、(不完全な存在である)メディシナルケミストの合成案をシミュレーションするほうが(工学的に)うまくいくってのがあれなんですよね。

なんか歪んでいる感はあるから揺り戻しはくるような気がするけど、当面不確定な未来を予測する手段として機械学習が人間に置き換わる可能性はそこそこあるのかなと思っています。そういう状況で人のやることは、将棋で例えると、新たな駒(桂馬に新たな機能を付加した桂馬金とか)の開発(ルールの更新)みたいなことなのかな。ま、それはモダリティってことなんでしょうけどね。

昼は電車遅延のせいで、幅田屋でカレー南蛮そばをいただきました。カレー感はあまりないけどうまい。

1529926539

@tkochi0603チョイスの美味しいお店

刺身盛り合わせとマグロの味噌焼き

1529926542 1529926544

そして鳥

1529926546

二次会はうさぎの木

生ハム盛り合わせと、肉

1529926549 1529926551

ワインが美味しかった。

A Combination of QSAR Molecular Docking (or X-Ray Structure ) and Molecular Dynamics

最近MDと従来のQSARテクニックを組み合わせた手法が提案されていますね。

アプローチとしては静的な状態である三次元構造に動的な情報を付与させるために10ns-20ns程度の短いMDをかけてからサンプリングして、従来の3D-QSARの記述子を計算してMEAN,MEDIAN,SDを取るという方法です。

5th Autumn School of Chemoinformatics in Nara, 2017ではThierry Langer先生がDynamic Pharmacophores: A New Way to Enhance Virtual Screening Screening Efficacy in Early Drug Discoveryということで、ファーマコフォアモデリングでアンサンブルをとっていた。

11th ICCSではShuzhe Wangの発表したMolecular Dynamics Fingerprints (MDFP): Combining MD and Machine Learning to Predict Physicochemical Propertiesというポスターは独自記述子を定義していて興味深かったし、Fourches, DenisのNext-Generation MD-QSAR Models of Dynamic Kinase-Inhibitor Interactions Based on Machine Learning and Molecular Dynamicsは3D-WHIMの拡張で大変すごかった。特にMDを使うことでactivity cliffの解釈ができていたという点に非常に感銘を覚えた。activity cliffは単純にリガンドからの類似性っていう人間主観のアプローチがもたらすミスマッチだからそれをきちんと説明できるのは本当にすごいと思います(立体障害じゃないやつを)。

このようなアプローチではMDを計算してサンプリングしたあとに、どういう計算で静的な状態を記述するかというのが重要なのだと思いますが、勘のいいあなたはもう既におわかりのように、既にFMOを組み合わせた手法が提案されています。この手法はかなりプロミッシングではないかなーと感じています。なぜかわからないヒトは「すごいよFMO!」を10回くらい読み直しましょう。

そもそも、QM/MMやらんでMDでサンプリングして力場よりずっと精度のいいFMO計算なんかして順番が逆なんじゃないの?とか思っていたが、実際やってみると精度出そうだし不思議だなーと思っていたのだけど、さっきシャワーを浴びていたらなんとなく理解して嬉しくなったのでちょっとエントリーをこしらえてみました。

それぞれの演題には既にペーパーでているのが多いので興味があったら追いかけるといいと思います。

Q: What is the meaning of B.C. and A.D. ?

ICCSではたくさんの刺激を受けた。特に今まであまり気にしなかったけど、あーなるほどと考えさせられたのが以下のやり取り。

今まで漠然と「ChEMBL便利!」ぐらいにしか思ってなかったけど、振り返ってみるとこういうデータがパブリックなものになったことはすごい大きなことだったと。実際にChEMBLなかった頃のサンプルデータとか本当に大変だったからね。

Mishima.sykだってハンズオンすると大抵ChEMBLのデータを使っていて、サンプルデータに関して悩まなくていいし、新しいアルゴリズムの実証もChEMBLを使えばいいから、どのデータを使うかに関して悩まなくて良くなったのはすごい大きい。

なんでもオープンにするべきかはまた違うと思うけど、論文にするようなデータは最初から再利用できる方向で著者も用意しておくのが本当はいいんだろうなぁと思う。パテントもそうならんかね、本当に。

Answer: Before ChEMBL(B.C.) After Data(A.D.)

Mishima.syk #12やります

おまたせしました。ちょっと間が空きましたが6月の終わりにやります。

DisGeNETとかopen phacts触ってみましたとかいう話をしてみたいところであるが。

Quantitative Structure-PK Relationship

個人的には、QSARがMDやMOのようなシミュレーションを併用しているように、QSPRのあたりもPBPKやPK-PDなどのシミュレーションを活用してもっとうまくやる日が来ないかなと願っている。

なんかそんなこと書いてたよなーと探したらいくつか見つけたが、その当時はRに傾倒していたのか…そして8年前か、前職で無駄にサボりすぎたな…

最近Novartisからそのあたりの論文出たので早速読んでみた。こういう論文テンション上がるわ。

スライドも見つけたのと、著者を調べたらsimulation plusからnovartisに移ったのかな?でもこのあたり精力的にやるんだろうなぁ。

論文の内容は一部はよくあるQSPRでCLintを予測してPBPKモデル(一部の人達から熱狂的支持をうけるGastroPlus、でもちょっと使いづらい)に渡してBioavailability(F)を予測するというもの。

論文中では実験値もQSPRから予測したCLintでも全然あってない、y=x+aみたいな横棒の線になってた。でもCL(local)っていう局所予測モデルになおすとすごく改善していたので、おーすごいすごいこれはと読んでたけど。これはgastroplusのFに合うようにCL(local)をoptimizeして、それをQSPRで学習したっぽい… ちょっとずるいけど仕方ないのかなぁ。以前も似たようなことあったし。

Figure.5のランドスケープは有用そう、今度試したい。

2部はPBPKでシミュレーションして、PLSで重要そうなパラメータを出してくるっていう話。スキャフォールド依存的なそういうパラーメータがシミュレーションで見つかると面白いよなぁと思うが、こういうことやるには簡易でスループットの高いPKアッセイ系がないと難しいかなと思った。