Drkcore

一通りの大きな発表とかが終わって、今週はゆっくり出来たので積んであった論文などを捌いていたら面白いものを見つけました。

Ligand Desolvation Steers On-Rate and Impacts Drug Residence Time of Heat Shock Protein 90 (Hsp90) Inhibitors

konがどういう因子に支配されているかを調べているのですが、konを変化させるようなdrug designは望まれているけど難しいのでこういうメカニズム解明系の論文は夢があるし、読んでてワクワクしますね。素晴らしい。

ただ、結合過程を化学反応のアナロジーに例えるのはしっくりこなかった。TSって鞍点でしょ？デソルベーション過程って鞍点とみなしていいのかな？イメージできない。それから、apolarな部分のdeslolvationが律速過程みたいな図もちょっと納得できなかった。polarなほうが剥がしにくいし、論文中でもそうなってたしなぁ。

なんかもっと正しいアナロジーまたは解釈の余地は残っている気がする。

それからK4DDって面白そうな活動していますねっていうのと、論文のリンクを探すためにタイトルでググったら被引用論文のリンクがくっついていてグーグル凄いなと思いました。

Are protein-ligand complexes robust structures?

06112018 chemoinformatics

良い科学は差を生む

金出先生の講演面白かった。そしていろいろと考えさせられました。

ちゃんとした情報論の学会だとやはり理論的に説明することが求められるので発表を聞いていて楽しいし、勉強になりますね。インフォマティクスの頭にバイオとかケモとかマテリアルとかエトセトラエトセトラとかつくとなんか枠組みだけ借りてきてなんでそうなるのかちゃんと考えなかったり、期待感だけでうまくいくとか言っちゃうのがちらほら出てくるのはなんでなのかなー？と思います。

最近、ケモインフォマティクス系の発表でちょいちょい見かけるのが、構造式を紙に出力してCNNをつかって予測すると精度があがるとかいうやつとかね。chemceptionとかで

We demonstrate this by training deep convolutional neural networks to predict chemical properties that spans a broad range of categories including physical (solvation free energies), biochemical (in vitro HIV activity) and physiological (in vivo toxicity) measurements, without the input of advanced chemistry knowledge, but instead allowing the network to develop its own representations and features from the images it is trained on.

と書いてあるんだけど、これ単純にOCRできているだけじゃないの？としか思えないんですよね。文字認識してからテキストマイニングに描けるように、構造認識してから適当な予測モデルにかけているから精度ももともとの構造式をグラフ表現にしたものと同じくらいの精度しか出ないんだろうなーと。結局無駄な一手間加えただけなんじゃ？としか思えないんだけど、これに夢を感じるのなんでだろうねと思ってしまう。

もしかしたら、紙からもっとプリミティブというか量子化学的な特徴量を学習するのかもしれないけどそれって夢見過ぎなんじゃないのかなーと思う。結局構造式のグラフ表現だといろいろ化学的な事象を表現できないから色々別な表現方法提唱されているのにそういうのまるっと無視してAIとDLならうまくいくみたいな論調のひとはちょっとどうなのかなというか理論の部分知らなかったり（知る気もなかったり）するのがちょっとなー。

そんなことを考えながら飲んでいてメモ代わりにツイートしといたのが以下です。

DL的なアプローチで学問の階層性を上に辿れるのかって言うのはちょっと疑問。例えば二重結合の構造式をたくさん読んだところでそれがシグマとπの2つを意味していてそれぞれ意味合いとして違うということを理解できるのか疑問。
— kzfm (@fmkz___) 2018年11月5日

ケミストリー出身でバイオインフォやっている知り合いと盛り上がったディスはやっぱり「あいつら、アトムが玉としか認識できなくて、電子雲しらんから軌道の話すると思考停止するよね」みたいなのが10年前にあった。
— kzfm (@fmkz___) 2018年11月5日

何がいいたいかって言うとドメイン知識が不要っていうのは嘘よねってことかな。AIはよろしくやるからっていうのは表層漂うボウフラみたいなもんで、、、、ちゃんとリスペクトしないとカトンボのように扱われても同情せーへんでっていう
— kzfm (@fmkz___) 2018年11月5日

ちゃんとサイエンスをリスペクトしつつ、現実の世界で役に立つ研究をしたいなーと思いました。

06112018 chemoinformatics

転移学習と半教師付き学習の類似性

半教師付き学習はトレーニング、テストが同じ分布のもので、転移学習はトレーニング、テストが異なる分布からくる（半）教師付き学習とみなせる

という話を聞いて、スッキリした。自分の中で理解が進んだ。転移学習の例として、室内で撮った写真をつかって室外の写真を予測するみたいなものを挙げていた。

キナーゼAの阻害データをトレーニングセットとしてキナーゼBの阻害を予測するのに転移学習を適用するってのはやっぱ分布が異なりすぎるんじゃなかろうか？または非選択的な阻害剤みたいなものしか予測できないとか。

04112018 chemoinformatics

今日眺めた論文

学会に行っていい講演を聞けるとサイエンス脳になるし、ホテルに帰ってきてもやることなくて暇なんで論文でも読むかとかいう気分になるし、ついでにビール飲むとなんかエントリでも上げるかーってなるし、たまに学会に行くのはいいですね。

ちょっと読もうかなーと思って持ってきていた論文だけど、アブストとマテメソ、結論あたりを流し読みしただけです。

両方共同じ著者によるModelabilityに関するペーパーです。Interpreterbilityも重要ですけどModelabilityも同じくらい重要ですよね。というわけでこういうあたりはキャッチアップは欠かせないわけなんですが。

ただ、Modelabilityってどうなんかねーっていう疑問は残るんですよね。大体プロジェクトであるあるな典型的なシチュエーションって、より高活性（効き目の強い）を目指すことが多いと思うんです。

例えばプロジェクトの最高活性化合物がpIC50(数値が高いほうが強い)が7でpIC50が4-7のレンジでModelabilityの高いモデルが出来ました。となってもプロジェクトで目指すpIC50は8とか9だったりするんで、それoutlier予測じゃないか、そのモデルでいけんの？ってなると思うんですよね。まぁ予測モデルで4-7の範囲に入るのは信頼度高いから作る価値なしっていうネガティブスクリーニングに使うっていう方法あるかもしれないけど、それだとモデラーとして不本意じゃないかねというジレンマつらいのでは？

そうなると、ケミカルスペースをどう効率的に探索していくかというような、実験計画的なアプローチとか能動学習とかやりたがるようになると思うんだけどねー。レトロスペクティブにみてやるとプロジェクトの合成化合物は木構造を取るのでMCTSなんか使えるんじゃないかなーって期待するかもしれないんだけど、評価関数作れないし、可能な木構造爆発しちゃうし、なんか難しいよねーというため息しかでなかったりする。

尚、今飲んでいる札幌クラシックは「ホッホクルツ製法」で作られているからうまいらしいです。

03112018 chemoinformatics FMO

今日読んだ論文

今日は飛行機の中でいくつか論文読んだのでメモを残しておこうと思ったんだけど、全部座席の網棚に置いてきてしまったらしい。邪魔だったから読み終わったのをパンフの網棚に突っ込んで最後に取り出すのを忘れたｗ個人的には最後のJ.C.T.C.のやつが面白かったです、FMOにも触れられているのでSBDDerは目を通すべき。

Drug Repurposing Using Deep Embeddings of Gene Expression Profiles

ざっと目を通したんだけど embedding spaceってのが実態としてどんなもんなのかピンとこなかった。実装見て手を動かさないとわかんないのかなぁ。次元圧縮してどうすんだろ？

もう少し先行論文たどってみようかと思う。

Exploring Activity Profiles of PAINS and Their Structural Context in Target–Ligand Complexes

キャッチーな絵を見てPAINSをSBDD的に解釈するのかなーと思い読んでみたんだけど、なんかよくわからない話だった。最近あまりライブラリとかHTSに興味が無いのも相まって読み飛ばしてしまった。構造出したらちゃんと解釈してもらわないとね。

A Simple Representation Of Three-Dimensional Molecular Structure

E3FPの論文も ACSのほうを再度読み返してみた。部分構造に3次元情報を取り入れて細分類してECFPからどれくらいの精度が上がるかっていうのは興味ありますよね。このあたりはPLECにも拡張する余地ありそうだけど、それでどこまで上積みが見込めるかというところでしょうかね。

Theoretical Study of Protein–Ligand Interactions Using the Molecules-in-Molecules Fragmentation-Based Method

創薬わかってる感じやなーと思いつつ読んでいて読み終わってから共著にLilyの人が入ってるの気づいた。元論文紛失しちゃったから引用できないんだけど、FMOはFragmentationのやり方のせいで高精度の基底関数とかDiffuse関数を使いにくい（使っても精度が出にくい）、だから6-31G+分極関数くらいの基底関数の論文が多いみたいなことが書いてあったのと、精度出すには結論パートでダイナミクスを考慮しないといけないみたいなことが書いてあって、 ダイナミクス考慮するなら基底関数の精度そんなに要らないんじゃ？ とちょっと思った。あと相互作用エネルギーにsolvation energy考慮していてあれってどの程度効いてくるのかなーとふと思いました。

って書いてたらあと1報読んだの思い出した。

Anion-π Interactions in Computer-Aided Drug Design: Modeling the Inhibition of Malate Synthase by Phenyl-Diketo Acids

これはRivaroxabanとかと同じような相互作用ですかね？FMOかけると楽しい案件だと思った。ただPDKAってAcidだから負電荷持ってるしMgイオンとも相互作用してるっぽいので計算する時にちょっと手間ですね、、、

01112018 chemoinformatics

ロマン結合のこと

(2017年の終わりの下書きだった。下書きを眺めているとなんか思うことがあったらしいが、よくおぼえてないのでタイトル以外は削除した)

FMO計算をしていると、見かけ上結合しているような位置関係にある原子ペアーにたまに出会います。そういうロマンを追い求めて再現しようとするのは良いんだけど、プロジェクトは確実に前進しないから害悪っすよね。

ってことは言っておきたい。

あと今年も創薬アドベントカレンダーやるみたい

創薬アドベントカレンダー

21102018 chemoinformatics

船堀（フナヴォリー）に行ってきました

船堀の学会に行ってきました。今回みんなで仲良くポスター出してきたうえに全員オーラルでしかも初日だったので、発表終了後にお疲れ会をしてきました。

昼はゴヴィンダスでカレーを食べました。船堀に行ったら一度は寄らないといけない店かと思います。

1540100366

お疲れ会会場。いきなり金の玉子がお通しで出て、これはポスター賞の予感ではという話をしていたら、一人ポスター賞を取りました、おめでとうございます。でも、（話すの）飽きたから出したくないという生成モデル（コンピュータに合成案提案させるやつ）の話を出したら、ベストポスター取れたのではないかと思いました。尚、生成モデルの話はうちでは既に当たり前過ぎてみんな応用の話（メドケムとかSBDDとか）をしたがるので、どこかで誰かが基本的なことを話したほうがいいような気がしています。まぁ、生成モデルは今後の分子設計には必須だと思うので、それを使って何を為すかっていうのに夢中になる気持ちはわからんでもないです。SaaSとかIaaSみたいにメドケムが抽象化されてプログラマブルに扱えるわけですからねｗ

というわけで、mishima.sykで電影少女のパロディで合成少女的な内容でやるのもありかなと思っています。まぁハンズオンもいいすけどね。

電影少女全15巻完結(ジャンプコミックス) [マーケットプレイスコミックセット]
桂正和
集英社 / ?円 ( )

金の卵と、山盛りトロぶつ

1540100368 1540100371

二日目の昼は大島に味噌ラーメンではなく塩ラーメンを食べに行きました。さらにこれがきっかけで来月の札幌出張に際して美味しい店リストを仕入れたので満足です。

1540100373 1540100375

三日目は「たくみ（感じ忘れた）」でつけ麺

1540100378 1540100380

08092018 chemoinformatics q-chem psi4

Psi4 install error

I got a this error. Conda always irritates me ;-)

>>> import psi4
Traceback (most recent call last):
  File "/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/__init__.py", line 55, in <module>
    from . import core
ImportError: dlopen(/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so, 2): Library not loaded: @rpath/libiomp5.dylib
  Referenced from: /Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so
  Reason: image not found

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/__init__.py", line 60, in <module>
    raise ImportError("{0}".format(err))
ImportError: dlopen(/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so, 2): Library not loaded: @rpath/libiomp5.dylib
  Referenced from: /Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so
  Reason: image not found

@rpathという変数がMacでは何らかの理由により正しく設定されないらしい

朝からイラツキすぎてまともに解決する気力もないので、当面放置するかも。これから買い物いかないといけないし。それにしてもCondaよくわからんエラー多すぎるわ。RDKitもそうだったしさー。あんまよくないんじゃないの？職場では使ってないしー

forum見たけど報告されてないっぽいし、あとで気力が戻ったら投げておきます（未定）。

追記 0800くらい

エントリ書いて朝ごはん食べたら冷製になったのでなおした。

$ install_name_tool -change @rpath/libiomp5.dylib /Users/kzfm/anaconda3/pkgs/intel-openmp-2018.0.0-h8158457_8/lib/libiomp5.dylib /Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so

01072018 chemoinformatics

Better featurizations are required

I believe better featurizations are required, but there is a limit to physiological activity prediction only from ligand information 'cause it's a molecular recognition.

MoleculeNet: A Benchmark for Molecular Machine Learning

Results for biophysical and physiological datasets are currently weaker than for other datasets, suggesting that better featurizations or more data may be required for data-driven physiology to become broadly useful.

What features are multitask modering shared in physiological activity prediction ?

Multitask modeling relies on the fact that some features have explanatory power that is shared among multiple tasks.

I'm guessing it's a liposoluble feature such as logP expressed in Hansch-Fujita equation.

25062018 chemoinformatics

Mishima.syk #12をやりました

最近沼津でばかりやっているMishima.sykをやりました。初めての人も多くなかなか楽しい会になってよかったです。

特に、初めての発表の方々のクオリティが高かったのと、LTが名人芸に達してきている人たちがいて最高でしたね。あと、今回休憩という名のバッファーを15分しか撮っていないにもかかわらず、凄腕タイムキーパーのおかげでほぼ時間通りに演題が進行して最高でした。

私のプレゼンは訳あって公開できませんが、みんながんばれ（適度に！）というエールとエスプリとエスプレッソを2で割って3余らした感じになりましたが、ちょっと真面目に考えないといけない状況なのかなーとは思っています。ルールを逸脱した手を打てる状況はあまりないからそういう意味では低分子化合物戦略は機械学習と共存する部分が増えていくのかもしれませんが、当分はウェットの知識のあるドライなケミストが強い時代がちょっと来ると思います。

私自身は工学部出身で、「シミュレーションできない学問は未熟な学問である」という立場を貫いてきて、化学反応とかドッキングシミュレーションを偉大なる波動方程式でシミュレートする未来が正しい世界の在り方に違いないとずっと信じてたんだけど、実際はその方向に行かなくて、（不完全な存在である）メディシナルケミストの合成案をシミュレーションするほうが（工学的に）うまくいくってのがあれなんですよね。

なんか歪んでいる感はあるから揺り戻しはくるような気がするけど、当面不確定な未来を予測する手段として機械学習が人間に置き換わる可能性はそこそこあるのかなと思っています。そういう状況で人のやることは、将棋で例えると、新たな駒（桂馬に新たな機能を付加した桂馬金とか）の開発（ルールの更新）みたいなことなのかな。ま、それはモダリティってことなんでしょうけどね。

昼は電車遅延のせいで、幅田屋でカレー南蛮そばをいただきました。カレー感はあまりないけどうまい。

1529926539