良い科学は差を生む(2)

良い科学は差を生むので我々は良い科学を行わなければならないわけです。

ここに、N先生のありがたいお言葉をあげておきますが、

つまり、「化合物のグラフ表現ではきちんと化合物を記述することができない」ということを意味しているわけです(自明だけどね)。

なので、機械学習を利用してQM9の値を予測するってのはとても違和感がある。ただ、マテリアルインフォ系の方々と話していると「ab initioだと計算時間がかかるからコンベンショナルな計算方法があると嬉しい」っていう理由でこういう方法が望まれているようなので、そういう目的ではありかな?と思う。(適用範囲(aplicability domain)の問題とかもある半経験的な手法とどっちが良いんかな?と思わないでもないが)

でも、創薬系の活性予測とか物性予測という場面においては、量子化学計算の結果から出てくる値(energyとか双極子モーメント)とかを現状のグラフ由来のデータをつかって深層学習にかけると、なんか特徴量でてくるかもみたいな神頼みみたいな仕事はどうかと思う。そもそも潜在的に記述できてないデータをinputに突っ込んで記述できるようになったら錬金術じゃないのか?

むしろ、量子化学計算の結果として出てきたパラメータを機械学習のinputとして利用するように色々工夫したほうが良いのではないかと考えている。リガンドとタンパク質の相互作用が化学反応の一種であるならば非占有軌道を考慮できないと正確な予測はできないと思うしね。

ProductName 基礎量子化学―軌道概念で化学を考える
友田 修司
東京大学出版会 / 4536円 ( 2007-02-01 )


Hansch-FujitaのLogPはdesolvation energyでPIEDAのDI termはエンタルピックな項

週末は京都でkumainfoの座長の方々とお会いする機会があったので、予稿集を眺めて気になったところを質問してきました。

特に2B03の回帰式にdesolvation termが入っていたのでその意味を聞いたところHansch-Fujita equationのLogPではないかとのことでほう!となりました。ちなみに調べてみたら1984年くらいに同じこと書いてあった(p. 709)。

となるとPIEDAで出てくるDIはLogPとは関係がなく? スタッキングとかCH-πみたいな純粋なエンタルピックな量になってLLEとよい相関を示すことになるのかな?

一方でLLEは見かけの活性を排除しているわけではなくエントロピックな寄与を排除しているということになるが、これはエントロピックな寄与が一定という割と狭い条件でしか通用しないってことかもしれないですね。

konをいじるデザインも併せて考えると興味深いと思う。

このあたりの整理が出来たので良かった。

konをmodifyするような分子設計の可能性について

一通りの大きな発表とかが終わって、今週はゆっくり出来たので積んであった論文などを捌いていたら面白いものを見つけました。

Ligand Desolvation Steers On-Rate and Impacts Drug Residence Time of Heat Shock Protein 90 (Hsp90) Inhibitors

konがどういう因子に支配されているかを調べているのですが、konを変化させるようなdrug designは望まれているけど難しいのでこういうメカニズム解明系の論文は夢があるし、読んでてワクワクしますね。素晴らしい。

ただ、結合過程を化学反応のアナロジーに例えるのはしっくりこなかった。TSって鞍点でしょ?デソルベーション過程って鞍点とみなしていいのかな?イメージできない。それから、apolarな部分のdeslolvationが律速過程みたいな図もちょっと納得できなかった。polarなほうが剥がしにくいし、論文中でもそうなってたしなぁ。

なんかもっと正しいアナロジーまたは解釈の余地は残っている気がする。

それからK4DDって面白そうな活動していますねっていうのと、論文のリンクを探すためにタイトルでググったら被引用論文のリンクがくっついていてグーグル凄いなと思いました。

良い科学は差を生む

金出先生の講演面白かった。そしていろいろと考えさせられました。

ちゃんとした情報論の学会だとやはり理論的に説明することが求められるので発表を聞いていて楽しいし、勉強になりますね。インフォマティクスの頭にバイオとかケモとかマテリアルとかエトセトラエトセトラとかつくとなんか枠組みだけ借りてきてなんでそうなるのかちゃんと考えなかったり、期待感だけでうまくいくとか言っちゃうのがちらほら出てくるのはなんでなのかなー?と思います。

最近、ケモインフォマティクス系の発表でちょいちょい見かけるのが、構造式を紙に出力してCNNをつかって予測すると精度があがるとかいうやつとかね。chemceptionとかで

We demonstrate this by training deep convolutional neural networks to predict chemical properties that spans a broad range of categories including physical (solvation free energies), biochemical (in vitro HIV activity) and physiological (in vivo toxicity) measurements, without the input of advanced chemistry knowledge, but instead allowing the network to develop its own representations and features from the images it is trained on.

と書いてあるんだけど、これ単純にOCRできているだけじゃないの?としか思えないんですよね。文字認識してからテキストマイニングに描けるように、構造認識してから適当な予測モデルにかけているから精度ももともとの構造式をグラフ表現にしたものと同じくらいの精度しか出ないんだろうなーと。結局無駄な一手間加えただけなんじゃ?としか思えないんだけど、これに夢を感じるのなんでだろうねと思ってしまう。

もしかしたら、紙からもっとプリミティブというか量子化学的な特徴量を学習するのかもしれないけどそれって夢見過ぎなんじゃないのかなーと思う。結局構造式のグラフ表現だといろいろ化学的な事象を表現できないから色々別な表現方法提唱されているのにそういうのまるっと無視してAIとDLならうまくいくみたいな論調のひとはちょっとどうなのかなというか理論の部分知らなかったり(知る気もなかったり)するのがちょっとなー。

そんなことを考えながら飲んでいてメモ代わりにツイートしといたのが以下です。

ちゃんとサイエンスをリスペクトしつつ、現実の世界で役に立つ研究をしたいなーと思いました。

転移学習と半教師付き学習の類似性

半教師付き学習はトレーニング、テストが同じ分布のもので、転移学習はトレーニング、テストが異なる分布からくる(半)教師付き学習とみなせる

という話を聞いて、スッキリした。自分の中で理解が進んだ。転移学習の例として、室内で撮った写真をつかって室外の写真を予測するみたいなものを挙げていた。

キナーゼAの阻害データをトレーニングセットとしてキナーゼBの阻害を予測するのに転移学習を適用するってのはやっぱ分布が異なりすぎるんじゃなかろうか?または非選択的な阻害剤みたいなものしか予測できないとか。

今日眺めた論文

学会に行っていい講演を聞けるとサイエンス脳になるし、ホテルに帰ってきてもやることなくて暇なんで論文でも読むかとかいう気分になるし、ついでにビール飲むとなんかエントリでも上げるかーってなるし、たまに学会に行くのはいいですね。

ちょっと読もうかなーと思って持ってきていた論文だけど、アブストとマテメソ、結論あたりを流し読みしただけです。

両方共同じ著者によるModelabilityに関するペーパーです。Interpreterbilityも重要ですけどModelabilityも同じくらい重要ですよね。というわけでこういうあたりはキャッチアップは欠かせないわけなんですが。

ただ、Modelabilityってどうなんかねーっていう疑問は残るんですよね。大体プロジェクトであるあるな典型的なシチュエーションって、より高活性(効き目の強い)を目指すことが多いと思うんです。

例えばプロジェクトの最高活性化合物がpIC50(数値が高いほうが強い)が7でpIC50が4-7のレンジでModelabilityの高いモデルが出来ました。となってもプロジェクトで目指すpIC50は8とか9だったりするんで、それoutlier予測じゃないか、そのモデルでいけんの?ってなると思うんですよね。まぁ予測モデルで4-7の範囲に入るのは信頼度高いから作る価値なしっていうネガティブスクリーニングに使うっていう方法あるかもしれないけど、それだとモデラーとして不本意じゃないかねというジレンマつらいのでは?

そうなると、ケミカルスペースをどう効率的に探索していくかというような、実験計画的なアプローチとか能動学習とかやりたがるようになると思うんだけどねー。レトロスペクティブにみてやるとプロジェクトの合成化合物は木構造を取るのでMCTSなんか使えるんじゃないかなーって期待するかもしれないんだけど、評価関数作れないし、可能な木構造爆発しちゃうし、なんか難しいよねーというため息しかでなかったりする。

尚、今飲んでいる札幌クラシックは「ホッホクルツ製法」で作られているからうまいらしいです。

今日読んだ論文

今日は飛行機の中でいくつか論文読んだのでメモを残しておこうと思ったんだけど、全部座席の網棚に置いてきてしまったらしい。邪魔だったから読み終わったのをパンフの網棚に突っ込んで最後に取り出すのを忘れたw 個人的には最後のJ.C.T.C.のやつが面白かったです、FMOにも触れられているのでSBDDerは目を通すべき。

Drug Repurposing Using Deep Embeddings of Gene Expression Profiles

ざっと目を通したんだけど embedding spaceってのが実態としてどんなもんなのかピンとこなかった。実装見て手を動かさないとわかんないのかなぁ。次元圧縮してどうすんだろ?

もう少し先行論文たどってみようかと思う。

Exploring Activity Profiles of PAINS and Their Structural Context in Target–Ligand Complexes

キャッチーな絵を見てPAINSをSBDD的に解釈するのかなーと思い読んでみたんだけど、なんかよくわからない話だった。最近あまりライブラリとかHTSに興味が無いのも相まって読み飛ばしてしまった。構造出したらちゃんと解釈してもらわないとね。

A Simple Representation Of Three-Dimensional Molecular Structure

E3FPの論文も ACSのほうを再度読み返してみた。部分構造に3次元情報を取り入れて細分類してECFPからどれくらいの精度が上がるかっていうのは興味ありますよね。このあたりはPLECにも拡張する余地ありそうだけど、それでどこまで上積みが見込めるかというところでしょうかね。

Theoretical Study of Protein–Ligand Interactions Using the Molecules-in-Molecules Fragmentation-Based Method

創薬わかってる感じやなーと思いつつ読んでいて読み終わってから共著にLilyの人が入ってるの気づいた。元論文紛失しちゃったから引用できないんだけど、FMOはFragmentationのやり方のせいで高精度の基底関数とかDiffuse関数を使いにくい(使っても精度が出にくい)、だから6-31G+分極関数くらいの基底関数の論文が多いみたいなことが書いてあったのと、精度出すには結論パートでダイナミクスを考慮しないといけないみたいなことが書いてあって、 ダイナミクス考慮するなら基底関数の精度そんなに要らないんじゃ? とちょっと思った。あと相互作用エネルギーにsolvation energy考慮していてあれってどの程度効いてくるのかなーとふと思いました。

って書いてたらあと1報読んだの思い出した。

Anion-π Interactions in Computer-Aided Drug Design: Modeling the Inhibition of Malate Synthase by Phenyl-Diketo Acids

これはRivaroxabanとかと同じような相互作用ですかね?FMOかけると楽しい案件だと思った。ただPDKAってAcidだから負電荷持ってるしMgイオンとも相互作用してるっぽいので計算する時にちょっと手間ですね、、、

ロマン結合のこと

(2017年の終わりの下書きだった。下書きを眺めているとなんか思うことがあったらしいが、よくおぼえてないのでタイトル以外は削除した)

FMO計算をしていると、見かけ上結合しているような位置関係にある原子ペアーにたまに出会います。そういうロマンを追い求めて再現しようとするのは良いんだけど、プロジェクトは確実に前進しないから害悪っすよね。

ってことは言っておきたい。

あと今年も創薬アドベントカレンダーやるみたい

船堀(フナヴォリー)に行ってきました

船堀の学会に行ってきました。今回みんなで仲良くポスター出してきたうえに全員オーラルでしかも初日だったので、発表終了後にお疲れ会をしてきました。

昼はゴヴィンダスでカレーを食べました。船堀に行ったら一度は寄らないといけない店かと思います。

1540100366

お疲れ会会場。いきなり金の玉子がお通しで出て、これはポスター賞の予感ではという話をしていたら、一人ポスター賞を取りました、おめでとうございます。でも、(話すの)飽きたから出したくないという生成モデル(コンピュータに合成案提案させるやつ)の話を出したら、ベストポスター取れたのではないかと思いました。尚、生成モデルの話はうちでは既に当たり前過ぎてみんな応用の話(メドケムとかSBDDとか)をしたがるので、どこかで誰かが基本的なことを話したほうがいいような気がしています。まぁ、生成モデルは今後の分子設計には必須だと思うので、それを使って何を為すかっていうのに夢中になる気持ちはわからんでもないです。SaaSとかIaaSみたいにメドケムが抽象化されてプログラマブルに扱えるわけですからねw

というわけで、mishima.sykで電影少女のパロディで合成少女的な内容でやるのもありかなと思っています。まぁハンズオンもいいすけどね。

金の卵と、山盛りトロぶつ

1540100368 1540100371

二日目の昼は大島に味噌ラーメンではなく塩ラーメンを食べに行きました。さらにこれがきっかけで来月の札幌出張に際して美味しい店リストを仕入れたので満足です。

1540100373 1540100375

三日目は「たくみ(感じ忘れた)」でつけ麺

1540100378 1540100380

Psi4 install error

I got a this error. Conda always irritates me ;-)

>>> import psi4
Traceback (most recent call last):
  File "/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/__init__.py", line 55, in <module>
    from . import core
ImportError: dlopen(/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so, 2): Library not loaded: @rpath/libiomp5.dylib
  Referenced from: /Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so
  Reason: image not found

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/__init__.py", line 60, in <module>
    raise ImportError("{0}".format(err))
ImportError: dlopen(/Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so, 2): Library not loaded: @rpath/libiomp5.dylib
  Referenced from: /Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so
  Reason: image not found

@rpathという変数がMacでは何らかの理由により正しく設定されないらしい

朝からイラツキすぎてまともに解決する気力もないので、当面放置するかも。これから買い物いかないといけないし。 それにしてもCondaよくわからんエラー多すぎるわ。RDKitもそうだったしさー。あんまよくないんじゃないの?職場では使ってないしー

forum見たけど報告されてないっぽいし、あとで気力が戻ったら投げておきます(未定)。

追記 0800くらい

エントリ書いて朝ごはん食べたら冷製になったのでなおした。

$ install_name_tool -change @rpath/libiomp5.dylib /Users/kzfm/anaconda3/pkgs/intel-openmp-2018.0.0-h8158457_8/lib/libiomp5.dylib /Users/kzfm/anaconda3/lib/python3.6/site-packages/psi4/core.so