May your soul rest in peace

One of the founders of Mishima.syk passed away.

We can fly But We want his wings We can shine even in the darkness But We crave the light that he brings Revel in the songs that he sings My angel XXX

Mishima.syk #13でGenerator mini hands-onをやります

あけましておめでとうございます、今年もよろしくおねがいします。

昨日まで日本酒飲みまくってグダグダしていたので、今日からそろそろ始動しようかなと思います。@iwatobipenがアクティブにGitHubにプッシュしまくっているみたいなので、Mishima.sykのタイムスケジュールも更新しましたが、あと40分くらい空いているのでLT入れたい人は早めに時間を確保してください。

今回はGenerator mini hands-onをやることにしました。理由は、第404回CBI学会講演会ではThierry KogejさんにMolecular de novo design through deep learningと似たような公演をしてもらう予定にしているからです。

スライド3でDe novo molecular generation with deep learning has developed very rapidlyってあるんだけど、今大体どのくらいの化合物生成してくるのかを知らないと、公演楽しめないと思うんですよね。この手の話って知らないで聞くと期待感あふれるストーリーなのか、現実味を帯びているのかいまいち掴めないという。

というわけで彼らの提案しているREINVENTを実際に動かして、化合物提案がどんなもんなのかを見てみようというハンズオンになります。予めChEMBLでトレーニング済みのモデルはこちらで用意しましたのでjupyterでちょっとコード打てば動くようにする予定です。

本当は参加者に、それぞれ上市された薬剤のもとの特許を渡して、生成モデルがどのくらい生成したら実施例をカバーすんのかな?っていうのをやってもらうハンズオンにしたかったんだけど、それはGPU必須っぽいので今回は断念しました。

参加はこちらから。

ハンズオンをやってから改めて読むと味わい深いエントリはこちらです。

Self-assessment of this year

今年を振り返ると書いたエントリ数は100弱だった。昔は1エントリ/day以上は書いていたので最近はブログに対する意欲は薄れているが、後から振り返るためにもう少し書くようにしたい。

仕事関連

今の会社に入って2年ちょいだけど、今年は成果が沢山でてよかったと思う。チームで社外発表を全部で10以上できたし、来年講演に呼ばれているの確定なの4,5はあるしね。来年も社外発表を通して議論、フィードバックをもらいながら成長していきたい。

または overwhelming growth ってやつ?w

一方で去年の振り返りに埋め込んだTEDの動画にあるように、去年はタイミングが良かったというのもあると思うんですよね。「半歩先の仕事の発表だったからウケた」みたいな。サービスとしてはありなんだろうけど、サイエンスとしてはどうなのかなーと思わなくもない。マジョリティが理解できる程度にしか先に進んでないってことだから、すぐに追いつかれる強みにしかならんのかなーとも思うので、そのあたりも考えていかねばいけませんね。と、そういうことを考えられるようになったのも進捗した結果なのでそれはそれで嬉しいことですが。

来年は 「単純なAI based XX」っていうネタも落ち着いて、ドメイン知識が必要ななにか新しいことをプラスしないと評価されなくなってくるっていうようになるんじゃないかなぁーって思います。特にケミストリーはAIっていう焼畑農業である程度焼き尽くしちゃった感があるしね。そのあたり、少し進めていければいいなと思っています。

あと来年はちょっとBioinformaticsのお手伝いもしないといけないのでそっちもきちんと成果を出せるようにしたいけど。まずは環境を整えないといけないなって感じですね。あとバイオインフォの情報も追いかけないといけないので大変になりそう。

ProductName ビジョナリー・カンパニー2 飛躍の法則
ジム コリンズ
日経BP社 / ?円 ( 2014-08-29 )


あと英語力をもっとあげていきたい。僕もエントリ英語にしようかな。

仕事以外のこと

手術というものを初めて経験した、盲腸だけど。それからPokemon GoのトレーナーレベルがMax(40)に到達したら、あまり運動をしなくなってしまった。良くないのでなにかしないとなーと思っている。

Augmented Medicinal Chemistry

将棋を指される方はご存知だと思いますが、将棋ウォーズっていうアプリがあって、それには棋神というコンピューターが3手くらい指してくれるシステムが存在します。

ま、どういうことかと言うと、自分の能力を超えてブーストしてくれるわけですね(実際あれを使うと万能感に浸れますw)。

で、化学構造の生成モデルも似たような立ち位置として使えるんじゃないかなーと話していて、最近、実際にそういう事例の話を聞かされて、やっぱブーストするのか!と感激したわけです。

なにもないところからアイデアを出すのは人間には苦痛を伴う作業だけど、幾つかの選択肢が与えられた場合、妙手を選びやすいのは人間の特性なのかなーと思った次第。

螺旋階段を登り続ける

私のブログのタイトルは好きなドラムンベースのさらに細かいジャンルからとっているわけですが、最近聴いてる新譜が妙に昔懐かしのJungle感を感じさせる曲が混じってるなと思い、

ProductName Waystone
Whiney
Imports / ?円 ( 2018-12-06 )


とtweetしたらありがたいreplyを頂き、よく考えたら確かに分子設計もぐるぐる回っておなじ歴史を繰り返しているようでいて、実は色々と前進しているんだよなーと、一つ思い出したので書いておきます。FMOのことですがw

私とFMOの出会いはかなり古くて、1999だか2000だったか覚えていませんが、CBIの年会に北浦先生がポスター出されていたのを目ざとく見つけて、あれこれというかネホリンハホリンした挙げ句、激ヤバマスト!!!と大興奮したのを忘れていません。

ま、もちろんその当時の同僚や上司のレスポンスは冷笑そのものであったことは言うまでもないことでしたけど、実際のところそもそも計算資源がなかったし、まぁそんなもんかなって感じでしたね。どうしても蛋白-リガンド複合体の計算したかったら切り出してモデル化するのがその当時の王道だったしね(そして製薬企業でやってるのはほとんど見なかったけど)。

その後、数年くらいで基盤の整備が行われてCBI主体の講習会などが開かれて、FMOは誰でも使えるようになったんですが、それでもコンピューター資源の制約は大きくて、このあたりで$40000くらい投資して導入したクラスター(AMDのCPUだったと思う)で計算しても6-31Gくらいの基底関数だと1weekくらいかかっていた(はず)

で、まぁ今だと、ちょっとした投資でクラスター組めば同じくらいの計算5,6時間で終わるし、AWS使えばもっともっと早く計算できるっていう状況になってるっていうのがよくよく考えてみると感慨深いわけです。

というわけで、計算機資源の速度向上や、結晶化の技術がFMOでやれることの可能性を広げているので、なにか新しい貢献ができるといいなーと思いました。

Visualizing important fragments with RDKit

Interpretaion of the QSAR model with fingerprints is difficult because its features don't show substructures but position of bits. The latest version of RDKIt has implemented the new fingerprint bit rendering code, so we are easily able to understand the meaning of the bit as a substructure (fragment)

Now, I wrote some code to visualize important fragments of the compounds and uploaded it to GitHub.

If you are familiar with Kinase inhibitors, I am sure that you will notice its usefulness.

Fingerprint visualization

AI創薬のためのケモインフォマティクス入門のレポジトリ作った

Githubでasciidocでやればいいと思ったので用意した。

サイトのaboutのところにも

Mishima.sykは主に三島を中心に活動するライフサイエンス系の勉強会で、 特にオープンソース・ソフトウェアの活用や普及を促進するためにハンズオンや 啓蒙活動を行っています

って書いてあるしね。

python for chemoinformatics

clojure cookbookとかpro git2を参考にしたい

「AI創薬のためのケモインフォマティクス入門」の目次を考えてみた

創薬 Advent Calendar 2018の11日目の記事です。

もし「AI創薬のためのケモインフォマティクス入門」ってのがあったら目次はこんなになるんやないやろか?ってものを @iwatobipenと一緒に考えてみた。

対象読者は

  • 医学薬学系の大学院生及び薬学系のデータ解析を行いたいポスドク
  • 製薬企業の薬理研究者で自分のデータを自分で解析したい人
  • または創薬化学者でケモインフォマティクスの必要性を感じている方
  • 既に企業でケモインフォマティクスに従事しているがプログラミングスキルに乏しい方
  • AI創薬に興味があるがなにからはじめたらいいかわからない人

あたりを想定してみたのだけどもし、「こういう章追加したほうがええんやないか?」とか「これは不要だろ」っていうのがあれば教えてもらえると嬉しいです。RTしてからコメント入れると見逃すのでそこは是非コメント付きRTでよろしくお願いします。

目次

ちょっと追加した(2018.12.12)。web interfaceは入門の範囲を超えそうなのでどうするかは考える。

イントロダクション

  • ケモインフォマティクスとは?

ケモインフォマティクスのための環境を整えよう

  • Anaconda(Python, Jupyter, scikit-learn)
  • RDKit

Pythonプログラミングの基礎

  • Pythonの基礎(必要だったら)
  • Jupyter notebookで便利に使おう

ケモインフォマティクスのための公開データベース

  • ChEMBL
  • PubChem

RDKitで構造情報を取り扱う

  • SMILESとは?
  • 構造を描画してみよう
  • 複数の化合物を一度に取り扱うには?

化合物の類似性を評価してみる

  • 記述子、フィンガープリント
  • 類似度を計算する

沢山の化合物を一度にみたい

  • Chemical Spaceとは
  • tSNEをつかったマッピング
  • 主要な骨格による分類(MCS)
  • Matched Molecular Pairによる化合物ネットワーク

構造活性相関(QSAR)の基礎

  • 効果ありなしの原因を考えてみる(分類問題)
  • 薬の効き目を予測しよう(回帰問題)
  • R分解とFree wilson analysis
  • モデルの適用範囲(applicability domain)

ディープラーニング入門

  • TensorFlowとKerasについて
  • Google colab(ずっとフリーかわからないので要検討)
  • インストールしてみよう

ディープラーニングを利用した構造活性相関

  • 記述子を工夫してみる(neural fingerprint)
  • DNNを利用した予測モデル構築

コンピューターに化学構造を考えさせる

  • Recurrent Neural Networkを利用した構造生成

我々も、「ケモインフォマティクスとかマテリアルズインフォマティクスやりたいんだけど、何から勉強すればいいんですかね?」みたいな質問されることが多いけど、「この本読んどけばいいよ」って言えなくて辛いので、なんか欲しいなとは思っているのですけどねー。

ピューっと吹くAI創薬

創薬 Advent Calendar 2018の9日目の記事です.

タイトルは適当ですが、内容はまともです。

タンパク質とリガンドの相互作用をきちんと理解する

Fragment Molecular Orbital Method(FMO)という方法があります。詳細はリンクか本を買って読んでもらえればと思いますが、要するにタンパク質とリガンドの相互作用を高精度に計算する手法です。

さて、このFMOをつかってA Medicinal Chemist’s Guide to Molecular Interactionsの再解釈をやるとどういうことがわかるかというと、読書感想文? としか言えないものが意外と(予想通り?)多いということですね。特に目視の解釈難しいそうだよなーってものは想像だけで解釈した純度100%のロマン結合ばっかりだった。結局きちんとFMO計算してPIEDAから相互作用を解釈するのがドラッグデザインには重要ということですね。もう一つ重要なことはリガンドの結合乖離過程というのは構造変化を伴わない、つまり生成物と反応物が変わらない化学反応(触媒反応)であるということですね E + L -> [EL] -> E + L 化学反応であるということはフロンティア軌道論で考える必要もあるのではないかということにつながり、LUMOもまた重要なファクターである可能性が高いという結論が導かれます。

ここまで簡単にまとめると

  • タンパク質とリガンドとの相互作用を解釈するには量子化学計算が必要
  • 相互作用を化学反応の一種として解釈するならLUMOも重要そう

ケモインフォマティクスによる活性予測

さて、ケモインフォマティクスでは上であげた相互作用をリガンドのみの情報から予測することになりますが、リガンドの性質を表す特徴ベクトルとして色々なフィンガープリントが提唱されています。

しかしながら、これらの手法はそもそも原子間の化学結合や相互作用については教えてくれないため予測精度の向上に関しては限界があることがわかりきっています、もしくは既に限界付近まできてる可能性も低くはないのではないかと考えています。

つまり何らかの形で分子軌道を取り込まないと、ケモインフォマティクスはスクリーニングレベルの大雑把な方法としてしか使えなくて創薬のリード最適化には役に立たないざっくりとした手法にとどまるんじゃないでしょうかね?

フロンティア軌道の情報を取り込むようなイケてる方法論があればいいなーと思いますが、なかなか難しいですね。

結論

  • 活性予測の精度向上には、リガンドの記述方法に量子力学に基づいたアプローチが必要なのでは?

おまけ

こういうディープな議論がしたければMishima.sykにGO。次回は2/9にやります

真鯛で忘年会

沼津にある真鯛というお店で忘年会をしてきました。

1544163327

突き出しがカマ。右が鯛のサラダ

1544163329 1544163332

カルパッチョと揚げ物

1544163335 1544163338

鯛のしゃぶしゃぶ。これは美味しかった。

1544163341 1544163343