From Promiscuity Degree (PD) to Target Family Degree (TFD) and Selectivity Degree (SD)

前回のPDの続きを楽しんでいた。

Considering similarity with Promiscuity Degree

やりたいことはPDで単にActivity Cliffをカウントしているだけのところをターゲットファミリーの重複を除けばターゲットの依存性が解消できるだろうということ。

試したこと

最初にChEMBLのターゲット分類項目を使おうとしたがオントロジーのせいなのかまとめられないものが多くて上手くいかなかった。

続いてsimilarity matrixを地道に計算する方向を試してみた。これはbiopythonのpairwise2を使ったら遅すぎたのでclustalomegaを呼び出すことにした。マトリックスが出来たらMDSで二次元にマップしてからAffinityPropagationを使ってクラスタ分類させる方向でやってみた。 これで適当なクラスター数に分けることは出来たのだが、散布図を眺めていると、どうも思ったように集団を形成しておらず結果としてはあまり上手くいったとはいえない感じだった。

考察

similarity matrixが上手く作れていなかったのが分類が上手くいかなかった大きな要因であるが、これはglobal similarityを計算したのが問題だった。多分ドメイン等の類似性が重要なのでlocal alignmentをするべきだった。つまりblastのp値とかE値を距離として使えばよかったように思う。または局所相同性かな。

当初、Xmeansでクラス推定する予定だったが距離行列をインプットに取れなかったのでMDS+APという方法をとったけど、このクラスター推定ももう少し上手い方法がありそうかなと思う。

Selectivity Degree

SBDD的に興味が有るのはファミリー間の選択性を発揮する小さな構造変化であり、PDの増減するかつTFDが変化しないものであろう。そのようなクリフがデータベースから検索できると面白いかなと思う。こういうものをSelectivity Degreeとでも呼べばいいと思う。

FBDD with ChemTS

MCTSとRNNを組み合わせた手法であるChemTSソースコードを眺めていて、

お、これFragmentのgrowingに使えるじゃん!

と気づいたので早速フォークしていじり始めた。

初期値としてフラグメントのSMILESを与えたい、かつRNNの流儀に会うように成長点が文字列の最後に来るようにしたいんだが、以前教わったSMILES Enumerationコードを流用すればいけそう

OMEGAがあれば部分構造を基にしたコンフォメーション生成やってくれるから、その後のドッキングスタディ楽なんだろうけど、持ってないからなー。

それから評価関数ドッキングスコアにするのはどうなのかな?アレの精度あまり良くないからなんか考える必要はありそうだ。PLIFとかのほうが潔くて良い気もするが。

ちょっと前に出てたFBDDのレビューを見ていてもLEを保ったままLeadに持っていくのが重要そうだったからエンタルピックな効果をもたせるほうが重要だったらパッキングよりも水素結合重視したほうがいいかなとは思う。

変なスコアで優劣つけるくらいなら水素結合とか期待できる構造がよく提案されるようにしたほうがよいかもしれん。

このあたりは今後要検討する必要はある。

Dive into promiscuity cliffs

先週promiscuity cliffsというSBDDerにはちょっと受け入れがたい概念があることを知りまして、帰りの新幹線の中で検索してたらopen accessの論文を見つけた。

Identification and analysis of promiscuity cliffs formed by bioactive compounds and experimental implications

SIにデータがあったのでligand expoのデータを使って検索してみた。

結果はGithubにあげておきました。

Dive into promistuity cliffs

全部で20複合体くらいヒットしたので丁寧に観察してからめぼしいものをFMO計算でもかければいいんじゃないかなと思っている。

論文読んで作業していてちょっと思ったのは

  • cliffの方向わからんと困るつまり活性が大きく上がったのがそれとも下がったのかの方向が必要だなと
  • 例えばシビアな認識するATPポケットみたいなものだったらちょっと構造変わったら軒並み活性減弱とかだと面白くない
  • PAINSフィルターに引っかからないアーティファクトも混じっている可能性は否定できないな

あたり。今回サイエンス的な興味と論文がオープンアクセスだったので、試した結果もオープンにしてみたけど、DIYでできるようなFMOクラスターとかDeepLearning用のGPU計算機とか欲しくなるわ。

Activity-Cliffなんて名付けること自体がQSARerにとって甘え

QSAR

似ている化合物は似た活性を示すだろうという仮説

Activity-Cliff

似ている化合物なのに活性に大きく乖離があるという事実

さてここで、

  • 似ている化合物は似た活性を示すという仮説が間違っているのだろうか?
  • 似ているという尺度の定義の仕方に問題があるのだろうか?

後者ですね。

このあたりちゃんと理解しておかないとLOでQSAR使いにくいですよね。 特にインフォ系の化合物の抽象表現として文字列弄っているヒトはケミストリー的な思考をしているわけではないので気をつけたほうがいいかなぁ~と思いました。

Mishima.syk #11やりました

無事に終了しました、参加されたみなさんお疲れ様でした。

今回話すのが忙しくて写真取ってない…

尚、12月には生命科学データ解析本の読書会が静岡で開催されるそうなので、興味のある方は参加すると良いかと思います。僕も行けたら行きます(懇親会は日本酒が美味しいお店になるという噂です)。

ProductName Dr. Bonoの生命科学データ解析
坊農秀雅
メディカルサイエンスインターナショナル / 3240円 ( 2017-09-29 )


mishima-syk.github.io

今までのみなさんのスライドが分散している状態なのもあれなのでMishima.sykのGitHubPageを用意しました。

歴代の料理写真をつけたりして華やかさを出せればよかったんだけどあまりjekyllも知らんので一通りまとめたら、やった感が出てしまった。

気になる人はリポジトリをいじってください。

ProductName Working with Static Sites: Bringing the Power of Simplicity to Modern Sites
Raymond Camden
O'Reilly Media / ?円 ( 2017-03-03 )


RDKitのMolオブジェクトにarrayデータを属性として持たせる方法(強引に)

RDKitのMolオブジェクトにリストとかnumpyのアレイをプロパティとしてセットしたかったので、Gregさんにメソッド用意されていないのか、やり方がないのか聞いてみたら、C++じゃないと出来ないとのこと。

セット系だと

  • SetBoolProp
  • SetDoubleProp
  • SetIntProp
  • SetProp
  • SetUnsignedProp

しか用意されていなくて、困ったなぁと途方にくれていたところ、 SetPropって文字列格納するからとりあえずシリアライズすればいけるんじゃないの ということでやってみた

>>> from rdkit import Chem
>>> import numpy as np
>>> import pickle
>>> mol = Chem.MolFromSmiles("CC")
>>> ar = np.array([[1,2,3],[4,5,6]])
>>> mol.SetProp("arraydata",pickle.dumps(ar))
>>> pickle.loads(mol.GetProp("arraydata"))
array([[1, 2, 3],
       [4, 5, 6]])

というわけで無事にセットできましたとさ。pickle使っているのはnumpyだとファイルかファイルハンドルとるので面倒くさかったから。

Pygamess 0.4.0をリリースしました

何故か5年半ぶりのアップデートです。主な変更点はバックエンドのライブラリをopenbabelからRDKitに変えたことです。

その間もずっとソースコードの管理をしていてくれたGitHubには感謝しかないですな。あと来月ハンズオンやるので、興味を持ったら参加してください。

chemoinformaticsというか古典的なケミストリーで、励起とか軌道が関与する事象を追っかけようとすると、精度に満足しないし、解釈もしにくいかと思います。。そんな時に「じゃぁ量子化学計算でもするか、100化合物くらいのGAMESS INPUTでもつくるか!」とはならないと思います(ほんとにめんどくさいんだよ…)。

ケモインフォのぬるま湯に慣れきった我々はそもそも量子化学計算ソフトの複雑怪奇なインプットファイルなんてつくりたくもないし、ランだってしたくない。その結果に興味があるだけなのでそういうめんどくさいことは見えないところでやってほしいわけです。

pygamessはそういう目的のために作られたライブラリです。

Mishima.syk #11やります

次回の日程と内容が決まりました。

次回は2017/10/14@沼津で、GIt,GitHubのハンズオンをやります。

皆様の参加をお待ちしております。

なぜGit, GitHubのハンズオンなのかというと、最近のJ.C.I.M, J.M.Cといったメディシナルケミストリー、ケモインフォマティクス系の論文でも当たり前に「実装はGitHubにあげてあるから」みたいなことが書いてあって、

お前、その実装に興味あったらプルリク送るなり、Issue報告するなりコミットするの当然だろ?

というような意図が透けて見えるわけだけど、そもそもGitもGitHubも使えないとそういうあたりに貢献できないし、普通に困るだろうなぁという感じの話が出たからです。

実は、静岡のようなちょっと田舎のプログラマーコミュニティでも「えーまだgit使ってないの〜?」みたいな話が出たことがあってハンズオンをしたことがあります。

5年前だけどなw

つまり、プログラミングというかコード管理とかコミュニティの醸成などはこの業界はそのくらいは余裕で遅れているってことです。

プルリク送って取り込まれるとモチベーションがすごいあがるし、是非基本的なあたりは覚えて、ケモインフォティクス、バイオインフォマティクスコミュニティに貢献できるようになれるといいなぁと願っています。

Mishima.syk #10やりました

参加者、発表者のみなさんお疲れ様でした。

色々と話せて楽しかったです。心残りなのはレイドバトルできなかったことくらいか。

懇親会はリパブリュー

1499637843 1499637845

1499637847 1499637850

1499637852

二次会はうさぎの木

1499637855 1499637857