03 06 2017 chemoinformatics Tweet
深層生成モデルとかでSMILESをいじってそれっぽい構造を発生させるのが流行っているようですが。
そもそも構造を自動生成しようとする試みは、かなり昔からあって、SBDD的なアプローチ(レイチェルだっけ?開発者が娘の名前を付けたって言ってたのは覚えているが)したり、生物学的等価性やSMARTSを使った方法とか、ちょっと前だとMMPを使った置換ルールを自動アプライする方法とかまぁ普通にあるわけです。特にMMPを使った方法は自社のデータベースから置換ルールを抽出してくるのでメドケム知識の再利用としても意味があると思う。
しかし、これらの方法論は
- 明らかに合成できない構造を提示してくる
- ドラッグライクでない構造が多すぎて、マニュアルフィルタリングが大変すぎる
という問題があることが知られている。深層生成モデルとかでSMILESをいじる方法もおそらく一緒で、じゃぁ何が優れているんだ?という疑問から今までスルーしていた。画像生成は夢があるけど、SMILES生成は「ふーん、で?」っていう気持ち。あとはSMILESいじりはケミストリー的な文脈を読まないのでマジックメチル等の構造変化要因みたいな部分を全く考慮できないから、メディシナルケミストの代わりになんかなれないなと思っている。
それから、そもそも提案した化合物をどうやって作るんだ?という大きな問題がある。分子設計やっていて一番めんどくさいのがこの部分だからね。逆に言うとこの部分なんとかなるなら生成モデルはちょっと魅力はあると思っている。
というわけで、次回のMishima.sykでは「SMILES生成モデルを使ってみた」的な発表をしてみようかなと思っているけど、MBAでトレーニングしたら唸りをあげる割には全然学習が進まないので凹んでいる。