02122018 chemoinformatics work life
良い科学は差を生むので我々は良い科学を行わなければならないわけです。
ここに、N先生のありがたいお言葉をあげておきますが、
一般的な構造式は原子間の化学結合や相互作用については教えてくれないー>量子力学によってしか記述できない
— kzfm (@fmkz___) 2018年11月17日
つまり、「化合物のグラフ表現ではきちんと化合物を記述することができない」ということを意味しているわけです(自明だけどね)。
なので、機械学習を利用してQM9の値を予測するってのはとても違和感がある。ただ、マテリアルインフォ系の方々と話していると「ab initioだと計算時間がかかるからコンベンショナルな計算方法があると嬉しい」っていう理由でこういう方法が望まれているようなので、そういう目的ではありかな?と思う。(適用範囲(aplicability domain)の問題とかもある半経験的な手法とどっちが良いんかな?と思わないでもないが)
でも、創薬系の活性予測とか物性予測という場面においては、量子化学計算の結果から出てくる値(energyとか双極子モーメント)とかを現状のグラフ由来のデータをつかって深層学習にかけると、なんか特徴量でてくるかもみたいな神頼みみたいな仕事はどうかと思う。そもそも潜在的に記述できてないデータをinputに突っ込んで記述できるようになったら錬金術じゃないのか?
むしろ、量子化学計算の結果として出てきたパラメータを機械学習のinputとして利用するように色々工夫したほうが良いのではないかと考えている。リガンドとタンパク質の相互作用が化学反応の一種であるならば非占有軌道を考慮できないと正確な予測はできないと思うしね。