06 11 2018 chemoinformatics Tweet
金出先生の講演面白かった。そしていろいろと考えさせられました。
ちゃんとした情報論の学会だとやはり理論的に説明することが求められるので発表を聞いていて楽しいし、勉強になりますね。インフォマティクスの頭にバイオとかケモとかマテリアルとかエトセトラエトセトラとかつくとなんか枠組みだけ借りてきてなんでそうなるのかちゃんと考えなかったり、期待感だけでうまくいくとか言っちゃうのがちらほら出てくるのはなんでなのかなー?と思います。
最近、ケモインフォマティクス系の発表でちょいちょい見かけるのが、構造式を紙に出力してCNNをつかって予測すると精度があがるとかいうやつとかね。chemceptionとかで
We demonstrate this by training deep convolutional neural networks to predict chemical properties that spans a broad range of categories including physical (solvation free energies), biochemical (in vitro HIV activity) and physiological (in vivo toxicity) measurements, without the input of advanced chemistry knowledge, but instead allowing the network to develop its own representations and features from the images it is trained on.
と書いてあるんだけど、これ単純にOCRできているだけじゃないの?としか思えないんですよね。文字認識してからテキストマイニングに描けるように、構造認識してから適当な予測モデルにかけているから精度ももともとの構造式をグラフ表現にしたものと同じくらいの精度しか出ないんだろうなーと。結局無駄な一手間加えただけなんじゃ?としか思えないんだけど、これに夢を感じるのなんでだろうねと思ってしまう。
もしかしたら、紙からもっとプリミティブというか量子化学的な特徴量を学習するのかもしれないけどそれって夢見過ぎなんじゃないのかなーと思う。結局構造式のグラフ表現だといろいろ化学的な事象を表現できないから色々別な表現方法提唱されているのにそういうのまるっと無視してAIとDLならうまくいくみたいな論調のひとはちょっとどうなのかなというか理論の部分知らなかったり(知る気もなかったり)するのがちょっとなー。
そんなことを考えながら飲んでいてメモ代わりにツイートしといたのが以下です。
DL的なアプローチで学問の階層性を上に辿れるのかって言うのはちょっと疑問。例えば二重結合の構造式をたくさん読んだところでそれがシグマとπの2つを意味していてそれぞれ意味合いとして違うということを理解できるのか疑問。
— kzfm (@fmkz___) 2018年11月5日
ケミストリー出身でバイオインフォやっている知り合いと盛り上がったディスはやっぱり「あいつら、アトムが玉としか認識できなくて、電子雲しらんから軌道の話すると思考停止するよね」みたいなのが10年前にあった。
— kzfm (@fmkz___) 2018年11月5日
何がいいたいかって言うとドメイン知識が不要っていうのは嘘よねってことかな。AIはよろしくやるからっていうのは表層漂うボウフラみたいなもんで、、、、ちゃんとリスペクトしないとカトンボのように扱われても同情せーへんでっていう
— kzfm (@fmkz___) 2018年11月5日
ちゃんとサイエンスをリスペクトしつつ、現実の世界で役に立つ研究をしたいなーと思いました。