金出先生の講演面白かった。そしていろいろと考えさせられました。
ちゃんとした情報論の学会だとやはり理論的に説明することが求められるので発表を聞いていて楽しいし、勉強になりますね。インフォマティクスの頭にバイオとかケモとかマテリアルとかエトセトラエトセトラとかつくとなんか枠組みだけ借りてきてなんでそうなるのかちゃんと考えなかったり、期待感だけでうまくいくとか言っちゃうのがちらほら出てくるのはなんでなのかなー?と思います。
最近、ケモインフォマティクス系の発表でちょいちょい見かけるのが、構造式を紙に出力してCNNをつかって予測すると精度があがるとかいうやつとかね。chemceptionとかで
We demonstrate this by training deep convolutional neural networks to predict chemical properties that spans a broad
range of categories including physical (solvation free energies), biochemical (in vitro HIV activity) and physiological (in vivo toxicity) measurements, without the input of advanced chemistry knowledge, but instead allowing the network to develop its own representations and features from the images it is trained on.
と書いてあるんだけど、これ単純にOCRできているだけじゃないの?としか思えないんですよね。文字認識してからテキストマイニングに描けるように、構造認識してから適当な予測モデルにかけているから精度ももともとの構造式をグラフ表現にしたものと同じくらいの精度しか出ないんだろうなーと。結局無駄な一手間加えただけなんじゃ?としか思えないんだけど、これに夢を感じるのなんでだろうねと思ってしまう。
もしかしたら、紙からもっとプリミティブというか量子化学的な特徴量を学習するのかもしれないけどそれって夢見過ぎなんじゃないのかなーと思う。結局構造式のグラフ表現だといろいろ化学的な事象を表現できないから色々別な表現方法提唱されているのにそういうのまるっと無視してAIとDLならうまくいくみたいな論調のひとはちょっとどうなのかなというか理論の部分知らなかったり(知る気もなかったり)するのがちょっとなー。
そんなことを考えながら飲んでいてメモ代わりにツイートしといたのが以下です。
ちゃんとサイエンスをリスペクトしつつ、現実の世界で役に立つ研究をしたいなーと思いました。