05 12 2015 chemoinformatics deeplearning Tweet
丁度2年くらい無気力が続いていたので今更感があるがMerck Molecular Activity ChallengeについてChemoinformaticsの実務者側からのメッセージ的なものが無いので書いておいてもいいかなと。
一応ググるとDeepLearningが活性予測に超使える的な文脈で語られているが、実際はこの結果を受けて「すげー使える」という印象をもっているChemoinformatistはほとんどいないはずです。二位のチームがSVMを使っているのだけど、精度がほとんど変わらないので、 「あーSVMでいいじゃん」 という印象のほうが自然かと(評価方法はこれ)。こっちも参考に。
特徴量作りに心血を注いできたデータサイエンティスト憤死
とあるけど、実際はモンストでいうところの 「ミリ残しでギリ勝ちしたわ」 であろうと。
むしろ個人的には、スコアが(例えば画像認識に比べて)非常に低いというところを熟慮しないといけないと考えている。
Feature Engineering,特徴量づくりをほぼやらず,必要最低限の前処理しかしてない
と話しており
じゃぁ、仮に 特徴量の学習をさせたら大幅に精度が向上するのか?
というあたりが非常に気になるわけです。
実際、トレーニングセットを見てみると、記述子よくわからなかったw やたらスパースだし、フィンガープリントじゃなくIntegerだったのでなんかの特徴をカウントしてんのかな?
正直これから特徴量作れないんじゃないかなぁと。既に記述子の段階で必要な情報が落ちているんじゃないかとしか思えなかった。
我々 Deep Learning 屋は特徴量を工夫するよりも,特徴量を可能な限りデータから学習していたい.こういう傾向って Kaggle にいる特徴量作りに長けた人々を相手にした時に不利になるかもしれないけど,今回は上手くいったわ.
というように特徴量を学習できるようなデータはどういうものか?というあたりを真剣に考えないとダメなのではないかなぁと思っているわけです(少なくとも現在使われているフィンガープリントでは難しいでしょう)。
それがどういうものかなぁというあたりを考えていきたいところです。