Chemoinformaticsにおいて深層学習は有用なのか知りたいので勉強しているところ

深層学習が届いていたので読んでいました。

ProductName 深層学習: Deep Learning
麻生 英樹
近代科学社 / 3780円 ( 2015-11-05 )


対象読者としては、レビューにもあるように

ただどちらも内容の難易度は少し高めで、またビジネスへの応用が書いてあるわけでもないので 「ディープラーニングって最近よく聞くけど何がすごいの?」 というような疑問を持つ一般人や分野外の人には向いてないだろう。 あくまでこの分野を研究している人向けの本である。

だと思う。少なくともPRMLは読んでいないとしんどいと思うのだけど、読むと確実に広がるのでこの際ついでに読みましょう☆

ProductName パターン認識と機械学習 上
C.M. ビショップ
丸善出版 / 6825円 ( 2012-04-05 )


ProductName パターン認識と機械学習 下 (ベイズ理論による統計的予測)
C.M. ビショップ
丸善出版 / 8424円 ( 2012-02-29 )


僕自身は分野外ではあるのだけど、タイトルにもあるようにChemoinformaticsへ適用できるかなぁっていうことで興味を持っているので、一部の基礎編と二部の応用編の画像認識、自然言語処理の章が参考になった。

高速文字列解析の時もそうだけど、結局化学構造は文字列表現とかグラフ表現するので、シニフィエ、シニフィアン的な側面があって、こっちの学問も必然的に追いかけないとトレンドキャッチアップできないよねと。しているヒトがあんまりいないけど。

本書を読んでいて、なんとなく自然言語処理で使われているような方法論を取り入れてみればいいのかなぁと思ったけど、ECFP(FCFP)って結局bi-gram,tri-gramみたいなもんだし、自然言語には文法という並びに意味があるけど、化合物の文字列表現の場合は方向がそろっているわけではないからその辺りをどうにかしないと難しいよねと改めて思ったのと。

現状の化合物の表記法が、例えば軌道とかを暗(implicit)に記述できているのかなぁというあたりがちょっと疑問。

そういった点も含めてKaggleのあれに関しては別のエントリでちょっとメモった。

それから、もし資料が作れればMishima.sykで話すかもしれません。

今更KaggleのMerck Molecular Activity Challengeについて

丁度2年くらい無気力が続いていたので今更感があるがMerck Molecular Activity ChallengeについてChemoinformaticsの実務者側からのメッセージ的なものが無いので書いておいてもいいかなと。

一応ググるとDeepLearningが活性予測に超使える的な文脈で語られているが、実際はこの結果を受けて「すげー使える」という印象をもっているChemoinformatistはほとんどいないはずです。二位のチームがSVMを使っているのだけど、精度がほとんど変わらないので、 「あーSVMでいいじゃん」 という印象のほうが自然かと(評価方法はこれ)。こっちも参考に。

優勝者インタビュー

特徴量作りに心血を注いできたデータサイエンティスト憤死

とあるけど、実際はモンストでいうところの 「ミリ残しでギリ勝ちしたわ」 であろうと。

むしろ個人的には、スコアが(例えば画像認識に比べて)非常に低いというところを熟慮しないといけないと考えている。

Feature Engineering,特徴量づくりをほぼやらず,必要最低限の前処理しかしてない

と話しており

じゃぁ、仮に 特徴量の学習をさせたら大幅に精度が向上するのか?

というあたりが非常に気になるわけです。

実際、トレーニングセットを見てみると、記述子よくわからなかったw やたらスパースだし、フィンガープリントじゃなくIntegerだったのでなんかの特徴をカウントしてんのかな?

正直これから特徴量作れないんじゃないかなぁと。既に記述子の段階で必要な情報が落ちているんじゃないかとしか思えなかった。

我々 Deep Learning 屋は特徴量を工夫するよりも,特徴量を可能な限りデータから学習していたい.こういう傾向って Kaggle にいる特徴量作りに長けた人々を相手にした時に不利になるかもしれないけど,今回は上手くいったわ.

というように特徴量を学習できるようなデータはどういうものか?というあたりを真剣に考えないとダメなのではないかなぁと思っているわけです(少なくとも現在使われているフィンガープリントでは難しいでしょう)。

それがどういうものかなぁというあたりを考えていきたいところです。