今更KaggleのMerck Molecular Activity Challengeについて

丁度2年くらい無気力が続いていたので今更感があるがMerck Molecular Activity ChallengeについてChemoinformaticsの実務者側からのメッセージ的なものが無いので書いておいてもいいかなと。

一応ググるとDeepLearningが活性予測に超使える的な文脈で語られているが、実際はこの結果を受けて「すげー使える」という印象をもっているChemoinformatistはほとんどいないはずです。二位のチームがSVMを使っているのだけど、精度がほとんど変わらないので、 「あーSVMでいいじゃん」 という印象のほうが自然かと(評価方法はこれ)。こっちも参考に。

優勝者インタビュー

特徴量作りに心血を注いできたデータサイエンティスト憤死

とあるけど、実際はモンストでいうところの 「ミリ残しでギリ勝ちしたわ」 であろうと。

むしろ個人的には、スコアが(例えば画像認識に比べて)非常に低いというところを熟慮しないといけないと考えている。

Feature Engineering,特徴量づくりをほぼやらず,必要最低限の前処理しかしてない

と話しており

じゃぁ、仮に 特徴量の学習をさせたら大幅に精度が向上するのか?

というあたりが非常に気になるわけです。

実際、トレーニングセットを見てみると、記述子よくわからなかったw やたらスパースだし、フィンガープリントじゃなくIntegerだったのでなんかの特徴をカウントしてんのかな?

正直これから特徴量作れないんじゃないかなぁと。既に記述子の段階で必要な情報が落ちているんじゃないかとしか思えなかった。

我々 Deep Learning 屋は特徴量を工夫するよりも,特徴量を可能な限りデータから学習していたい.こういう傾向って Kaggle にいる特徴量作りに長けた人々を相手にした時に不利になるかもしれないけど,今回は上手くいったわ.

というように特徴量を学習できるようなデータはどういうものか?というあたりを真剣に考えないとダメなのではないかなぁと思っているわけです(少なくとも現在使われているフィンガープリントでは難しいでしょう)。

それがどういうものかなぁというあたりを考えていきたいところです。

再来週末はMishima.sykです

今回はそこそこの人数が集まりそうですし、初参加の方も多いので楽しそうです。

懇親会は(忘年会シーズン+新規オープンの店で混むだろうから)多分当日の追加は無理なので申し込みはお早めに。来週くらいに締め切るかもしれません。

それから演題も絶賛募集中です。

僕はElectronの話か可視化の話をする予定です。 DeepLearningの話はこの前しちゃったからなぁ…TensorFlowの話を誰かしてくれてもありがたい。

可視化の話だとSpotfireとかCytoscapeではやりにくい部分をD3.jsのようなライブラリを使ってやるのが吉とか、インフォグラフィックとどう使い分けるかみたいな抽象的な話になりそうだけど、ネタを挿入しにくいから躊躇している。

笛とかニャンピョウ絡ませるの無理あるからなぁ…w

Mishima syk #7やります

前回の反省を踏まえて今回は早めに告知をw

僕はElectronの話をしようかなぁ。皆様の発表エントリをお待ちしています。

最近blogも放置気味なのでそろそろ更新頻度をあげていきたい(かも…)

Mishima.syk #6 やりました

参加した皆様お疲れ様でした。色々と面白い話が聞けて楽しかったです。

僕は分子設計を軽くディスってきましたw 本当にもっと頑張って欲しいですね。リードオプティマイゼーションのスタンスからFMOを使っているんだけど、もっとアーリーな段階での使い方の議論は新鮮だったので今度試してみたい。

あとは告知の仕方に問題があったので改善したい。事前に知っていれば参加したのにと何人かのヒトに言われたので。twitterやれとしか言えないが、それも難しいでしょうからメールを送るとか考えないとあかんのかな…

懇親会で興味を伺ったらディプラーニングに注目しているヒトが多いようなので次回はそれ系のネタを集めようかなと思っています。

反省会は「鈴木屋」か「やごみ」でやりましょうw

Mishima.syk #6やります

今回は某WSの次の日にしました。

既に決まっている内容はOpenEye Toolokitの紹介(ハンズオンあり)とFMOの話(僕がします)なのでワンランクアップを狙うメディシナルケミスト(not ケミスト)には楽しいと思います。そしてSBDDerにとっても役立つと思います。

ケミストもSBDDerも自分の知識の中でファーマコフォアというものを解釈しがちで、(あっても弱いような微妙な角度の)水素結合を大事にしたり、Cl-πとかいう微妙な相互作用を強いものと認識したがったりしてアレなんだよねーっていう残念な思いをします。FMOで計算するとそのあたり定量的に数値が出るのでスッキリしますね。

Mishima.syk #5やりました

発表者の方、参加者の方お疲れ様でした。今回もとてもおもしろい話が聞けて満足でした。

先週の会の直前にingressのレベルがあがったので、次のレベルが上がるタイミングで更新しようとしたらちょうど一週間経ってしまった。現在レベル4…(二次会でingressの色々を聞いたので多少効率よくAP獲得できるようになったかなと。)

とはいえ、うちの近所は対立組織が強くて、なかなかCFつくったり出来なくてAP獲得率が良くないです…

お昼ごはんは五徹

1426332589

懇親会は、「ごめんね青春」でチラチラ出てきたらしいところ

満足すぎるボリューム☆

1426332591

1426332592

1426332594

今週末はMishima.syk #5です

週末までには犬グレスはレベル3に上げておきたい(三島で破壊活動してみたいのでw)。

時間が余るようだったら 「あたらしいキーコンパウンドすいていのしかた」 という題で、patinformatics関連の発表でもしようかなと思っています。MMPネットワークからのキーコンパウンド推定のアイデアですが、個人的にはCSA(Molecular idle)とFOGをミックスした感じのアルゴリズムだろうなと感じているので、わりと面白いんじゃないかなーとは思っているんですが…

ProductName あたらしいみかんのむきかた
岡田 好弘
小学館 / 1080円 ( 2010-11-16 )


Mishima.syk #5やります

最近モンストばかりですが、Mishima.sykの次回の開催は3/7となりますので、参加をお待ちしています。

内容はまだ確定していませんがchemoinformaticsとbioinformaticsまわりになるのではないかと。

僕も何か話せればいいなと思っていますが、モンストしかしてないからなぁ…w

息子と阿修羅をやっつけにいくという冒険談くらいしかw

尚、先ほど二体目のハンターキングに神化させたので、ヤマタケソロで行けるかな?

ぬらりひょんも手に入れたのでイザナミはソロで行けそう。

1423125381

実験医学増刊 Vol.32 No.20 今日から使える! データベース・ウェブツール 達人になるための実践ガイド100

実験医学の増刊号です、meso本を見て知った。只今絶賛予約受付中です☆

ナニゲに実験医学に記事を載せるのは二度目だったりする。

前回の記事はバイオインフォマティクス的な話題で、ゲノムの配列から、以下に創薬ターゲット(キナーゼとかプロテアーゼとか)の遺伝子を探すかという話だったと思う。そういえばこの前もそういうイメージを保たれていたので、筋金入りの社内ニートというイメージを定着させたい。