今更KaggleのMerck Molecular Activity Challengeについて

丁度2年くらい無気力が続いていたので今更感があるがMerck Molecular Activity ChallengeについてChemoinformaticsの実務者側からのメッセージ的なものが無いので書いておいてもいいかなと。

一応ググるとDeepLearningが活性予測に超使える的な文脈で語られているが、実際はこの結果を受けて「すげー使える」という印象をもっているChemoinformatistはほとんどいないはずです。二位のチームがSVMを使っているのだけど、精度がほとんど変わらないので、 「あーSVMでいいじゃん」 という印象のほうが自然かと(評価方法はこれ)。こっちも参考に。

優勝者インタビュー

特徴量作りに心血を注いできたデータサイエンティスト憤死

とあるけど、実際はモンストでいうところの 「ミリ残しでギリ勝ちしたわ」 であろうと。

むしろ個人的には、スコアが(例えば画像認識に比べて)非常に低いというところを熟慮しないといけないと考えている。

Feature Engineering,特徴量づくりをほぼやらず,必要最低限の前処理しかしてない

と話しており

じゃぁ、仮に 特徴量の学習をさせたら大幅に精度が向上するのか?

というあたりが非常に気になるわけです。

実際、トレーニングセットを見てみると、記述子よくわからなかったw やたらスパースだし、フィンガープリントじゃなくIntegerだったのでなんかの特徴をカウントしてんのかな?

正直これから特徴量作れないんじゃないかなぁと。既に記述子の段階で必要な情報が落ちているんじゃないかとしか思えなかった。

我々 Deep Learning 屋は特徴量を工夫するよりも,特徴量を可能な限りデータから学習していたい.こういう傾向って Kaggle にいる特徴量作りに長けた人々を相手にした時に不利になるかもしれないけど,今回は上手くいったわ.

というように特徴量を学習できるようなデータはどういうものか?というあたりを真剣に考えないとダメなのではないかなぁと思っているわけです(少なくとも現在使われているフィンガープリントでは難しいでしょう)。

それがどういうものかなぁというあたりを考えていきたいところです。

やる気が出てきたのでやる気の無さをD3.jsで可視化してみた

このブログは12年以上続けているのだけど、ここ2年程モチベーションが下がりまくっていたので、エントリ数をバーチャートにしてみた。

本当は左側に年を付けたかったのだけどtwitter-bootstrapが悪さしているみたいで、おかしなレイアウトになってしまうので諦めた。

来年はコード書いたり色々したい。

D3.js楽しいですね。

エンジニアのための データ可視化

Amazonでは低評価がちらちら目立ちますが、ここらへんを楽しく読めるなら買うと良いかと思います。視覚変数、視覚記号のあたりがすっきりまとまっていて参考になった。

D3.jsを手取り足取り教えている本ではなく、そもそもCoffeeScriptもD3.jsも知っているものとして取り扱っている感じです。

入門として読むならD3をはじめようを読んだほうがいいだろうし、CoffeeScriptを習いたければモダンガイドでも読めばいいと思います。

selectAll().data().enter()のわかりやすい説明

これはわかりやすい

これどういう本だったか忘れたw(昔読んだのに)

ProductName Interactive Data Visualization for the Web
Scott Murray
Oreilly & Associates Inc / 2997円 ( 2013-04-02 )


来週末はMishima.sykです

懇親会は今週末で締め切るので参加を悩んでいる方はお早めに。

ズガニを茹でた

いつも行っている魚屋さんに寄ったら、ズガニが入荷していたので買ってみた。

魚屋さん情報だと、

  • ズガニは寄生虫が怖いので30分ぐらい茹でたほうがいい
  • 氷水につけて仮死状態にしてから茹でると足が外れない(急激に温度を上げると死ぬときに足が取れるが、弱火でも外れる時が多い)

との事だったけど、ごく弱火で茹でてみた結果すべて足が外れなかったのでOK

ズガニはこんな感じで結構でかいです。(娘の手)

1448801232

鍋に入れた時と茹で上がり。綺麗な赤になるので織部のお皿に盛り付けると映えますね(写真は織部ではない、ただの安物w)

1448801233 1448801235

茹で汁はご飯を炊く時につかってみたらいい感じの味わいになった。

味噌汁にも使ってみたんだけど、茹でるときに塩をかなり入れたせいで味噌汁自体がしょっぱくてあまり美味しくなかった。検討の余地ありですな。

そろそろ旬もすぎるだろうから来年リベンジかな… 来週も入荷していれば買ってしまうかもしれないくらい美味しかった。コスパもいいだろう(上海蟹買うことを考えたら…)

MBAのSSD換装した

色々理由はあるんだけどここ二年くらいコード書く気が起こらなかった。

まぁそのうちの理由の一つは、こんな感じで手持ちのMBAのディスクが常にフルを張り付いていたというのがある。常に容量を気にしながら新しいライブラリを導入したり、ソフトウェアの更新したりするのは萎えるし、MP3を気軽に買えないっていうのも辛い(そのタイミングでD'n'B Arenaの購買サイトが閉じたのも結構な打撃だったし)。

$ df
Filesystem    512-blocks      Used Available Capacity  iused    ifree %iused  Mounted on
/dev/disk0s2   488555536 467626280  20417256    96% 58517283  2552157   96%   /
devfs                375       375         0   100%      650        0  100%   /dev
map -hosts             0         0         0   100%        0        0  100%   /net
map auto_home          0         0         0   100%        0        0  100%   /home

流石に今年の冬は新しいノートを新調しないとと思っていたので、新しいの買うかなーと思っていたけど、深層学習で遊びたいしなーとGPUつき見てみたら余裕の20万超えで躊躇してしまった。ちょっと深層学習はやりたいけど、ちょっと遊ぶだけだったらAWSでもいいかなと思っている。

そしてそんな折、換装できることを教えてもらったので早速ポチった。

換装後

$ df
Filesystem    512-blocks      Used Available Capacity  iused    ifree %iused  Mounted on
/dev/disk0s2   936023872 466405656 469106216    50% 58364705 58638277   50%   /
devfs                366       366         0   100%      634        0  100%   /dev
map -hosts             0         0         0   100%        0        0  100%   /net
map auto_home          0         0         0   100%        0        0  100%   /home

やばい、快適すぎる。

早速Haskell Platformの最新版入れた☆

楽しい☆

Emacsでファイル全体をインデント

最近HTMLを生で書くように(hamlでもなくjadeでもなく)なったのでインデントが面倒くさいがこれをなかなか覚えられないのでメモ

pythonはあとからインデントする必要がないし、javascriptとかもモードでよろしくやってくれるし 「なんだこの汚いコードは…」 って思えるのはHTMLくらい

あとHTMLにscriptタグでjavascript書くとインデントとか補完が効かなくてイライラするから、外部ファイルに書いてるんだけど、scriptタグの中だけjavascriptモードにするとかいう設定ってできるのかな?

IE11でD3.jsを使うときにmetaタグでedgeしておかないといけない

職場のIEが最近やっとiE8->IE11にあがったので、やたらとD3.jsばかりいじっているのだけど、IE11の場合HTMLソースに

meta http-equiv="X-UA-Compatible" content="IE=edge"

って入れておかないとちゃんと動かないんだよね。F12押して、モードみるとEdgeになってんのにさ

なんか開発ツールの使いかた間違っているんだろうか…

再来週末はMishima.sykです

今回はそこそこの人数が集まりそうですし、初参加の方も多いので楽しそうです。

懇親会は(忘年会シーズン+新規オープンの店で混むだろうから)多分当日の追加は無理なので申し込みはお早めに。来週くらいに締め切るかもしれません。

それから演題も絶賛募集中です。

僕はElectronの話か可視化の話をする予定です。 DeepLearningの話はこの前しちゃったからなぁ…TensorFlowの話を誰かしてくれてもありがたい。

可視化の話だとSpotfireとかCytoscapeではやりにくい部分をD3.jsのようなライブラリを使ってやるのが吉とか、インフォグラフィックとどう使い分けるかみたいな抽象的な話になりそうだけど、ネタを挿入しにくいから躊躇している。

笛とかニャンピョウ絡ませるの無理あるからなぁ…w