29 06 2017 chemoinformatics Tweet
みんな大好きエーアイそうやっくの本が出たので、早速購入して読んでみた。
薬事日報社からの出版だけど、タイトルがキャッチー過ぎてどうなんだろう?と思ったが、内容は良かった。 でもタイトルと内容があっているのかというと正直微妙なところである。というのは世間一般で期待感の高まっているAI創薬と本書でのAI創薬の定義がちょっと違うからかなと思う。
自分がタイトルつけるなら「ゲノム創薬2.0」とかそんな感じにするかと思った。実際1,2章はそういう内容だった。
第一章ではビッグデータを「従来の医療情報のビッグデータ」と「新しい生命医療情報のビッグデータ」の2つに分けて考え、後者の方はGWASやNGSと絡めて予防医療とか層別つまりpersonal medicineの方向に着実に向かっているということが丁寧にかかれていて分かりやすかった。
GWASのデータからターゲット探索するのは最近批判されていたけど、やっぱり大規模スタディーからなんかいいものみつかるんじゃないかなーと期待する人は一定数いるけど、ほんとのところどうなんだろう?
第二章はドラッグリポジショニングの話で、製薬企業の人だったらだいたい知っている話だと思う。一点気になったのはビッグデータ創薬という言葉が何度も出てくる割にその定義がなされていないのと、AI創薬とビッグデータ創薬の違いに関しても触れられていなかった。
新しい概念として提唱しておいてその定義に関する説明がないのはなかなかチャレンジングだとは思う。
個人的に面白かったのは「ヒトの蛋白質相互作用ネットワークはスケールフリーであると同時に三層構造をなしている」という考え方で、薬剤標的タンパク質は中程度の次数の蛋白質に集中しているという話だった。次数の高いハブ蛋白を標的にすると死ぬからだろうという内容だった。
発現のデータの場合にはどうなるんだろうか?と興味深い。
第三章がDeep Learningの話である。本書の内容的に技術的な些細な間違いの指摘は、言いたいこと全体からするとどうでもいいように見えるが、節の主張の根拠が間違っているように思うので疑問に思った内容を記しておく。
- 第1節 人工知能の発展
- 第2節 ディープラーニングの革命性
- 第3節 AI創薬はもう実現できる
という構成だった。
第1節は歴史話で第2説はデイープラーニングのなにが有用なのか?っていう話で第三節はAI創薬=ターゲットファインディングとしてターゲット探索に使えるという話だった。
引っかかったのは第2節である。
p.189
これに対して、ディープラーニングは、この「教師あり学習」に依拠しない。それは人間が与えた正解によってではなく、データそのものから学習する方式である。ディープラーニングでまず行われるのは「教師なし学習」である。正解を与えない。人間が与えた特徴ではなくて、自ら大量のデータを学び、自らデータに内在する特徴表現を探す。すなわち、内在的な特徴表現の学習をニューラルネットワーク自身が自動的に行う。
これはp.192で述べているようにオートエンコーダーのことを指していると思うのだが、あれは単純に予め特徴抽出しやすい初期値を与えるテクニックだと理解している。実際Merckのペーパーでもオートエンコーダ でもオートエンコーダ使おうが使うまいが精度はほとんど変わんなかったという結果だしてなかったっけ?
別の学会で発表したときに別の方からも「オートエンコーダ使わないから精度あがんないんだよ」って言われたことがあったので気になった。
こんな記述もあるので「オートエンコーダ方式と呼ばれるディープラーニングの成功の本質的な部分である(p.192)」はちょっと言い過ぎかなと思った。
では、オートエンコーダが今のディープラーニングを支えているのかというと、そうでもなさそうだ。深層学習ライブラリKerasのオートエンコーダのチュートリアルには、もう今では実用的な用途としてはめったに使われてないと書かれている。オートエンコーダは画像のノイズ除去や可視化程度でしか利用目的がないとされている。
実は、その後ディープラーニングのアルゴリズムは改良を重ね、事前学習をせずにランダム値を採用しても十分な精度が出るようになったのだ。
最初ざっと読んだ時に
AI創薬の本読んだ。内容は良かったが正確なタイトルは「ゲノム創薬2.0」とかそんなのが適切だと思う。著者の提唱しているAI創薬は「ターゲットファインディング、ドラッグリポジショニング」なのでケモインフォ界隈のヒトにはあまり興味がないかも
— kzfm (@fmkz___) 2017年6月27日
と書いたけど、書評書くためにさらに二度ほど読んでみて、インフォマティシャンとしての知見を広げるためにケモインフォの人達も読むべきという結論に達したので皆さん買って読みましょう。
余談ですが、個人的にはゲノム創薬が着実に進んでいて感慨深いです。ちょっと前に回顧エントリー書いたんだけど、その当時まさにProtein-Protein Interactionのオーム的な手法でターゲット探索やった結果、壮大にコケて、さらに超無駄遣いした余波でバイオインフォ部門が消えて(というかもともとなかったけどw)そのうち、一緒にやってた「この木なんの木」のライフサイエンス部門も消失したりして、「これはあかんで〜」みたいな雰囲気だったけどサイエンスは着実に進んでいてよかったなぁと思った。