「AI創薬・ビッグデータ創薬」を読んだ

みんな大好きエーアイそうやっくの本が出たので、早速購入して読んでみた。

ProductName AI創薬・ビッグデータ創薬
田中 博
薬事日報社 / 2160円 ( 2017-06-23 )


薬事日報社からの出版だけど、タイトルがキャッチー過ぎてどうなんだろう?と思ったが、内容は良かった。 でもタイトルと内容があっているのかというと正直微妙なところである。というのは世間一般で期待感の高まっているAI創薬と本書でのAI創薬の定義がちょっと違うからかなと思う。

自分がタイトルつけるなら「ゲノム創薬2.0」とかそんな感じにするかと思った。実際1,2章はそういう内容だった。

第一章ではビッグデータを「従来の医療情報のビッグデータ」と「新しい生命医療情報のビッグデータ」の2つに分けて考え、後者の方はGWASやNGSと絡めて予防医療とか層別つまりpersonal medicineの方向に着実に向かっているということが丁寧にかかれていて分かりやすかった。

GWASのデータからターゲット探索するのは最近批判されていたけど、やっぱり大規模スタディーからなんかいいものみつかるんじゃないかなーと期待する人は一定数いるけど、ほんとのところどうなんだろう?

第二章はドラッグリポジショニングの話で、製薬企業の人だったらだいたい知っている話だと思う。一点気になったのはビッグデータ創薬という言葉が何度も出てくる割にその定義がなされていないのと、AI創薬とビッグデータ創薬の違いに関しても触れられていなかった。

新しい概念として提唱しておいてその定義に関する説明がないのはなかなかチャレンジングだとは思う。

個人的に面白かったのは「ヒトの蛋白質相互作用ネットワークはスケールフリーであると同時に三層構造をなしている」という考え方で、薬剤標的タンパク質は中程度の次数の蛋白質に集中しているという話だった。次数の高いハブ蛋白を標的にすると死ぬからだろうという内容だった。

発現のデータの場合にはどうなるんだろうか?と興味深い。

第三章がDeep Learningの話である。本書の内容的に技術的な些細な間違いの指摘は、言いたいこと全体からするとどうでもいいように見えるが、節の主張の根拠が間違っているように思うので疑問に思った内容を記しておく。

  • 第1節 人工知能の発展
  • 第2節 ディープラーニングの革命性
  • 第3節 AI創薬はもう実現できる

という構成だった。

第1節は歴史話で第2説はデイープラーニングのなにが有用なのか?っていう話で第三節はAI創薬=ターゲットファインディングとしてターゲット探索に使えるという話だった。

引っかかったのは第2節である。

p.189

これに対して、ディープラーニングは、この「教師あり学習」に依拠しない。それは人間が与えた正解によってではなく、データそのものから学習する方式である。ディープラーニングでまず行われるのは「教師なし学習」である。正解を与えない。人間が与えた特徴ではなくて、自ら大量のデータを学び、自らデータに内在する特徴表現を探す。すなわち、内在的な特徴表現の学習をニューラルネットワーク自身が自動的に行う。

これはp.192で述べているようにオートエンコーダーのことを指していると思うのだが、あれは単純に予め特徴抽出しやすい初期値を与えるテクニックだと理解している。実際Merckのペーパーでもオートエンコーダ でもオートエンコーダ使おうが使うまいが精度はほとんど変わんなかったという結果だしてなかったっけ?

別の学会で発表したときに別の方からも「オートエンコーダ使わないから精度あがんないんだよ」って言われたことがあったので気になった。

こんな記述もあるので「オートエンコーダ方式と呼ばれるディープラーニングの成功の本質的な部分である(p.192)」はちょっと言い過ぎかなと思った。

では、オートエンコーダが今のディープラーニングを支えているのかというと、そうでもなさそうだ。深層学習ライブラリKerasのオートエンコーダのチュートリアルには、もう今では実用的な用途としてはめったに使われてないと書かれている。オートエンコーダは画像のノイズ除去や可視化程度でしか利用目的がないとされている。

実は、その後ディープラーニングのアルゴリズムは改良を重ね、事前学習をせずにランダム値を採用しても十分な精度が出るようになったのだ。

最初ざっと読んだ時に

と書いたけど、書評書くためにさらに二度ほど読んでみて、インフォマティシャンとしての知見を広げるためにケモインフォの人達も読むべきという結論に達したので皆さん買って読みましょう。

ProductName AI創薬・ビッグデータ創薬
田中 博
薬事日報社 / 2160円 ( 2017-06-23 )


余談ですが、個人的にはゲノム創薬が着実に進んでいて感慨深いです。ちょっと前に回顧エントリー書いたんだけど、その当時まさにProtein-Protein Interactionのオーム的な手法でターゲット探索やった結果、壮大にコケて、さらに超無駄遣いした余波でバイオインフォ部門が消えて(というかもともとなかったけどw)そのうち、一緒にやってた「この木なんの木」のライフサイエンス部門も消失したりして、「これはあかんで〜」みたいな雰囲気だったけどサイエンスは着実に進んでいてよかったなぁと思った。

コンソとかキャリアとか

分かる人にだけ分かればいい話というか駄文です。ちょっとそれ系の話が続いたので、実際転職して今の会社に入って感じたことをメモっておきます。

コンソの意義は何か?

前の会社も、今の会社も普通にコンソーシアムに入ります。ではコンソーシアムの参加意義は何なのでしょう?

たいてい、「先端技術の導入、プレコンペティティブな知識の共有」といったような如何にもなセンテンスが出てきますが実際は違うと思います。

「周回遅れを避ける」

これに尽きると思います。その技術を持っているのであれば「教えて君」的な人達の相手をする暇なんてありません。独自に進んでいくか、先端を走っている同士で共同研究すればいいので船頭は増やす必要はないです。

なので、新規参入でコンソを利用するのはありだけど、それは先頭を走っているというよりはサイエンティストとしては二流の位置にいるということを強く感じたほうがいいでしょう。

キャリア?

キャリアはキャリアブルスキルの略です、意外に認識されていないことが多いですが。つまり、他社に移ってもそのまま使えるスキルのことだと考えて良いでしょう。

他社に移っても使えるかどうかは、他社の現場のヒトに判断されることが多いと思います(当たり前ですが)

なので、外部発表の機会があれば積極的に発表しておくほうが良いと思います。その会社にマッチするかどうかの判断に使うことも出来ますし、何が出来て何が出来ないか明確になるので先方からどういう技術で来て欲しいというような具体的な話にすぐなるのでわかりやすいです。

外部発表しないで自分を認知してもらうというのは結構ハードル高いと思います。論文出すとかはもちろんありますが、なにかあった時に誘ってくれるのはそういうコネクションなので、そこら辺は若いうちから意識しておいたほうがいいと思います。

なにより、他社の優秀な人達とディスカッションするのは楽しいし、刺激になりますしね☆

なので、興味のある人は観光がてら遊びに来るといいと思います。

その昔ゲノム創薬バブルというものがありまして…

ググってもあんま出てこないのでメモっておきます。蛋白質核酸酵素のバックナンバーの2000年あたりの総説を眺めればその当時の状況が少しわかるかもしれません。

私が前の会社に入社したころ、ちょうどヒトゲノムが解読終了するってあたりで、バイオインフォ等のIT技術に対する期待感の高まりというのが凄かったわけです。バイオインフォの部署もポコポコ出来たし、そのあたりへの投資も凄かったように思う。だってセレラ・ジェノミクスのヒトゲノムデータアクセス費用ってビビる額だったのに中小企業のファーマでもアクセスするための投資をすべきかって本気で考えてたくらい。

冷静に考えるとみんな頭湧いてたな…w

あとゲノムデータとか使うからストレージサーバーの増強とか普通にやってたよね。クラスタくんだり、グリッド・コンピューティングもあったな。

その当時にゲノム創薬に期待されていたのは

  • 新薬開発期間の短縮(ITとかも駆使して)
  • 創薬ターゲットの増大(ITとかも駆使して)

あたりが、すっごい言われてたと思うんだけど(たんぱく3000プロジェクトもあったし)、

  • なんで現在、創薬ターゲットの枯渇とか言われてんの?
  • 新薬開発期間が短縮しましたっていうレポート出てないのはなんで?
  • 企業のバイオインフォ部署が縮小されたり消滅した会社も結構あると思うんだけど

各社あの頃の投資に対してどういう評価をしたんだろう?そのうえでどういうスタンス、期待感で今の機械学習ブームに乗っかっていくのか非常に興味があるんですよねー。

Ingress復活

先々週くらいに突然、二年前に申請したポータルが受理されてちょっと遊んでいたら、COMMでお久しぶりですなどと歓迎感満載の挨拶をいただいたりしてIngress熱が復活した。

ちょうど1年くらい前にlevel 14到達して、その後にPokemon GOやり始めたり、転職で交通手段とか生活のタイミングとかが変わったりして位置ゲーからはずっと離れていたんだけど、Ingressはやっぱり面白いですね。

Adoboと吉原祇園祭と北山

前回の出張できたやまに行った。

ちょっとつまんで飲んだ。サイコー

1497269851 1497269853

漬物うまし

1497269856 1497269858

シュトウクリームチーズという謎のツマミ

1497269861

先週末は吉原祇園祭だけど、今時のキッズは携帯ゲームメインですw

1497269863

日曜はadoboを作った。日本語に訳すと豚の酢醤油煮といったところですね。冷蔵庫に大根が余っていたのでじゃがいもと一緒に投入した。

1497269866 1497269868

月桂樹と胡椒がいい感じですね。日本風だとこれらの代わりに味醂とか日本酒とか砂糖になるんだろうけど。

1497269871

フィリピン料理だとお酒とか入れるんだろうか?

深層生成モデルを創薬に適用できるかどうか?

深層生成モデルとかでSMILESをいじってそれっぽい構造を発生させるのが流行っているようですが。

そもそも構造を自動生成しようとする試みは、かなり昔からあって、SBDD的なアプローチ(レイチェルだっけ?開発者が娘の名前を付けたって言ってたのは覚えているが)したり、生物学的等価性やSMARTSを使った方法とか、ちょっと前だとMMPを使った置換ルールを自動アプライする方法とかまぁ普通にあるわけです。特にMMPを使った方法は自社のデータベースから置換ルールを抽出してくるのでメドケム知識の再利用としても意味があると思う。

しかし、これらの方法論は

  • 明らかに合成できない構造を提示してくる
  • ドラッグライクでない構造が多すぎて、マニュアルフィルタリングが大変すぎる

という問題があることが知られている。深層生成モデルとかでSMILESをいじる方法もおそらく一緒で、じゃぁ何が優れているんだ?という疑問から今までスルーしていた。画像生成は夢があるけど、SMILES生成は「ふーん、で?」っていう気持ち。あとはSMILESいじりはケミストリー的な文脈を読まないのでマジックメチル等の構造変化要因みたいな部分を全く考慮できないから、メディシナルケミストの代わりになんかなれないなと思っている。

それから、そもそも提案した化合物をどうやって作るんだ?という大きな問題がある。分子設計やっていて一番めんどくさいのがこの部分だからね。逆に言うとこの部分なんとかなるなら生成モデルはちょっと魅力はあると思っている。

というわけで、次回のMishima.sykでは「SMILES生成モデルを使ってみた」的な発表をしてみようかなと思っているけど、MBAでトレーニングしたら唸りをあげる割には全然学習が進まないので凹んでいる。

ChEMBL23導入備忘録

ChEMBL 23がリリースされたのでMBAに入れておこうかなとしたら、psqlがreadline絡みのエラーで壊れていたのでpostgresを再インストールした。それからchemblのダンプファイルのrestoreのやり方がちょっと変更になっていたので備忘録

postgresqlをbrewで入れ直す

最後の三行は適当。--forceで警告が出たから打ってみた。

brew uninstall postgres
brew install postgres
brew link postgres --force
brew unlink postgresql
brew link --overwrite postgresql

ChEMBL23をpostgresに入れる

ダンプファイルをダウンロードしたら解凍して

createdb chembl_23
psql -l
pg_restore -d chembl_23 chembl_23_postgresql.dmp

こんな感じで更新できた。

ProductName We Are Virtual
Xilent
Audioporn Records / ?円 ( 2015-10-16 )


Mishima.syk #10やります

次回の日程は7/8(sat)に決定しました。参加登録は以下からお願いします。

2回程ハンズオンが続いたので、今回は発表メインでいこうかと思います。思う存分ネタをぶっ込んで下さい。

僕はpymol関連の話かpygamessをRDKitに対応させた話とかそんなのを出来ればいいなと思っているけど、どっちもまだ実装途中なんだよなぁ。

Splatoon2予約した

やるかどうかはわからんけど。ターゲットユーザーは息子と娘ですw

ProductName Splatoon 2 (スプラトゥーン2)

任天堂 / 6458円 ( 2017-07-21 )


microSDも用意しておいたほうがいいんだろうか

Amazonのサイト見てたのでついでに機械学習の本もポチってしまった

redmine.tokyoに参加してきました

最近自分でやっている勉強会にしか参加してなかったので、久しぶり。

そしてなにげにredmine.tokyoは初めてでした。

色々参考になったけど、個人的に気になったのは

  • mroongaで検索するってことはチケットに知識が溜まっているからだと思うんだけど、それってstack overflowクローンみたいなシステムに落とさないのかな?
  • backlogsプラグイン使っているとチケットにコメント入れないと思うんだけどそういう場合どこに知識を貯めるんだろうか?

ってあたりでした。redmineってあんまりスクラム開発には向いてないよねーって思いました。

次の日はカーンケバブビリヤニですよ。ビリヤニの美味しさはわかっているので今回ニハリにしてみた。

1494850960 1494850962

レモンの酸味は慣れが必要だと思った。あと量が多いので今回はちょっと油断した。

1494850964 1494850967

次回はビリヤニを堪能する予定。

なお、グミマロのブランドが終了していた。