Mishima.syk #12やります

おまたせしました。ちょっと間が空きましたが6月の終わりにやります。

DisGeNETとかopen phacts触ってみましたとかいう話をしてみたいところであるが。

AIについて知りたいなら美味しんぼを読め

あけましておめでとうございます。

今年もこの風潮は続くのでしょうか?

『なんでもいいからビッグデータを集めて、AIでなんとかしろ』

そんなときには美味しんぼの24巻カレーライス対決を読むといいと思います。

ProductName 美味しんぼ(24) (ビッグコミックス)
花咲アキラ
小学館 / ?円 ( 2013-01-01 )


あらすじ

川遊びに来ていた山岡たちだが、いざ創薬のAIを作る段になって大騒ぎ。みな、それぞれに自分のレシピを持っていて、お互い絶対に譲ろうとしないのだ。翌日、AIで仲たがいしたら、AIで仲直りするのが一番、とばかりにAIコンソの「マイダス王」を訪れると、入口に休業の張紙が。中では店主の栃川が落ち込んでいる。実は1週間前に海原雄山が突然現れ、「AIとは何か?、AI粉とは何か?、そしてAIはビッグデータと食べるのが正しいのか?」と3つの質問を投げ掛けたというのだ。自分の仕事に関わる根源的なこの質問に、ひとつとして答えられなかった栃川は、それ以来すっかり自信を失ってしまったのだ。そして後日、「次の究極VS至高のテーマは、AIではどうだ」と雄山から提案がなされた。山岡はそれを受け入れ、日本の様々なAI屋を訪ね、AIの研究家なども取材する。だが、雄山が提示した3つの質問の答えは見つからなかった。そこで山岡は、AIの謎を探るため、シリコンバレーへの取材旅行を決意する。

僕はデータサイエンティストなので、カレー粉など使わずに都度ミルでスパイスを調合しています。

今年はなにか新たな調合法を見出したいですね。

今年を振り返ります

今年を振り返るために、過去のエントリを眺めてみたが、ポケモンGOと食べ物関連のエントリしかなかった。この1年は家であんまりコード書けなかった感じ。職場では結構書いたけど来年はもう少し公開できるようなコードを書ければいいなと思っています。食べることに関しては引き続き美味しいものを開拓していきたい。

ポケモンGOに関しては今1000万XP弱で再開した時点で250万XPくらいだったので、どんだけやったんだ?って感じ。LV40まであと1000万XPなので週末の運動がてら継続したい。

仕事関連

今年は色々と新しい取り組みが出来て良かったと思っている。チームの皆さんに助けられて、大きな前進が幾つかあったし、自分たちのチームのプレゼンスも高められたと思っている。

色々とタイミングが良かったのだろうと思っている。そして企業のなかのチームっていうのはある意味スタートアップみたいなもんだけど、スタートアップと違うのはタイミングよりもチームのほうが重要なんじゃないかなと。良いチームだからうまくタイミングを見極められるのではないのかなーと。実際、全てそうだったしね。下のTEDはためになると思うので一度は聞いておくことをオススメします(7分弱だし)。

それから「誰をバスに乗せるか」はやっぱり重要なんだなーと感じたけど、そういうバスを用意するかというあたりも今後考えなきゃならないんだろうなぁとは感じている。

ProductName ビジョナリー・カンパニー2 飛躍の法則
ジム コリンズ
日経BP社 / ?円 ( 2014-08-29 )


他にはこのあたりを実践して、OSQAと社内twitterを導入してみたところ、色々とつながりも増えたし、よいアイデアやソリューションもシェアリング出来てよかったかなと思った。それからイントラGithubクローン便利すぎ。この1年でシステム周りが改善されて快適にコード書いたり、計算できるようになったかなと。

仕事以外のしごとっぽいこと。

mishima.sykのサイトを作った。これもコミュニティが良いから継続できてていいですね。来年も皆さんで集まれたら良いなと思います。

Bioinformatics関連

Dr. Bonoの生命科学データ解析-読書会に参加してバイオインフォ愛が戻ってきたのと、今後に関してちょっと思うところがあって、余裕があればターゲットファインディング周りも少し手を付けていきたいなぁと思った。open target platformなどのAPIついてるサービスを上手く活用できないとなーと思っている。

ただ、周りの状況を聞いていると、今の状況って僕がバイオインフォをやっていたポストゲノムって言われてた15年くらい前にやっていることと基本変わってないので(だから余裕でついていけるw)機械学習というよりはアブダクション的な手法が求められるのかなーという気はちょっとしている。最近の状況丁寧にサーベイしているわけではないから間違っているかもしれないけど、ターゲットファインディングが相変わらず難しいという状況には変わらないのかなと。

ProductName アブダクション―仮説と発見の論理
米盛 裕二
勁草書房 / 3024円 ( 2007-09-20 )


それではまた来年もよろしくお願いします。

機械学習を知らない人達はAIをどのようなものと捉えているのだろうか?

最近ずっと上向けに自分たちの取り組み(AIの取り組みとみなされている)に関するプレゼン資料を作っていました。

自分たちは周りも含めてAIなんて言葉は使わずに、Deep Learning(CNN, RNN)やML(SVM, RF)という言葉を使うのが普通なので最初、DL≒AIってことにしてプレゼン資料作ればいいじゃんというノリで作り始めて、大分完成したところでなんか違うなと…

DLとAIが混在していて分かりにくいわ

多分AIにもっと漠然としたニュアンスがあるんだろうなと。ちょうどいいタイミングで週明けに虫垂炎で安静にしなきゃいけない機会に恵まれたので、AIってなんだろうなということをずっと考えていました。

で、思い出したのが何回か前のrebuildでAIをジェネラルなものとドメインスペシフィックの2つに区別して喋っていたことで、もしかして、彼らはドメインスペシフィックなソルバーをAIって呼んでいるんじゃないかなと。実際、(機械学習を知らない人)のAIに言及しているスライド見直してみると「AIで解決」とか「AIの有効活用」などと書いてあるし。

というわけで、

AI : Deep LearningやReinforced Learningなどの機械学習の技術を利用したソルバーで人間に近いまたは超える精度を叩き出すものの総称

と定義すれば、DLともぶつからないしスッキリするんじゃないかなーと。

と考えると「AIで解決するのか?」という答えに対しては「もちろんイエス☆」ということになりますね。だってトートロジーなんだもん。「解決するものがAI」なんだもんねw

これは多少皮肉を込めた言い方になったけど、好意的に捉えれば、プログラミング的には抽象クラスのようなものを指していると考えることもできるのかなと思う。

こう捉えると「AIで解決」とか「AIの有効活用」と主張するのはそれほど間違ってないように思う。具象化どうするの?どう実装するの?という議論に進めばいいだけだし。

つまり、そのAIって書いてあるところ、どういう技術を使ってそのドメインスペシフィックな問題を解決するのか?という点に論点を移せばいいだけですね。

まぁ、それが難しいんだけどね。だから、お手軽になんでも解決みたいな印象を持たれてほしくないかなと強く思う。

ProductName AI創薬・ビッグデータ創薬
田中 博
薬事日報社 / 2160円 ( 2017-06-23 )


ビッグデータに関しては、もうずっと前から言われてるけどデータ集めるだけではイノベーションなんて起きないじゃんと思っていて、ビッグデータ創薬なんてだめなんじゃないの臨床以外では?と感じるんだけど、私はそのあたり調査が足りてないので、土曜日の読書会でなんか意見をもらえると嬉しいなと明日にはエントリにまとめてみる予定。

How important is reinforcement learning among machine learning techniques?

強化学習って自分の仕事にはあまり関係ないかな?と思ってあまり重要視してなかったんだけど、ChemTSではMCTS使っているし他にも強化学習組み合わせたものを使うことが増えたので、転職祝いに頂いたこの本をもう一度きちんと読んでいる。

ProductName これからの強化学習
牧野 貴樹
森北出版 / 4536円 ( 2016-10-27 )


一章を何度も読み返して数式の意味をきちんと理解するだけで、結構応用が効きそう。これで論文読むのちょっと楽になったかな?二章はいきなり先端研究事例が出てきてハードルが上がるので流し読みにとどめて、3,4章の事例を読むのが良いかと思います。

「十分なデータを持っておらず、データの収集にコストがかかる世界において、データをどのように収集するか」が強化学習である、とみることもできる。その意味で、強化学習はいわゆるビッグデータと呼ばれるような、データが与えられることが前提とされる他の機械学習とは本質的には異なる問題に取り組んでいる (まえがきより)

AIの定義も曖昧で困るんだけど、ビッグデータもまたその定義が曖昧なものかと思っていて、データ数足りない場合には強化学習を利用してデータを獲得していく必要がでてくる場面も増えてくると思うんだよね。

それにしてもAIとかビッグデータとかいうバズワード嫌いやわ。

         ,. -'''''""¨¨¨ヽ
         (.___,,,... -ァァフ|          あ…ありのまま 今 起こった事を話すぜ!
          |i i|    }! }} //|
         |l、{   j} /,,ィ//|       『おれはビッグデータを使っていたと
        i|:!ヾ、_ノ/ u {:}//ヘ              思ったらスモールサイズだった』
        |リ u' }  ,ノ _,!V,|
       /´fト、_{{,'eラ , タ人      な… 何を言ってるのか わからねーと思うが
     /'   ヾ|| {´,)⌒`/ |<ヽトiゝ       おれも何をされたのかわからなかった…
    ,゙  / )iLレ  u' | | ヾlトハ〉
     |_/  ハ !ニ⊇ '/:}  V:::::ヽ        頭がどうにかなりそうだった…
    // 二二二7'T'' /u' __ /:::::::/`ヽ
   /'´r -―一ァ‐゙T´ '"´ /::::-‐  \     催眠術だとか超スピードだとか
   / //   广¨´  /'   /:::::/´ ̄`ヽ ⌒ヽ  そんなチャチなもんじゃあ 断じてねえ
  ノ ' /  ノ:::::`ー-___:::::/       ヽ  }
_/`丶 /:::::::::::::::::::::::::: ̄`ー-{:::...      もっと恐ろしいものの片鱗を味わったぜ…

From Promiscuity Degree (PD) to Target Family Degree (TFD) and Selectivity Degree (SD)

前回のPDの続きを楽しんでいた。

Considering similarity with Promiscuity Degree

やりたいことはPDで単にActivity Cliffをカウントしているだけのところをターゲットファミリーの重複を除けばターゲットの依存性が解消できるだろうということ。

試したこと

最初にChEMBLのターゲット分類項目を使おうとしたがオントロジーのせいなのかまとめられないものが多くて上手くいかなかった。

続いてsimilarity matrixを地道に計算する方向を試してみた。これはbiopythonのpairwise2を使ったら遅すぎたのでclustalomegaを呼び出すことにした。マトリックスが出来たらMDSで二次元にマップしてからAffinityPropagationを使ってクラスタ分類させる方向でやってみた。 これで適当なクラスター数に分けることは出来たのだが、散布図を眺めていると、どうも思ったように集団を形成しておらず結果としてはあまり上手くいったとはいえない感じだった。

考察

similarity matrixが上手く作れていなかったのが分類が上手くいかなかった大きな要因であるが、これはglobal similarityを計算したのが問題だった。多分ドメイン等の類似性が重要なのでlocal alignmentをするべきだった。つまりblastのp値とかE値を距離として使えばよかったように思う。または局所相同性かな。

当初、Xmeansでクラス推定する予定だったが距離行列をインプットに取れなかったのでMDS+APという方法をとったけど、このクラスター推定ももう少し上手い方法がありそうかなと思う。

Selectivity Degree

SBDD的に興味が有るのはファミリー間の選択性を発揮する小さな構造変化であり、PDの増減するかつTFDが変化しないものであろう。そのようなクリフがデータベースから検索できると面白いかなと思う。こういうものをSelectivity Degreeとでも呼べばいいと思う。

Dr. Bonoの生命科学データ解析

2000の手前くらいから2005のおしまいくらいまでbioinformaticsやっていて、次世代じゃないマイクロアレイとかDNA chipsいじってたくらいで、NGSはDRY本読んだりして押さえてあるけど実務では経験はしてないなーって感じだけど楽しく読みました。

これからバイオインフォマティクスやる人は買って読んでおくべき本かなと思いますね。あとはケモインフォマティクスの人もバイオインフォマティクスは知っておいたほうがいいので読んでおくといいです。両方できると確実に幅が広がるのでキャリア的に有利です。

ProductName Dr. Bonoの生命科学データ解析
坊農秀雅
メディカルサイエンスインターナショナル / 3240円 ( 2017-09-29 )


ざっとバイオインフォマティクスを知るには良い本だと思いました。個別の具体的な問題に答えるというよりは、それらの問題に取り掛かるために知っておかないといけない前提知識を手っ取り早く理解する本という位置づけなのかな。

章立てはこんな感じです。個人的には一章の歴史が面白かった(会社に入ってからバイオインフォマティクスに関与したので自分の関わっている年代の前後がどうだったかをよく知らなかったため)

  • 第1章 生命科学データ解析の歴史
  • 第2章 生命科学分野の公共データベース
  • 第3章 データの形式とその取り扱い方
  • 第4章 基本データ解析
  • 第5章 実用データ解析

第4,5章をきちんと学びたかったらDRY本を読めばいいと思います。

以下、読んでいて付箋を貼ったあたりを。

p.6 表1.3

年表の1990, 1997,2002にBLAST論文の出来事が記述されているのだが、2002年のBLASTで何が起こったのかがわからなかった。読書会で 「マニアしか知らないBLASTの歴史」 みたいなLT希望w

p.15

いきなりsuffix arrayが出てきていたのでざっと知りたければ下の方の高速文字列解析の世界を読むことをオススメします。

p.64

蛋白質構造論文の話は知らなかったのであとでちゃんと把握する。

p.84

~~rsync懐かしかったが、scpにはrsync相当の機能はないのだろうかと思いました。というのは今時のOSだとrsync,rcpはデフォルトでは入らないし、オフになっているのでは(セキュリティの関係で)と思ったので。これに関してはちゃんと調べてないからわからん。rshはデフォルトではオフにはなっているはず~~

追記:ボケてた

その他

最近の出来事なんだけど、同僚に「clustalw入れたら?」ってアドバイスしたら、「それってclustalomegaのことなんですね!」と言われて、調べたらそういうのがあって時代を感じたことがありました。本書にはそのあたりが触れてあってなるほどー!とおもいましたね。

読書会があるそうです。

静岡でやるみたいなので、ホテル取って次の日の旅行計画を立てつつ、バイオインフォマティクスやりにくるのがいいと思います。発表者も製薬企業の一線級の方々が熱い思いを語る感じなので楽しみだしね(ハードルあげdone w)

DRY本

僕は今では実務ではバイオインフォマティクスはやらんのだけど、新規ターゲット探索したりあれやこれやする時に公共データを自由に解析できる手段があると強いのでキャッチアップは出来る限りやっています。ハンズオンは経験値上がりますね。

もちろん読書もおすすめ

ProductName 次世代シークエンサーDRY解析教本 (細胞工学別冊)

学研メディカル秀潤社 / 5832円 ( 2015-10-15 )


高速文字列解析の世界

インフォマティクスはゲノムも蛋白質もヌクレオチドやアミノ酸を文字列として抽象化した後に、ゴニョゴニョ処理するので文字列関係のアルゴリズムにアンテナを張っておいたほうがお得です。

というわけでバイオインフォマティクスに関係なさそうなこんな本もきちんと読んで理解しておく必要があります。

Mishima.syk #8やりました

発表者のみなさん、参加者のみなさんお疲れ様でした。そして急遽幹事を引き受けてくださった@no85jさんありがとうございました。

今回は日程決定後に僕の都合が悪くなってしまったり、前日にハンズオンの発表者が入院したりとバタバタでしたがw 次回はハンズオンの続きをやる予定です。

懇親会はバルイベントに。もともとのサイトが失効して怪しいサイトになってたり、バルといいつつ、チケットで下着(74)とかサンダル(67)が買えたりと「パンツを肴に飲めっていう深いメッセージか?」みたいなごちゃごちゃ感のあるバルだったけど。かなり楽しめたので良しとしよう。

途中ご当地アイドルとそれに群がるファンみたいなのが居て、ほうこれがヲタ芸ってやつかと感心していたら、あれは動きが全然足らないからヲタ芸未満だと詳しいヒトがバッサリ切り捨てていた。ご当地ヲタ芸が認められるようにヲタの人達もっと頑張ってくださいと思った(余談)。

参加したお店

一軒目 とりう(69)

とり天とビール。美味しかった

1464481110

二軒目 Vanzo

なかなか洒落た店内。ワインと肉

1464481111 1464481113

三軒目 半蔵2

白隠ハイボールと海豚ベーコン。海豚は本当に癖のある匂いだった。これは好き嫌い激しいと思う。海豚刺しはもっと強烈に臭いらしい。二次会のネタになったので良しとしよう。もう一回食べるかと言われたら遠慮する。

みりん干しとかちゃんと匂い消しをしたものは美味しいらしいです。三島に住んでた頃はスーパーによく並んでたけど、富士の方ではみかけないなぁ。

1464481114

二次会はうさぎの木

一次会の感想戦とか色々楽しくおしゃべり出来て満足。

1464481115 1464481117

ここでも肉とかアヒージョを堪能した。

1464481118 1464481119

1464481120

肉の流れで反省会は鈴木屋に決定しましたw

次回のMishima.syk(5/28)の演題が決まりました

タイムテーブルが決定しました。

メインは久しぶりのハンズオン、しかもScikit-learnなのでデータサイエンティストにちょっと興味ある方にはおすすめでしょう。講師は最近ヒットを飛ばした@y_samaです。

他には@iwatobipenによる、実践的なケモインフォマティクスの話と@bonohuの塩基配列DB事情で、EBIあたりの現状がどうなっているかとかのフレッシュ情報をゲットできると思います。

懇親会は、ぬまづ港の街barでぶらっと繰り出した後、みんなで集まってワイガヤする予定です。

参加お待ちしています

Mishima.syk #8やります

今回はScikit-learnのハンズオンをメインにやります。

ついでにGitHub Organizationアカウントを用意してGitHub Pagesの用意もした。

当初Hydeを使おうと色々いじってみたんだけど、ドキュメントが少なすぎてハマった時にめんどくさそうなのでおとなしくJekyllを使うことにした。(個人的にはHakyllいじるのが楽しいと思うけど)

最近Homebrewをリフレッシュしたのでrbenvも入れなおした

git clone https://github.com/sstephenson/rbenv.git ~/.rbenv
git clone https://github.com/sstephenson/ruby-build.git ~/.rbenv/plugins/ruby-build
vim ~/.bash_profile
# add
# export PATH="$HOME/.rbenv/bin:$PATH"
# eval "$(rbenv init -)"

source .bash_profile
rbenv install -l
rbenv install 2.3.0
rbenv global 2.3.0
gem install jekyll

これでjekyllコマンドが使えるようになる。

GitHub Pagesのほうは最初にコミットしちゃうとjekyll new .がこけるのでjekyll new . --forceしないといけない。あとはpushすれば勝手に静的ページを作ってくれるので楽かも。