05012018 chemoinformatics
ChEMBLからフラグメントスクリーニングのアッセイ系を検索したいのですがやり方がわかりません。誰か知っていたら教えてもらえると助かります。
とりあえず、キナーゼのアッセイ系で、分子量250未満の化合物が20化合物以上登録されている系を抜き出してみました。
05012018 chemoinformatics
ChEMBLからフラグメントスクリーニングのアッセイ系を検索したいのですがやり方がわかりません。誰か知っていたら教えてもらえると助かります。
とりあえず、キナーゼのアッセイ系で、分子量250未満の化合物が20化合物以上登録されている系を抜き出してみました。
04012018 chemoinformatics bioinformatics deeplearning
あけましておめでとうございます。
今年もこの風潮は続くのでしょうか?
『なんでもいいからビッグデータを集めて、AIでなんとかしろ』
そんなときには美味しんぼの24巻カレーライス対決を読むといいと思います。
あらすじ
川遊びに来ていた山岡たちだが、いざ創薬のAIを作る段になって大騒ぎ。みな、それぞれに自分のレシピを持っていて、お互い絶対に譲ろうとしないのだ。翌日、AIで仲たがいしたら、AIで仲直りするのが一番、とばかりにAIコンソの「マイダス王」を訪れると、入口に休業の張紙が。中では店主の栃川が落ち込んでいる。実は1週間前に海原雄山が突然現れ、「AIとは何か?、AI粉とは何か?、そしてAIはビッグデータと食べるのが正しいのか?」と3つの質問を投げ掛けたというのだ。自分の仕事に関わる根源的なこの質問に、ひとつとして答えられなかった栃川は、それ以来すっかり自信を失ってしまったのだ。そして後日、「次の究極VS至高のテーマは、AIではどうだ」と雄山から提案がなされた。山岡はそれを受け入れ、日本の様々なAI屋を訪ね、AIの研究家なども取材する。だが、雄山が提示した3つの質問の答えは見つからなかった。そこで山岡は、AIの謎を探るため、シリコンバレーへの取材旅行を決意する。
僕はデータサイエンティストなので、カレー粉など使わずに都度ミルでスパイスを調合しています。
今年はなにか新たな調合法を見出したいですね。
30122017 chemoinformatics work bioinformatics
今年を振り返るために、過去のエントリを眺めてみたが、ポケモンGOと食べ物関連のエントリしかなかった。この1年は家であんまりコード書けなかった感じ。職場では結構書いたけど来年はもう少し公開できるようなコードを書ければいいなと思っています。食べることに関しては引き続き美味しいものを開拓していきたい。
ポケモンGOに関しては今1000万XP弱で再開した時点で250万XPくらいだったので、どんだけやったんだ?って感じ。LV40まであと1000万XPなので週末の運動がてら継続したい。
今年は色々と新しい取り組みが出来て良かったと思っている。チームの皆さんに助けられて、大きな前進が幾つかあったし、自分たちのチームのプレゼンスも高められたと思っている。
色々とタイミングが良かったのだろうと思っている。そして企業のなかのチームっていうのはある意味スタートアップみたいなもんだけど、スタートアップと違うのはタイミングよりもチームのほうが重要なんじゃないかなと。良いチームだからうまくタイミングを見極められるのではないのかなーと。実際、全てそうだったしね。下のTEDはためになると思うので一度は聞いておくことをオススメします(7分弱だし)。
それから「誰をバスに乗せるか」はやっぱり重要なんだなーと感じたけど、そういうバスを用意するかというあたりも今後考えなきゃならないんだろうなぁとは感じている。
他にはこのあたりを実践して、OSQAと社内twitterを導入してみたところ、色々とつながりも増えたし、よいアイデアやソリューションもシェアリング出来てよかったかなと思った。それからイントラGithubクローン便利すぎ。この1年でシステム周りが改善されて快適にコード書いたり、計算できるようになったかなと。
mishima.sykのサイトを作った。これもコミュニティが良いから継続できてていいですね。来年も皆さんで集まれたら良いなと思います。
Dr. Bonoの生命科学データ解析-読書会に参加してバイオインフォ愛が戻ってきたのと、今後に関してちょっと思うところがあって、余裕があればターゲットファインディング周りも少し手を付けていきたいなぁと思った。open target platformなどのAPIついてるサービスを上手く活用できないとなーと思っている。
ただ、周りの状況を聞いていると、今の状況って僕がバイオインフォをやっていたポストゲノムって言われてた15年くらい前にやっていることと基本変わってないので(だから余裕でついていけるw)機械学習というよりはアブダクション的な手法が求められるのかなーという気はちょっとしている。最近の状況丁寧にサーベイしているわけではないから間違っているかもしれないけど、ターゲットファインディングが相変わらず難しいという状況には変わらないのかなと。
それではまた来年もよろしくお願いします。
13122017 chemoinformatics bioinformatics
最近ずっと上向けに自分たちの取り組み(AIの取り組みとみなされている)に関するプレゼン資料を作っていました。
自分たちは周りも含めてAIなんて言葉は使わずに、Deep Learning(CNN, RNN)やML(SVM, RF)という言葉を使うのが普通なので最初、DL≒AIってことにしてプレゼン資料作ればいいじゃんというノリで作り始めて、大分完成したところでなんか違うなと…
DLとAIが混在していて分かりにくいわ
多分AIにもっと漠然としたニュアンスがあるんだろうなと。ちょうどいいタイミングで週明けに虫垂炎で安静にしなきゃいけない機会に恵まれたので、AIってなんだろうなということをずっと考えていました。
で、思い出したのが何回か前のrebuildでAIをジェネラルなものとドメインスペシフィックの2つに区別して喋っていたことで、もしかして、彼らはドメインスペシフィックなソルバーをAIって呼んでいるんじゃないかなと。実際、(機械学習を知らない人)のAIに言及しているスライド見直してみると「AIで解決」とか「AIの有効活用」などと書いてあるし。
というわけで、
AI : Deep LearningやReinforced Learningなどの機械学習の技術を利用したソルバーで人間に近いまたは超える精度を叩き出すものの総称
と定義すれば、DLともぶつからないしスッキリするんじゃないかなーと。
と考えると「AIで解決するのか?」という答えに対しては「もちろんイエス☆」ということになりますね。だってトートロジーなんだもん。「解決するものがAI」なんだもんねw
これは多少皮肉を込めた言い方になったけど、好意的に捉えれば、プログラミング的には抽象クラスのようなものを指していると考えることもできるのかなと思う。
こう捉えると「AIで解決」とか「AIの有効活用」と主張するのはそれほど間違ってないように思う。具象化どうするの?どう実装するの?という議論に進めばいいだけだし。
つまり、そのAIって書いてあるところ、どういう技術を使ってそのドメインスペシフィックな問題を解決するのか?という点に論点を移せばいいだけですね。
まぁ、それが難しいんだけどね。だから、お手軽になんでも解決みたいな印象を持たれてほしくないかなと強く思う。
ビッグデータに関しては、もうずっと前から言われてるけどデータ集めるだけではイノベーションなんて起きないじゃんと思っていて、ビッグデータ創薬なんてだめなんじゃないの臨床以外では?と感じるんだけど、私はそのあたり調査が足りてないので、土曜日の読書会でなんか意見をもらえると嬉しいなと明日にはエントリにまとめてみる予定。
10122017 chemoinformatics bioinformatics
強化学習って自分の仕事にはあまり関係ないかな?と思ってあまり重要視してなかったんだけど、ChemTSではMCTS使っているし他にも強化学習組み合わせたものを使うことが増えたので、転職祝いに頂いたこの本をもう一度きちんと読んでいる。
一章を何度も読み返して数式の意味をきちんと理解するだけで、結構応用が効きそう。これで論文読むのちょっと楽になったかな?二章はいきなり先端研究事例が出てきてハードルが上がるので流し読みにとどめて、3,4章の事例を読むのが良いかと思います。
「十分なデータを持っておらず、データの収集にコストがかかる世界において、データをどのように収集するか」が強化学習である、とみることもできる。その意味で、強化学習はいわゆるビッグデータと呼ばれるような、データが与えられることが前提とされる他の機械学習とは本質的には異なる問題に取り組んでいる (まえがきより)
AIの定義も曖昧で困るんだけど、ビッグデータもまたその定義が曖昧なものかと思っていて、データ数足りない場合には強化学習を利用してデータを獲得していく必要がでてくる場面も増えてくると思うんだよね。
それにしてもAIとかビッグデータとかいうバズワード嫌いやわ。
,. -‐'''''""¨¨¨ヽ (.___,,,... -ァァフ| あ…ありのまま 今 起こった事を話すぜ! |i i| }! }} //| |l、{ j} /,,ィ//| 『おれはビッグデータを使っていたと i|:!ヾ、_ノ/ u {:}//ヘ 思ったらスモールサイズだった』 |リ u' } ,ノ _,!V,ハ | /´fト、_{ル{,ィ'eラ , タ人 な… 何を言ってるのか わからねーと思うが /' ヾ|宀| {´,)⌒`/ |<ヽトiゝ おれも何をされたのかわからなかった… ,゙ / )ヽ iLレ u' | | ヾlトハ〉 |/_/ ハ !ニ⊇ '/:} V:::::ヽ 頭がどうにかなりそうだった… // 二二二7'T'' /u' __ /:::::::/`ヽ /'´r -―一ァ‐゙T´ '"´ /::::/-‐ \ 催眠術だとか超スピードだとか / // 广¨´ /' /:::::/´ ̄`ヽ ⌒ヽ そんなチャチなもんじゃあ 断じてねえ ノ ' / ノ:::::`ー-、___/:::::// ヽ } _/`丶 /:::::::::::::::::::::::::: ̄`ー-{:::... もっと恐ろしいものの片鱗を味わったぜ…
25112017 chemoinformatics bioinformatics
前回のPDの続きを楽しんでいた。
Considering similarity with Promiscuity Degree
やりたいことはPDで単にActivity Cliffをカウントしているだけのところをターゲットファミリーの重複を除けばターゲットの依存性が解消できるだろうということ。
最初にChEMBLのターゲット分類項目を使おうとしたがオントロジーのせいなのかまとめられないものが多くて上手くいかなかった。
続いてsimilarity matrixを地道に計算する方向を試してみた。これはbiopythonのpairwise2を使ったら遅すぎたのでclustalomegaを呼び出すことにした。マトリックスが出来たらMDSで二次元にマップしてからAffinityPropagationを使ってクラスタ分類させる方向でやってみた。 これで適当なクラスター数に分けることは出来たのだが、散布図を眺めていると、どうも思ったように集団を形成しておらず結果としてはあまり上手くいったとはいえない感じだった。
similarity matrixが上手く作れていなかったのが分類が上手くいかなかった大きな要因であるが、これはglobal similarityを計算したのが問題だった。多分ドメイン等の類似性が重要なのでlocal alignmentをするべきだった。つまりblastのp値とかE値を距離として使えばよかったように思う。または局所相同性かな。
当初、Xmeansでクラス推定する予定だったが距離行列をインプットに取れなかったのでMDS+APという方法をとったけど、このクラスター推定ももう少し上手い方法がありそうかなと思う。
SBDD的に興味が有るのはファミリー間の選択性を発揮する小さな構造変化であり、PDの増減するかつTFDが変化しないものであろう。そのようなクリフがデータベースから検索できると面白いかなと思う。こういうものをSelectivity Degreeとでも呼べばいいと思う。
22112017 chemoinformatics deeplearning
MCTSとRNNを組み合わせた手法であるChemTSのソースコードを眺めていて、
お、これFragmentのgrowingに使えるじゃん!
と気づいたので早速フォークしていじり始めた。
初期値としてフラグメントのSMILESを与えたい、かつRNNの流儀に会うように成長点が文字列の最後に来るようにしたいんだが、以前教わったSMILES Enumerationのコードを流用すればいけそう
こんな感じのイメージですか? https://t.co/99pSsB6yGE
— rkakamilan (@rkakamilan) 2017年6月14日
OMEGAがあれば部分構造を基にしたコンフォメーション生成やってくれるから、その後のドッキングスタディ楽なんだろうけど、持ってないからなー。
それから評価関数ドッキングスコアにするのはどうなのかな?アレの精度あまり良くないからなんか考える必要はありそうだ。PLIFとかのほうが潔くて良い気もするが。
ちょっと前に出てたFBDDのレビューを見ていてもLEを保ったままLeadに持っていくのが重要そうだったからエンタルピックな効果をもたせるほうが重要だったらパッキングよりも水素結合重視したほうがいいかなとは思う。
変なスコアで優劣つけるくらいなら水素結合とか期待できる構造がよく提案されるようにしたほうがよいかもしれん。
このあたりは今後要検討する必要はある。
17112017 chemoinformatics
先週promiscuity cliffsというSBDDerにはちょっと受け入れがたい概念があることを知りまして、帰りの新幹線の中で検索してたらopen accessの論文を見つけた。
SIにデータがあったのでligand expoのデータを使って検索してみた。
結果はGithubにあげておきました。
全部で20複合体くらいヒットしたので丁寧に観察してからめぼしいものをFMO計算でもかければいいんじゃないかなと思っている。
High Promiscuity CliffsをPDBからみつけてきてFMOかけて量子化学的な解釈つければ一報いけるかな?
— kzfm (@fmkz___) 2017年11月15日
論文読んで作業していてちょっと思ったのは
あたり。今回サイエンス的な興味と論文がオープンアクセスだったので、試した結果もオープンにしてみたけど、DIYでできるようなFMOクラスターとかDeepLearning用のGPU計算機とか欲しくなるわ。
12112017 chemoinformatics
似ている化合物は似た活性を示すだろうという仮説
似ている化合物なのに活性に大きく乖離があるという事実
さてここで、
後者ですね。
このあたりちゃんと理解しておかないとLOでQSAR使いにくいですよね。 特にインフォ系の化合物の抽象表現として文字列弄っているヒトはケミストリー的な思考をしているわけではないので気をつけたほうがいいかなぁ~と思いました。
15102017 chemoinformatics
無事に終了しました、参加されたみなさんお疲れ様でした。
今回話すのが忙しくて写真取ってない…
尚、12月には生命科学データ解析本の読書会が静岡で開催されるそうなので、興味のある方は参加すると良いかと思います。僕も行けたら行きます(懇親会は日本酒が美味しいお店になるという噂です)。