静岡東部ははラブライブサンシャインとKNIMEの聖地

この記事は創薬 (dry) Advent Calendar 2020の24日目の記事です。

ラブライブサンシャインとKNIMEに関してはみなさんご存知だと思うので詳しい説明は省きますが、 もしKNIMEについてよく知らない方はt_kahi’s blogをチェックして、ラブライブサンシャインを知らない人は、今すぐNetflixを購読して呪術廻戦魔女の旅々を見てください。

今回は、KNIMEのワークフローを一元管理して共有するWebアプリケーションを作ったときの経緯を書いておきます。

そもそも、Mishima.syk #14@t_kahiがKNIMEの話をしたときにうちの会社は共有システム作ったよっていう話をしていて、それを聞いた他社の人が「うちの会社にも欲しいわ」って言ったから「じゃぁ、OSSの作るわ」っていう流れで始まった気がします。

そんで、2週間後くらいにSpotfireのユーザー会に参加しなきゃいけなかったんで、行きの新幹線でコード大体書いてたみたい。GiteaのKNIME版を意識してたからknimeaとかいう仮の名前をつけていた気がします。

一応、UGM中につくり終えたみたいですね。

その後UGMは楽しく終わったんだけど、ちょうど超大型台風が接近していて帰りの新幹線が止まっていたので、東京駅のプラットフォームでみんなで二次会してましたw そういえば@iwatobipen先生はいたようないないような、、、記憶があやふやですw

色々と(飲みながら)雑談していたら、KNIMEの話になって@bonohuがKNIMEのアナグラムが金目鯛になることを発見して、その後すぐに@t_kahiがフリーの金目鯛アイコンを探し出してくれて、無事に公開することができたと。 これがKNIMEのシンボルが金目鯛、そして聖地が静岡東部になった瞬間です

というわけで皆さん使ってみてください。コロナが落ち着いたら、みんなで東伊豆に集まって金目鯛をつつきながらKNIMEハンズオンでもしましょう(聖地巡礼)。

最後にいつもキャッキャウフフできるような環境を維持していてくれるMishima.sykに参加してくれているみなさんに感謝です。

ついでにキャッキャウフフしたい人も探していますので是非私まで。

この素晴らしい創薬プロジェクトに祝福を!

この記事は創薬 (dry) Advent Calendar 2020の9日目の記事です。

まずは10年前に書いた駄文を見てください(p.12)。

というわけで、最近やっと、創薬用のイシュー管理システムを作って動かし始めました。redmineはタスクの管理色が強くて、イシューの議論にあまり向いてなかったので、GitHubのIssuesを参考に創薬の諸問題に関して十分に議論を積み重ねることができるように工夫したものをスクラッチから作っています。実物を見せられないのが残念ですが、ジャガーでいうところのニャンピョウみたいな感じなのでそこは想像で補ってください。

あとはメディシナルケミストの生産性の見える化のために、MMPをベースとした化合物構造の差分管理システムなどがあれば良いと思うのだけどそのあたりは誰か別の人が考えるでしょう。

が、興味があればQuantifying, Visualizing, and Monitoring Lead Optimizationなどを読むことをおすすめします。今どきだったら、このあたりのメトリクスと構造生成器をうまく組み合わせて創薬プロジェクトのスピードアップをはかるのがイケてるやり方なのかなと思います。

Mishima.syk #16やりました

Mishima.syk #16に参加された皆様お疲れさまでした。オンラインでも楽しくやれるということがわかってよかったです。またDiscordを使った懇親会も入れてみましたが、結局2200くらいまでの5時間近く雑談できていたので次回もこの方式でやろうと思いました。

14ヶ月ぶりの開催と言われて「あれ、そうだっけ?」となりましたが、調べたら正しかったので、コロナの影響が結構大きかったんだなと改めて気付かされましたね。

どの演題も興味深かったのですが、LTは全部面白かったです。音声認識とラベリングの話と社会人博士課程の話は特に良かったです。それから、Mishima.sykに昔から参加している面子にケモインフォの話をさせると、最初から異次元を目指すので、あまり馴染みのない方にもわかるように丁寧に説明する演題があったのもオンラインで幅広く参加できるようになったおかげかなと思いました。今後も期待しています。

今回の工夫

タイムキーピングをきちんとやった

これまでは、ざっくり時間を決めて会議室退出時間にぎりぎりまで喋り倒すという流れだったのをきちんと時間通りに終わるようにしてみたけど、これは良かったです。

Discordを併用した

ZoomのほかにDiscordを併用し、すべての発表者のチャンネルを作って質問などはそこに書き込むようにしたおかげで、情報の整理はスッキリできたように思います。ただ、反動としてTwitterの書き込みが極端に減ったので参加者以外には見えなくなったというのはどうなのかな?と。

投げ銭システム採用

Amazonのギフト券サービスを利用した投げ銭システムを採用してみました。これはうまくワークして、次回以降のZoomの利用料金がカバーできるようになったので、また近いうちにオンライン開催したいなと思っています。投げ銭してくれた皆様ありがとうございました。

ニーズの集約

Discordに「今後ききたい内容」を集めるチャンネルを用意してみたのですが、これはあまりうまくいかなかったです。テーマを決めるのは毎回苦労するので、これに関しては引き続き工夫していきたいところ

Discordのボイスチャンネルを使った懇親会

発表者それぞれにDiscordのボイスチャンネルを用意して好きなように集まって雑談できるようにしましたが、これは割とうまくいきました。ただ、特にチャンネル名に意味はなくて、いくつかチャンネルを用意しておくだけでよかったみたいです。

Mishima.syk #16 やります

前回はコロナパンデミックでキャンセルになってしまいましたが、そろそろやらないと、みなさんの発表(したい)リストが溢れてしまって困るだろうと、オンラインでやることにしました。

まぁRDKitUGM2020が良すぎて、我々もそろそろなんかやらんとなーと思ったのもあります。それから発表ドリブンで強制的にコード書かんと、そういう時間が取れなくなりつつあるという、、、

弱い紐帯の強さ

Mishima.sykはそもそも 三島あたりに製薬企業の研究所集まっててみんな近所に住んでるのに東京とか大阪とかの学会とかベンダーユーザー会でしか情報交換できないのは不便だよねー ってことではじまった集まりです。その後何人かは転職を経験しているけど、相変わらず機能しているということを考えると「弱い紐帯」としての役割を果たしているんだろうなーと漠然と感じます。

では企業は何かというと強く脆いネットワークなんだろうなと。まぁ、賃金インセンティブで構成された階層型ネットワークだからそうだよなと。一方でノードの欠損や付加に対しては極めて安定ですね。誰がやめてもあまりダメージ大きくならないように組織設計されているしね。

コロナパンデミックで学会などがオンライン開催に移行していて、弱い紐帯的なネットワーク形成というのは当たり前に重要になっていて、それはグローバルなものとして捉えないとあかんよなと感じた次第です。今更硬くて脆いネットワークに縛られる人生設計はありえないでしょう。

ProductName 社会と経済:枠組みと原則
ミネルヴァ書房 / ¥3,850 (2019-11-28)

Deep Learning To Impute Heterogeneous Drug Discovery Data

久しぶりに面白い論文を読んだ。極めてインフォマティクスらしいアプローチでとても素晴らしいと思った。能動学習と組み合わせても面白いんではないかと思ったので後で試してみる。

Practical Applications of Deep Learning To Impute Heterogeneous Drug Discovery DataというJ.C.I.Mのペーパーだけど、research gateからも読めるみたい。

個人的にはマルチタスク学習も転移学習もDrug Discoveryのデータの予測にはあんまり有効じゃないんだろうなーと思っていて、特にマルチタスクなんて共通な特徴量抽出だろうから、それって結局脱溶媒に帰着してハンシュフジタのlogPに無事着陸帰還とというか、「1mmも前進してないじゃないか?美しくないなオイ」くらいに思っている。

Significant improvements over “conventional” machine learning are generally only seen in large data sets or in the case of multitask learning where there are strong correlations between the endpoints.

本論文ではインピュテーションを採用している。特に特徴量学習とかのそもそも化合物表現を攻めずに、与えられたデータから尤もらしい測定値を推定するアプローチをとっているのがインフォマティクスらしくて良いと思った。これにより、特に細胞系のアッセイでの予測精度の向上が大きいが、その理由を次のように考察している。

In particular, we can see that the project A cell 2 (cell proliferation) results cannot be predicted with conventional QSAR methods; a negative R2 indicates a performance that is worse than random (i.e., shuffling the test labels). This is likely because cell activity depends not only on target protein activity but also on the compound reaching the target which will be strongly influenced by physicochemical and ADME properties.

細胞系のアッセイだと、膜透過もパラメータとして取り込んだほうがいいから物性の結果(予測、実験値)ともに特徴量として放り込むこと多いだろうから、inputationで欠損値を埋めるアプローチって上手いよなぁと感心した。

このあたりをもう少し丁寧に読んでおくべきだろう。

測定系同士に関連性がある場合に精度が向上するってあれじゃン、発現データじゃんとおもってバイオインフォマティクス関連の文献調べたらDeepImpute: an accurate, fast, and scalable deep neural network method to impute single-cell RNA-seq dataってのを見つけた。

これとimmunedeconvを組み合わせて、任意の免疫系細胞で着目している遺伝子の発現量を推定できないかな?

今月の分子で興味をひかれたもの

PDBjの今月の分子を眺めて興味が湧いたもののメモ

tRNA

下の図は、PDBエントリー 4tna のフェニルアラニン運搬RNAの構造で、3つの塩基の相互作用を示している。シトシンとグアニンは、DNAでも見られる典型的な塩基対を形成するが、2つ目のグアニンはメチル基(右端中央の灰色の球)が付加されており、通常見られない相互作用を塩基対と形成する。

FMO案件

シャペロン

シャペロンも改めて考えてみるとよくわからん。フォールディングしやすく空間を与えるのか、熱変性しにくくする空間を与えるのか?HSPの名前の由来であれば後者の気もするけど。

多くのシャペロンタンパク質は「熱ショックタンパク質」(heat shock protein)と呼ばれ、HSP-60のように名付けられている。こう呼ばれるのは細胞が熱にさらされた時大量に作られるからである。一般的に熱はタンパク質を不安定化させ、誤った折りたたみをより起きやすくしてしまう。だから本当に熱くなった時、細胞はこれらシャペロンの追加支援を必要とするのである。

Gタンパク質

G蛋白質をあまり丁寧にみたことはなかった。

βサブユニットを見ることにも時間を費やして欲しい。ペプチド鎖を主鎖表現やリボン表現で表示すると、鎖がきれいなプロペラ型の構造をとっているのが分かるだろう

主要組織適合性複合体(Major Histocompatibility Complex)

FMOかけよ

MHCタンパク質は、黄色い星印で示したチロシン(tyrosine)の各末端でペプチドをつかんでいる。2つの構造でこの3つの位置が似ていることに注目して欲しい。ペプチドはこの場所でMHCにつながれているが、他のアミノ酸は外側に伸びてタンパク質から外れている。

オーキシンとTIR1ユビキチンリガーゼ

正しくないフォールディングってのは物性的にわかりやすい駄目な指標があるってことかな?免疫系の抗原提示みたいなことが蛋白質レベルで行われているってことかな?

オーキシンがユビキチンに結合した構造によって別の驚くべきことが分かった。オーキシンは、Aux/IAAタンパク質がリガーゼに結合するのを促してそれらの破壊を導くが、タンパク質の形を変えることでこの仕事を行っている訳ではない。そうではなく、2つの分子の間に架橋する分子のりとして働くのである。オーキシンはユビキチンリガーゼの深い窪みの中に結合して穴を埋め、Aux/IAAタンパク質に完全に合致した表面を作り出す。

低酸素誘導因子

虚血も興味がある。

酸素が不足した細胞は、多くの赤血球を生み出しより多くの血管をつくるよう身体に伝える信号を送り出す。また、代謝のしくみを変えて、あまり多くの酸素を必要としないエネルギー代謝経路を使うようにする。

スプライソソーム

わからん

Pharmahack(Open Innovation)

在宅勤務+GWのコンボで暇なので駄文を書いてみることにしました。だらだらと調べ物をしてたり、文章の推敲をしていたらあっというまに3時間くらい消費してしまったので、もし役に立ったらこのあたりからパンダンリーフとかカラピンチャとか乾燥ポルチーニを送りつけてもらうと嬉しいです。

または代わりにビールでも注文してあげてください(たいてい、週末の帰りにここで一杯飲みながら今日のような内容を考えているのでお店に貢献したい)。

尚、このエントリはとりあえず製薬企業に入りたいとかいう修士向けの内容ではなくて、ジョブディスクリプション型の応募、つまり、製薬企業の研究開発職にポスドクから転身したいとか、他社へ転職したいとかいう人向けのハックだと思っています。

ざっくり言うとオープン・イノベーションのサイトを眺めて企業の内情を想像しようって話です。

企業のR&D報告書はチェックする

たいていの製薬企業が毎年報告するR&D報告書は押さえましょう。R&Dとして長期的に進みたい方向が示されているので、自分のやりたいことと企業の進む方向性にずれがないかはこのあたり読んでいるとわかります。ただし成果報告については現場のお化粧がマシマシされていたり、トップ層の夢がまぶされていることが多いので、額面通りに受け取るのは危険です。他社でも内情知ってると「うわー、そこ盛っちゃうか!」とか「あれ、その領域辞める方向で進んでるんじゃなかったっけ、とりあえずアピールだけかな?」とかわかるので、前職などのR&D報告はフィクションとして楽しめたりしますw

概ねR&Dトップの意思や目指す方向はその企業の進む方向なのでこれを理解しておくことは重要です。

オープン・イノベーションサイトの読み方、使い方

「製薬企業、オープン・イノベーション」で検索をかけるといくつか解説がヒットするのでまずは目を通しましょう

背景としては大体こんな感じで、外部との連携をスムースに行うためにオープン・イノベーション担当部署が設置されて、外部からの提案を広く受け付けるために公募サイトが設置されることになります。ただし公募サイトはなんでもうけつけるわけではなく、先ほどでたような企業の成長方向に沿ったもの(R&D報告書に記載している)になると思います。

このとき、R&Dの成長戦略に沿ってオープン・イノベーション担当部署が独立して動くようであればベンチャーキャピタル(VC)の様相を呈して、案件の評価もほぼ独立して担当することになるでしょう。つまりこのスライドの11枚目のベンチャー活用型オープン・イノベーションというやつです。この場合は外部の提案に対し、Go/No-goの判断をするだけなのであまり見るべきところはありませんが、単独で評価できる能力があるということは相当優秀な人材を集めたなぁとは思うのでVC的な仕事がしてみたければこういうところに潜り込むことを考えても良いかもしれません。

さて、先のスライドのもう一つのほう、産学連携型オープンイノベーションというのが今回のポイントとなります。

スライドでは

日本では創薬ベンチャーの育成が十分でなく、学の優れた成果を産に活かす産学連携が革新的な医薬品開発の推進に必須であると考える

と書いてありますが、要は産学共同で企業のニーズに合った技術革新を行ってお互いハッピーになりましょうということだと思います。この場合、ニーズは現場から吸い上げられオープン・イノベーション担当部署にてまとめられるので、そのリストは近視眼的で生々しい(具体的な)ものとなりがちです。つまり、現時点で現場が困っていて解決したい案件がニーズとしてあがりがちだということです。

重要な点は、ニーズ提案部署の能力の限界をそこから見積もることができるということです。もし、そのニーズがstate-of-the-art(SOTA)を超えたところにあり、自分のスキルやチャレンジの方向が一致していると、そういうところで働くとハッピーになれる可能性が高いでしょう。あとは募集が出てなくてもコネをたどるとなんとかなることもあるでしょう。(現場からすると協業でも人材獲得でもそんなに大差ないし、欲しいのはそういう技術をもった人材なので)

逆にSOTAに遠く及ばんだろみたいなウィッシュが上がっていたりすると、チームのレベルがそれほど高くない可能性があったり、AIが云々とかの抽象的すぎる大雑把なニーズだったりするとニーズ提案部署にプログラミングできる人がいないというオチがあるかもしれません(そういうところで活躍したいのか、高いレベルで切磋琢磨したいのかは人それぞれなのでそれの良し悪しを論じたいわけではないです)。

こんな感じで、ある程度感触を掴んでおけば学会でポスター発表している人とかに裏とりの質問したりできますし、コネクションも作りやすくなると思います。

ざっと国内の製薬会社のオープン・イノベーション公募サイトをリストアップしてみましたが、TaNeDS(タネデス)なんかはニーズ集約っぽいですね。

それではカラピンチャなどお待ちしています。

フロンティア軌道で化学を考える

私の一番大きな興味は蛋白質と低分子化合物の相互作用を如何に深く理解するかってことで、最近は量子化学のパラメータを記述子として使ったりしてるんだけど、ガチ量子系の研究者の言ってることがにわかの私には理解できないことがたまにある。

最近であったconfusionは励起状態への遷移に伴うインデュースドフィットの描像が古典力学の解釈でのそれとはなんか違うような気がして時間的な変化どうなってんのかねーという疑問が湧いたので、この本を読み直している。

レチナールとか視覚系は量子化学的な取り扱いしないといけないとは思っているけど、普通の低分子化合物の場合はどこまで非占有有軌道が効いてくるのか興味があるところ。

Mishima.syk #15 の開催を見合わせます

COVID-19で色々と大変な状況になったので、開催を中止することにしました。

かなC

ProductName パブロンマスク365 3枚入

大正製薬 / ?円 ( 2009-08-07 )



日程決まりました。3/28(sat)です。

参加登録は以下からどうぞ

演題も募集中です。

細胞の分子生物学 第17,18章

細胞周期とアポトーシス

ProductName 細胞の分子生物学
Bruce Alberts
ニュートンプレス / 22300円 ( 2010-01 )


細胞周期の方はなぜうまいこと分裂するのかについて物理化学的な説明がきちんとなされていなくて、なんとなくもやっとしたものが残った。

相分離生物学が切り開いていくことを期待している。

ProductName 相分離生物学
白木 賢太郎
東京化学同人 / 3520円 ( 2019-08-02 )