分子細胞免疫学 原著第9版を読み終えた(1周目)

半年以上前に購入した分子細胞免疫学をやっと読み終えた

ProductName 分子細胞免疫学 原著第9版 アバス–リックマン–ピレ
エルゼビア・ジャパン株式会社 / ¥10,780 (2018-03-15)

補体のあたりから苦行すぎてちょっと投げ出してた。だって、蛋白質のメカニズム(物理化学的な)やつにあてはめると疑問符が付きまくる事象を覚えないといけないなんて、まるで、歴史とか地理の暗記してるみたいだし、、、

で、以下の本を副読本として読んだら、分子細胞免疫学の内容も理解しやすくなった。素晴らしい。

これであと2周くらいは読める。次は、気になった蛋白質をPDBで検索しながら読むことになると思う。

昔、CD14とかTLRの立体構造予測をしていたことがあってLRR(ロイシンリッチリピート)っていうなんかダンゴムシみたいな構造キモいなと思っていたんだけど、今回勉強し直して、あのドメインは自然免疫系としては実に理にかなった構造ではないか!と感動したのであった。

Pharmahack(Open Innovation)

在宅勤務+GWのコンボで暇なので駄文を書いてみることにしました。だらだらと調べ物をしてたり、文章の推敲をしていたらあっというまに3時間くらい消費してしまったので、もし役に立ったらこのあたりからパンダンリーフとかカラピンチャとか乾燥ポルチーニを送りつけてもらうと嬉しいです。

または代わりにビールでも注文してあげてください(たいてい、週末の帰りにここで一杯飲みながら今日のような内容を考えているのでお店に貢献したい)。

尚、このエントリはとりあえず製薬企業に入りたいとかいう修士向けの内容ではなくて、ジョブディスクリプション型の応募、つまり、製薬企業の研究開発職にポスドクから転身したいとか、他社へ転職したいとかいう人向けのハックだと思っています。

ざっくり言うとオープン・イノベーションのサイトを眺めて企業の内情を想像しようって話です。

企業のR&D報告書はチェックする

たいていの製薬企業が毎年報告するR&D報告書は押さえましょう。R&Dとして長期的に進みたい方向が示されているので、自分のやりたいことと企業の進む方向性にずれがないかはこのあたり読んでいるとわかります。ただし成果報告については現場のお化粧がマシマシされていたり、トップ層の夢がまぶされていることが多いので、額面通りに受け取るのは危険です。他社でも内情知ってると「うわー、そこ盛っちゃうか!」とか「あれ、その領域辞める方向で進んでるんじゃなかったっけ、とりあえずアピールだけかな?」とかわかるので、前職などのR&D報告はフィクションとして楽しめたりしますw

概ねR&Dトップの意思や目指す方向はその企業の進む方向なのでこれを理解しておくことは重要です。

オープン・イノベーションサイトの読み方、使い方

「製薬企業、オープン・イノベーション」で検索をかけるといくつか解説がヒットするのでまずは目を通しましょう

背景としては大体こんな感じで、外部との連携をスムースに行うためにオープン・イノベーション担当部署が設置されて、外部からの提案を広く受け付けるために公募サイトが設置されることになります。ただし公募サイトはなんでもうけつけるわけではなく、先ほどでたような企業の成長方向に沿ったもの(R&D報告書に記載している)になると思います。

このとき、R&Dの成長戦略に沿ってオープン・イノベーション担当部署が独立して動くようであればベンチャーキャピタル(VC)の様相を呈して、案件の評価もほぼ独立して担当することになるでしょう。つまりこのスライドの11枚目のベンチャー活用型オープン・イノベーションというやつです。この場合は外部の提案に対し、Go/No-goの判断をするだけなのであまり見るべきところはありませんが、単独で評価できる能力があるということは相当優秀な人材を集めたなぁとは思うのでVC的な仕事がしてみたければこういうところに潜り込むことを考えても良いかもしれません。

さて、先のスライドのもう一つのほう、産学連携型オープンイノベーションというのが今回のポイントとなります。

スライドでは

日本では創薬ベンチャーの育成が十分でなく、学の優れた成果を産に活かす産学連携が革新的な医薬品開発の推進に必須であると考える

と書いてありますが、要は産学共同で企業のニーズに合った技術革新を行ってお互いハッピーになりましょうということだと思います。この場合、ニーズは現場から吸い上げられオープン・イノベーション担当部署にてまとめられるので、そのリストは近視眼的で生々しい(具体的な)ものとなりがちです。つまり、現時点で現場が困っていて解決したい案件がニーズとしてあがりがちだということです。

重要な点は、ニーズ提案部署の能力の限界をそこから見積もることができるということです。もし、そのニーズがstate-of-the-art(SOTA)を超えたところにあり、自分のスキルやチャレンジの方向が一致していると、そういうところで働くとハッピーになれる可能性が高いでしょう。あとは募集が出てなくてもコネをたどるとなんとかなることもあるでしょう。(現場からすると協業でも人材獲得でもそんなに大差ないし、欲しいのはそういう技術をもった人材なので)

逆にSOTAに遠く及ばんだろみたいなウィッシュが上がっていたりすると、チームのレベルがそれほど高くない可能性があったり、AIが云々とかの抽象的すぎる大雑把なニーズだったりするとニーズ提案部署にプログラミングできる人がいないというオチがあるかもしれません(そういうところで活躍したいのか、高いレベルで切磋琢磨したいのかは人それぞれなのでそれの良し悪しを論じたいわけではないです)。

こんな感じで、ある程度感触を掴んでおけば学会でポスター発表している人とかに裏とりの質問したりできますし、コネクションも作りやすくなると思います。

ざっと国内の製薬会社のオープン・イノベーション公募サイトをリストアップしてみましたが、TaNeDS(タネデス)なんかはニーズ集約っぽいですね。

それではカラピンチャなどお待ちしています。

実験医学を何冊か購入

なんかのアンケートに回答したらアマゾンギフト券が送られてきたので本を購入。

マルチオミクスの号はまだ読んでない。

配列のアテンションで立体構造まで言及できるのだろうか?

Attention関連の調べ物をしていた。

でその上で、Compound-protein interaction prediction with end-to-end learning of neural networks for graphs and sequences.を読んだ感想となる。

引っかかったのは表題の通りで、Fig.9 (A)でcorrectly capture the interaction sitesってなってるけど、この領域はATPの結合サイトだろうからキナーゼ間で強く保存されているはずで、単にAttentionでひっかかっただけではなかろうか?学習できたというよりはデータのバイアスでそれっぽく見えたと考えるほうが自然かなぁ。右上のほうのアルファヘリックスもinteractionには関係なさそうだけどattentionでひっかかっているのでなんとなくそうっぽいし、実際に訓練セットでマルチプルアライメントしたら高度に保存されている領域として出てこないだろうか?

一方で、フラグメントスクリーニングのような多量の結合データにおいてはこういう手法は面白いのかなーと考えている。こういったものに適応できればいい感じだし。

ただ、その場合蛋白質側が文字列でうまくいくのかなー?っていう疑問は残る。この場合は、Conclutsionに記載されているように3Dで学習させてみて、って感じでしょうかね?

However, the development of GNN for 3D structured proteins is an important challenge; in particular, we believe that such a ‘3D GNN’ will allow us to achieve higher performance, provide more detailed analysis, and obtain more useful information for 3D interaction sites between compounds and proteins derived from the perspective of data-driven machine learning approach.

それでも過度な抽象化しているような気はするけど。

実験医学 AIとがん研究

ギフト券が余っていたので買った。

瀬々先生の機械学習関連の話題をまとめた章が一番参考になったので、関連論文を落としてきて読んでいる。

それから沖先生、太田さんのChip-Atlasの解説がしてあるクローズアップ実験法も参考になった。TogoTVだとこのへん。

WGCNAでモジュール分割してから ChIP-Atlasでエンリッチメント解析するとどうなるんだろう?と疑問に思ったので今度試してみる。

紙だと結構場所を取るので、Kindleでしかもさっとダウンロードできるのは嬉しい。ただし、レイアウト固定だと7インチFireタブレットでは読みにくいので次は10インチを買おうかなと思っている。持ち歩きどうなんだろうか?という不安はあるけど。

メタボローム

積んであった本を読んでいた。

メタボロームってゲノムとかよりは表現系に近いところを観測しているから、文字列の並びとか抽象的なネットワーク図よりはもっと生体システムというかシステムバイオロジーのような定量性をもったシミュレーションができないとメカニズムの解釈しにくいように思うんだけど、そのあたりどうなんかなーって思った。

物化寄りの私としてはネットワークダイアグラムではなくて相分離的なアプローチで解釈していくほうがなんとなくしっくりくるかなぁと思った。

ProductName 相分離生物学
東京化学同人 / ¥3,520 (2019-08-02)

遺伝統計学入門と実験医学のGWAS特集

COVID-19による在宅勤務が増えるに従い、ネットワークの帯域の奪い合いが激化してネットが激重で昼間は仕事にならないことが多い。

イライラしながら計算流すよりも、新しい知識を仕入れるためのまとまった時間と考えたほうが生産的であろうと、普段読めない本や論文を読むようにしている。

というわけで、最近は遺伝統計学の勉強をしている。

最初の方の章を丁寧に数式を追いかけて理解した。これは非常にわかりやすかったのでおすすめ。 それから8章の連鎖不平衡を用いた解析や、11章のノンパラメトリック連鎖解析、12章のQTLあたりが良かった。特に家系を追いかけたりしないけど、一応知識としては頭に入れておかないといけないことを理解した。

実験医学のGWAS特集もタイミングが良かった。ただ、読み物としての側面が強いので、遺伝統計学入門のような教科書っぽいGWASの本があれば嬉しい。

以下、参考になった特集(あとで読み直すリスト)

次はこのあたりでも読む予定

ProductName ゲノムデータ解析 (統計学One Point 1)
共立出版 / ¥2,420 (2016-09-08)

RNA-Seqデータ解析 WETラボのための鉄板レシピ

手持ちのMacBookAirのSSDの容量が10Gないんで、手元で動かすのを諦めて読んだだけだが。

分生で@oec014に「この本役に立つと思うよ」って勧められて購入。自分は完全Dry側で、どっちかというと公開されているデータを自分でいじって何かを見つけ出したいのだけど、そういう人間にとってもかなり有用な本であった。実際、公開データをワシャワシャと解析してみたい気分にさせられた。

全体を通してわかりやすかったのだけど、5章はちょっと説明の丁寧さに欠けているかなと思った(かなり説明端折ってるよね)。それから、ある程度BioinformaticsがわかっているうえでRNA-Seqデータ解析のお作法を知るための本かなーと感じているので、本当の初心者はこっちの本も併せて勉強するといいと思う。

ProductName 次世代シークエンサーDRY解析教本 改訂第2版
清水厚志
学研メディカル秀潤社 / 6160円 ( 2019-12-14 )


WGCNAでハブ遺伝子見つけてそれからどうするの?

昨日のエントリでハブ遺伝子ってバイオマーカーにはならんのちゃう?って書いたのだけど。

それからハブとなる遺伝子は、細胞としての機能を保つためにはおそらく重要な因子にはなるんだろうけど、疾患の状態に関してはあまり意味がなさそうな感じ。例えばがんとかだったらハブ遺伝子に着目するべきなんだろうけど、painとか精神疾患のような細胞そのものに起因するような状態でなければハブに着目するというよりはその周りの何かを特徴づける少数の因子のほうが重要なんだろうなーと。または共発現ではなく別のネットワークのスケールフリー性に着目するとか。

LNとNon-LNの発現プロファイルをWGCNAで解析したらトレイトと強く相関するモジュールを見つけてきてそこから最大次数を持つ遺伝子にCD36があって、これは新たなバイオマーカーとか疾患ターゲットになるんじゃないかと結論付けられている論文があった。

CD36っていろいろ機能が使い回されているが故に次数が高くなっているだろうから、こういうのに着目しちゃうと見誤りませんかね?偽陽性大きくなるとか

この論文は面白かった。GWASの知見を組み合わせている。

見いだされたSTAT1とかIRF8はこのような性質の遺伝子らしい。

もっと論文読まなあかんね。

Weighted Gene Co-expression Network Analysis (WGCNA)

WGCNAを調べていてβの決め方がわからなかったので、理論に関して解説してあるペーパーを読んだ。

今までネットワークを結合している/していないという点でしか捉えていなかったけど0/1の次数を持つ完全グラフと考えると色々幅が広がるということに気付かされた。

シグナム関数をハードな閾値(連続値をバイナリに切り捨ててしまう)とするのに対し、ソフトな閾値としてaij = sij ** βという重みで次数を調整する。

調整の仕方はスケールフリー性を持つようにβの重みを調整する。これはチュートリアルのStep-by-step network construction and module detectionのpdfを読めば良い。

そもそも教師なし学習でのクラスタリング結果が生物学的に同等な意味を持つような遺伝子が固まるようにするためにスケールフリー性を持たすってのがいまいちピンとこないところではあるが、GTOM2で生物学的に意味の有りそうなのが固まっているのを考えるとなんかあるんだろうなとは思う。論文

それからハブとなる遺伝子は、細胞としての機能を保つためにはおそらく重要な因子にはなるんだろうけど、疾患の状態に関してはあまり意味がなさそうな感じ。例えばがんとかだったらハブ遺伝子に着目するべきなんだろうけど、painとか精神疾患のような細胞そのものに起因するような状態でなければハブに着目するというよりはその周りの何かを特徴づける少数の因子のほうが重要なんだろうなーと。または共発現ではなく別のネットワークのスケールフリー性に着目するとか。