Protein degrader

PROTACとか色々なdegraderの話がまとまっている。

が、ノンケミストにわかりやすく説明する感じの特集であったので、分かる人はJ.M.Cとかのレビューを見たほうがよいかもと思った。

なぜ「顧客が必要としないもの」を提供しようとするのか?

顧客の要件をきちんと理解することの続き。

結局、なんでこんなことになっているのかを考えてみるに

  • 顧客が説明した要件
  • プロジェクトリーダーの理解(おそらくこっち)

に問題があるんだろうなーと。プロジェクトリーダーがきちんと理解してないから適切に現場のタスクにブレークダウンされていなくて、私が現場の月次ミーティングでそれに対して物申しているのだろう。というわけで、ミーティングで文句言うくらいだったら、最初から打ち合わせできちんと調整したほうがよろしいんかなぁと思い始めている。

ProductName トヨタ生産方式
ダイヤモンド社 / ¥1,109 (2012-09-14)

免疫ペディア〜101のイラストで免疫学・臨床免疫学に強くなる!

買った。Kindleだと読みづらいので紙版にした。持ち歩くことも特にないだろうし。

Deep Learning To Impute Heterogeneous Drug Discovery Data

久しぶりに面白い論文を読んだ。極めてインフォマティクスらしいアプローチでとても素晴らしいと思った。能動学習と組み合わせても面白いんではないかと思ったので後で試してみる。

Practical Applications of Deep Learning To Impute Heterogeneous Drug Discovery DataというJ.C.I.Mのペーパーだけど、research gateからも読めるみたい。

個人的にはマルチタスク学習も転移学習もDrug Discoveryのデータの予測にはあんまり有効じゃないんだろうなーと思っていて、特にマルチタスクなんて共通な特徴量抽出だろうから、それって結局脱溶媒に帰着してハンシュフジタのlogPに無事着陸帰還とというか、「1mmも前進してないじゃないか?美しくないなオイ」くらいに思っている。

Significant improvements over “conventional” machine learning are generally only seen in large data sets or in the case of multitask learning where there are strong correlations between the endpoints.

本論文ではインピュテーションを採用している。特に特徴量学習とかのそもそも化合物表現を攻めずに、与えられたデータから尤もらしい測定値を推定するアプローチをとっているのがインフォマティクスらしくて良いと思った。これにより、特に細胞系のアッセイでの予測精度の向上が大きいが、その理由を次のように考察している。

In particular, we can see that the project A cell 2 (cell proliferation) results cannot be predicted with conventional QSAR methods; a negative R2 indicates a performance that is worse than random (i.e., shuffling the test labels). This is likely because cell activity depends not only on target protein activity but also on the compound reaching the target which will be strongly influenced by physicochemical and ADME properties.

細胞系のアッセイだと、膜透過もパラメータとして取り込んだほうがいいから物性の結果(予測、実験値)ともに特徴量として放り込むこと多いだろうから、inputationで欠損値を埋めるアプローチって上手いよなぁと感心した。

このあたりをもう少し丁寧に読んでおくべきだろう。

測定系同士に関連性がある場合に精度が向上するってあれじゃン、発現データじゃんとおもってバイオインフォマティクス関連の文献調べたらDeepImpute: an accurate, fast, and scalable deep neural network method to impute single-cell RNA-seq dataってのを見つけた。

これとimmunedeconvを組み合わせて、任意の免疫系細胞で着目している遺伝子の発現量を推定できないかな?

顧客の要件をきちんと理解すること

顧客が本当に必要だったものという風刺画はだれでも一度は目にしたことがあるだろう。

顧客はそもそも自分が欲しい物をきちんと理解していないことが多いため、自分の理解の範囲で要望を伝えることに問題があるし、それを字面通りに受け取るプロジェクトリーダーが要求の本質を理解していないということも同様に問題かと思う。解析という仕事においても同じことはあてはまる。特にケモインフォやバイオインフォの解析において、顧客はメディシナルケミストだったり、薬理の研究者だったりするわけだが、かれらの要求(知りたいこと)を彼ら自身がきちんと認識していないことは往々にしてある。

もし、こうい解析タスクが割り当てられて、その評価に労働時間が考慮されているのであれば、間違ったことを繰り返すことになんの問題もない、むしろ沢山の間違いを繰り返して、顧客から労働対価をぶんどるのは正しい戦略かと思う。社内においても「依頼されたタスク」を遂行する、そしてその時間の多寡が評価されるのであれば、特段問題ないと思う。

ただ、既にWFHが当たり前になりつつ状況で労働時間そのものを評価の指標にすることは減ることはあれど、増えることはないと思う。つまり「顧客が本当に必要だったもの」をいかに早く少ない労力で提供するかが評価指標にシフトしていくんだろうなぁと思っている。

最近、いくつかのミーティングに出ていて、 「それそのまま鵜呑みにして実行したら、そりゃそういう話に持っていかれるだろうな」 と思うことがいくつか重なったのでメモがてら書いてみた。

今月の分子で興味をひかれたもの

PDBjの今月の分子を眺めて興味が湧いたもののメモ

tRNA

下の図は、PDBエントリー 4tna のフェニルアラニン運搬RNAの構造で、3つの塩基の相互作用を示している。シトシンとグアニンは、DNAでも見られる典型的な塩基対を形成するが、2つ目のグアニンはメチル基(右端中央の灰色の球)が付加されており、通常見られない相互作用を塩基対と形成する。

FMO案件

シャペロン

シャペロンも改めて考えてみるとよくわからん。フォールディングしやすく空間を与えるのか、熱変性しにくくする空間を与えるのか?HSPの名前の由来であれば後者の気もするけど。

多くのシャペロンタンパク質は「熱ショックタンパク質」(heat shock protein)と呼ばれ、HSP-60のように名付けられている。こう呼ばれるのは細胞が熱にさらされた時大量に作られるからである。一般的に熱はタンパク質を不安定化させ、誤った折りたたみをより起きやすくしてしまう。だから本当に熱くなった時、細胞はこれらシャペロンの追加支援を必要とするのである。

Gタンパク質

G蛋白質をあまり丁寧にみたことはなかった。

βサブユニットを見ることにも時間を費やして欲しい。ペプチド鎖を主鎖表現やリボン表現で表示すると、鎖がきれいなプロペラ型の構造をとっているのが分かるだろう

主要組織適合性複合体(Major Histocompatibility Complex)

FMOかけよ

MHCタンパク質は、黄色い星印で示したチロシン(tyrosine)の各末端でペプチドをつかんでいる。2つの構造でこの3つの位置が似ていることに注目して欲しい。ペプチドはこの場所でMHCにつながれているが、他のアミノ酸は外側に伸びてタンパク質から外れている。

オーキシンとTIR1ユビキチンリガーゼ

正しくないフォールディングってのは物性的にわかりやすい駄目な指標があるってことかな?免疫系の抗原提示みたいなことが蛋白質レベルで行われているってことかな?

オーキシンがユビキチンに結合した構造によって別の驚くべきことが分かった。オーキシンは、Aux/IAAタンパク質がリガーゼに結合するのを促してそれらの破壊を導くが、タンパク質の形を変えることでこの仕事を行っている訳ではない。そうではなく、2つの分子の間に架橋する分子のりとして働くのである。オーキシンはユビキチンリガーゼの深い窪みの中に結合して穴を埋め、Aux/IAAタンパク質に完全に合致した表面を作り出す。

低酸素誘導因子

虚血も興味がある。

酸素が不足した細胞は、多くの赤血球を生み出しより多くの血管をつくるよう身体に伝える信号を送り出す。また、代謝のしくみを変えて、あまり多くの酸素を必要としないエネルギー代謝経路を使うようにする。

スプライソソーム

わからん

細胞の分子生物学の「細胞の内部構造」のパートを精読してた

ちょっと色々調べないといけなかったのだが、知らんことが多すぎたので週末は細胞の分子生物学の「細胞の内部構造」のパートを精読していた。

  • 10: 膜の構造
  • 11: 少分子の膜輸送と膜の電気的性質
  • 12: 細胞内区画と蛋白質の選別
  • 13: 細胞内における小胞の移動
  • 15: 細胞の情報伝達

ProductName 細胞の分子生物学
ニュートンプレス / ¥19,800 (2010-01T)

ゲノム系計算科学

筆者らはバイオインフォマティクスを「DNAやアミノ酸の配列情報を主に文字の配列と見てその検索や文法を解析する学問」とするのに対し、ゲノム系計算科学を「ゲノムを物理的実体と見て自然科学的に理解するための学問」としている。

DNAとそれに結合するタンパク質の間の電気的相補性はどうも分子認識の特異性にはあまり関係しないと考えられる。

このあたりですね。

色々と面白いことが書いてあったが、膜貫通蛋白の構造生物学が好きな人向けかな。

ゲノムデータ解析

GWAS関連の解析の具体的な方法や、そのためのRパッケージの紹介など、GWAS関連の論文を読むときに知っておくといいことがわかりやすく説明されているので良かった。

これが一番現場向けかもしれないが、Haploviewの結果の読み方の説明などはないので、そのあたりもう少し厚めに解説してあると嬉しかったかも。とはいえそんなのは自分で調べればいいだけなので、調べるべきことのポインタが示されている本書は重宝するだろう。

ProductName ゲノムデータ解析 (統計学One Point 1)
共立出版 / ¥2,420 (2016-09-08)

ちなみに私くらいの知識だと遺伝統計学入門を行ったり来たりしながら読み勧めないといけなかったので、別途入門書は必要かなとは思う。

ゲノム医学のための遺伝統計学

読んだ。

GWASのあたりをわかりやすく解説していたので非常に良かった。