Drkcore

バリアントデータ検索&活用 #VariantRecipe

台風で自宅警備していたのと、久しぶりに読書をする時間があったのでほぼ一日かけてバリアントデータ解析の本を読んだ。

結論から言うと、大変良いので皆さんもとっとと購入して読みましょう。実験医学の別冊は値段のお高さで定評があるけど、旬の情報（日本語での）への自分への投資と考えると費用対効果は高いと思います。

バリアントデータ検索&活用変異・多型情報を使いこなす達人レシピ (実験医学別冊)
羊土社 / ￥5,500 (2020-09-29)

自分のニーズとしてはAZの5RフレームワークでいうところのRight Targetにあるので、やはりChapter1が一番面白かったし、時間も割いて読んだ。Chapter2はどっちかというとRight Patientに対応するのかな？このあたりは弱いので他の人に任せたい。Chapter3のがんはちょっと興味があるけど、免疫の章があるとより嬉しかった。あとCOLUMNが読み物としては一番面白かった。

Chapter1は特にClinVarとGWAS Catalogの使い方が丁寧に説明されていてよかった。Resultの見方でよくわからん項目などあったので、丁寧に説明してあってなるほどーと思った。

ただ、ClinVarなどでPathogenicな変異（ミスセンス変異とか）がアミノ酸にマップされて、タンパク質の三次元構造のどの位置にあたるかが判明してもその変異と疾患との関係性はどっちかという物理化学の範疇になってしまい、そこから先はメディシナルケミスト的な素養が必要になってくると思うので本書ではそこまでは踏み込んでいなかった。

30082020 bioinformatics

Protein degrader

PROTACとか色々なdegraderの話がまとまっている。

実験医学 2020年9月 Vol.38 No.14 実験にも創薬にも使える! プロテインノックダウン〜ユビキチン系・オートファジー系を利用しundruggableな標的タンパク質を分解する
羊土社 / ￥2,200 (2020-08-24)

が、ノンケミストにわかりやすく説明する感じの特集であったので、分かる人はJ.M.Cとかのレビューを見たほうがよいかもと思った。

11072020 bioinformatics

なぜ「顧客が必要としないもの」を提供しようとするのか？

顧客の要件をきちんと理解することの続き。

結局、なんでこんなことになっているのかを考えてみるに、

顧客が説明した要件
プロジェクトリーダーの理解（おそらくこっち）

に問題があるんだろうなーと。プロジェクトリーダーがきちんと理解してないから適切に現場のタスクにブレークダウンされていなくて、私が現場の月次ミーティングでそれに対して物申しているのだろう。というわけで、ミーティングで文句言うくらいだったら、最初から打ち合わせできちんと調整したほうがよろしいんかなぁと思い始めている。

トヨタ生産方式
ダイヤモンド社 / ￥1,109 (2012-09-14)

23062020 bioinformatics

免疫ペディア〜101のイラストで免疫学・臨床免疫学に強くなる!

買った。Kindleだと読みづらいので紙版にした。持ち歩くことも特にないだろうし。

免疫ペディア〜101のイラストで免疫学・臨床免疫学に強くなる!
羊土社 / ￥6,270 (2017-06-07)

21062020 chemoinformatics bioinformatics

Deep Learning To Impute Heterogeneous Drug Discovery Data

久しぶりに面白い論文を読んだ。極めてインフォマティクスらしいアプローチでとても素晴らしいと思った。能動学習と組み合わせても面白いんではないかと思ったので後で試してみる。

Practical Applications of Deep Learning To Impute Heterogeneous Drug Discovery DataというJ.C.I.Mのペーパーだけど、research gateからも読めるみたい。

個人的にはマルチタスク学習も転移学習もDrug Discoveryのデータの予測にはあんまり有効じゃないんだろうなーと思っていて、特にマルチタスクなんて共通な特徴量抽出だろうから、それって結局脱溶媒に帰着してハンシュフジタのlogPに無事着陸帰還とというか、「1mmも前進してないじゃないか？美しくないなオイ」くらいに思っている。

Significant improvements over “conventional” machine learning are generally only seen in large data sets or in the case of multitask learning where there are strong correlations between the endpoints.

本論文ではインピュテーションを採用している。特に特徴量学習とかのそもそも化合物表現を攻めずに、与えられたデータから尤もらしい測定値を推定するアプローチをとっているのがインフォマティクスらしくて良いと思った。これにより、特に細胞系のアッセイでの予測精度の向上が大きいが、その理由を次のように考察している。

In particular, we can see that the project A cell 2 (cell proliferation) results cannot be predicted with conventional QSAR methods; a negative R2 indicates a performance that is worse than random (i.e., shuffling the test labels). This is likely because cell activity depends not only on target protein activity but also on the compound reaching the target which will be strongly influenced by physicochemical and ADME properties.

細胞系のアッセイだと、膜透過もパラメータとして取り込んだほうがいいから物性の結果(予測、実験値)ともに特徴量として放り込むこと多いだろうから、inputationで欠損値を埋めるアプローチって上手いよなぁと感心した。

このあたりをもう少し丁寧に読んでおくべきだろう。

測定系同士に関連性がある場合に精度が向上するってあれじゃン、発現データじゃんとおもってバイオインフォマティクス関連の文献調べたらDeepImpute: an accurate, fast, and scalable deep neural network method to impute single-cell RNA-seq dataってのを見つけた。

これとimmunedeconvを組み合わせて、任意の免疫系細胞で着目している遺伝子の発現量を推定できないかな？

14062020 bioinformatics

顧客の要件をきちんと理解すること

顧客が本当に必要だったものという風刺画はだれでも一度は目にしたことがあるだろう。

顧客はそもそも自分が欲しい物をきちんと理解していないことが多いため、自分の理解の範囲で要望を伝えることに問題があるし、それを字面通りに受け取るプロジェクトリーダーが要求の本質を理解していないということも同様に問題かと思う。解析という仕事においても同じことはあてはまる。特にケモインフォやバイオインフォの解析において、顧客はメディシナルケミストだったり、薬理の研究者だったりするわけだが、かれらの要求（知りたいこと）を彼ら自身がきちんと認識していないことは往々にしてある。

もし、こうい解析タスクが割り当てられて、その評価に労働時間が考慮されているのであれば、間違ったことを繰り返すことになんの問題もない、むしろ沢山の間違いを繰り返して、顧客から労働対価をぶんどるのは正しい戦略かと思う。社内においても「依頼されたタスク」を遂行する、そしてその時間の多寡が評価されるのであれば、特段問題ないと思う。

ただ、既にWFHが当たり前になりつつ状況で労働時間そのものを評価の指標にすることは減ることはあれど、増えることはないと思う。つまり「顧客が本当に必要だったもの」をいかに早く少ない労力で提供するかが評価指標にシフトしていくんだろうなぁと思っている。

最近、いくつかのミーティングに出ていて、 「それそのまま鵜呑みにして実行したら、そりゃそういう話に持っていかれるだろうな」 と思うことがいくつか重なったのでメモがてら書いてみた。

コンサルタントの秘密―技術アドバイスの人間学
共立出版 / ￥1,156 (1990-12-01)

25052020 chemoinformatics bioinformatics

今月の分子で興味をひかれたもの

PDBjの今月の分子を眺めて興味が湧いたもののメモ

tRNA

下の図は、PDBエントリー 4tna のフェニルアラニン運搬RNAの構造で、３つの塩基の相互作用を示している。シトシンとグアニンは、DNAでも見られる典型的な塩基対を形成するが、２つ目のグアニンはメチル基（右端中央の灰色の球）が付加されており、通常見られない相互作用を塩基対と形成する。

FMO案件

シャペロン

シャペロンも改めて考えてみるとよくわからん。フォールディングしやすく空間を与えるのか、熱変性しにくくする空間を与えるのか？HSPの名前の由来であれば後者の気もするけど。

多くのシャペロンタンパク質は「熱ショックタンパク質」（heat shock protein）と呼ばれ、HSP-60のように名付けられている。こう呼ばれるのは細胞が熱にさらされた時大量に作られるからである。一般的に熱はタンパク質を不安定化させ、誤った折りたたみをより起きやすくしてしまう。だから本当に熱くなった時、細胞はこれらシャペロンの追加支援を必要とするのである。

Gタンパク質

G蛋白質をあまり丁寧にみたことはなかった。

βサブユニットを見ることにも時間を費やして欲しい。ペプチド鎖を主鎖表現やリボン表現で表示すると、鎖がきれいなプロペラ型の構造をとっているのが分かるだろう

主要組織適合性複合体（Major Histocompatibility Complex）

FMOかけよ

MHCタンパク質は、黄色い星印で示したチロシン（tyrosine）の各末端でペプチドをつかんでいる。２つの構造でこの３つの位置が似ていることに注目して欲しい。ペプチドはこの場所でMHCにつながれているが、他のアミノ酸は外側に伸びてタンパク質から外れている。

オーキシンとTIR1ユビキチンリガーゼ

正しくないフォールディングってのは物性的にわかりやすい駄目な指標があるってことかな？免疫系の抗原提示みたいなことが蛋白質レベルで行われているってことかな?

オーキシンがユビキチンに結合した構造によって別の驚くべきことが分かった。オーキシンは、Aux/IAAタンパク質がリガーゼに結合するのを促してそれらの破壊を導くが、タンパク質の形を変えることでこの仕事を行っている訳ではない。そうではなく、２つの分子の間に架橋する分子のりとして働くのである。オーキシンはユビキチンリガーゼの深い窪みの中に結合して穴を埋め、Aux/IAAタンパク質に完全に合致した表面を作り出す。