30082020 bioinformatics
PROTACとか色々なdegraderの話がまとまっている。
羊土社 / ¥2,200 (2020-08-24)
が、ノンケミストにわかりやすく説明する感じの特集であったので、分かる人はJ.M.Cとかのレビューを見たほうがよいかもと思った。
30082020 bioinformatics
PROTACとか色々なdegraderの話がまとまっている。
が、ノンケミストにわかりやすく説明する感じの特集であったので、分かる人はJ.M.Cとかのレビューを見たほうがよいかもと思った。
11072020 bioinformatics
顧客の要件をきちんと理解することの続き。
に問題があるんだろうなーと。プロジェクトリーダーがきちんと理解してないから適切に現場のタスクにブレークダウンされていなくて、私が現場の月次ミーティングでそれに対して物申しているのだろう。というわけで、ミーティングで文句言うくらいだったら、最初から打ち合わせできちんと調整したほうがよろしいんかなぁと思い始めている。
23062020 bioinformatics
買った。Kindleだと読みづらいので紙版にした。持ち歩くことも特にないだろうし。
21062020 chemoinformatics bioinformatics
久しぶりに面白い論文を読んだ。極めてインフォマティクスらしいアプローチでとても素晴らしいと思った。能動学習と組み合わせても面白いんではないかと思ったので後で試してみる。
Practical Applications of Deep Learning To Impute Heterogeneous Drug Discovery DataというJ.C.I.Mのペーパーだけど、research gateからも読めるみたい。
個人的にはマルチタスク学習も転移学習もDrug Discoveryのデータの予測にはあんまり有効じゃないんだろうなーと思っていて、特にマルチタスクなんて共通な特徴量抽出だろうから、それって結局脱溶媒に帰着してハンシュフジタのlogPに無事着陸帰還とというか、「1mmも前進してないじゃないか?美しくないなオイ」くらいに思っている。
Significant improvements over “conventional” machine learning are generally only seen in large data sets or in the case of multitask learning where there are strong correlations between the endpoints.
本論文ではインピュテーションを採用している。特に特徴量学習とかのそもそも化合物表現を攻めずに、与えられたデータから尤もらしい測定値を推定するアプローチをとっているのがインフォマティクスらしくて良いと思った。これにより、特に細胞系のアッセイでの予測精度の向上が大きいが、その理由を次のように考察している。
In particular, we can see that the project A cell 2 (cell proliferation) results cannot be predicted with conventional QSAR methods; a negative R2 indicates a performance that is worse than random (i.e., shuffling the test labels). This is likely because cell activity depends not only on target protein activity but also on the compound reaching the target which will be strongly influenced by physicochemical and ADME properties.
細胞系のアッセイだと、膜透過もパラメータとして取り込んだほうがいいから物性の結果(予測、実験値)ともに特徴量として放り込むこと多いだろうから、inputationで欠損値を埋めるアプローチって上手いよなぁと感心した。
このあたりをもう少し丁寧に読んでおくべきだろう。
測定系同士に関連性がある場合に精度が向上するってあれじゃン、発現データじゃんとおもってバイオインフォマティクス関連の文献調べたらDeepImpute: an accurate, fast, and scalable deep neural network method to impute single-cell RNA-seq dataってのを見つけた。
これとimmunedeconvを組み合わせて、任意の免疫系細胞で着目している遺伝子の発現量を推定できないかな?
14062020 bioinformatics
顧客が本当に必要だったものという風刺画はだれでも一度は目にしたことがあるだろう。
顧客はそもそも自分が欲しい物をきちんと理解していないことが多いため、自分の理解の範囲で要望を伝えることに問題があるし、それを字面通りに受け取るプロジェクトリーダーが要求の本質を理解していないということも同様に問題かと思う。解析という仕事においても同じことはあてはまる。特にケモインフォやバイオインフォの解析において、顧客はメディシナルケミストだったり、薬理の研究者だったりするわけだが、かれらの要求(知りたいこと)を彼ら自身がきちんと認識していないことは往々にしてある。
もし、こうい解析タスクが割り当てられて、その評価に労働時間が考慮されているのであれば、間違ったことを繰り返すことになんの問題もない、むしろ沢山の間違いを繰り返して、顧客から労働対価をぶんどるのは正しい戦略かと思う。社内においても「依頼されたタスク」を遂行する、そしてその時間の多寡が評価されるのであれば、特段問題ないと思う。
ただ、既にWFHが当たり前になりつつ状況で労働時間そのものを評価の指標にすることは減ることはあれど、増えることはないと思う。つまり「顧客が本当に必要だったもの」をいかに早く少ない労力で提供するかが評価指標にシフトしていくんだろうなぁと思っている。
最近、いくつかのミーティングに出ていて、 「それそのまま鵜呑みにして実行したら、そりゃそういう話に持っていかれるだろうな」 と思うことがいくつか重なったのでメモがてら書いてみた。
25052020 chemoinformatics bioinformatics
PDBjの今月の分子を眺めて興味が湧いたもののメモ
下の図は、PDBエントリー 4tna のフェニルアラニン運搬RNAの構造で、3つの塩基の相互作用を示している。シトシンとグアニンは、DNAでも見られる典型的な塩基対を形成するが、2つ目のグアニンはメチル基(右端中央の灰色の球)が付加されており、通常見られない相互作用を塩基対と形成する。
FMO案件
シャペロンも改めて考えてみるとよくわからん。フォールディングしやすく空間を与えるのか、熱変性しにくくする空間を与えるのか?HSPの名前の由来であれば後者の気もするけど。
多くのシャペロンタンパク質は「熱ショックタンパク質」(heat shock protein)と呼ばれ、HSP-60のように名付けられている。こう呼ばれるのは細胞が熱にさらされた時大量に作られるからである。一般的に熱はタンパク質を不安定化させ、誤った折りたたみをより起きやすくしてしまう。だから本当に熱くなった時、細胞はこれらシャペロンの追加支援を必要とするのである。
G蛋白質をあまり丁寧にみたことはなかった。
βサブユニットを見ることにも時間を費やして欲しい。ペプチド鎖を主鎖表現やリボン表現で表示すると、鎖がきれいなプロペラ型の構造をとっているのが分かるだろう
FMOかけよ
MHCタンパク質は、黄色い星印で示したチロシン(tyrosine)の各末端でペプチドをつかんでいる。2つの構造でこの3つの位置が似ていることに注目して欲しい。ペプチドはこの場所でMHCにつながれているが、他のアミノ酸は外側に伸びてタンパク質から外れている。
正しくないフォールディングってのは物性的にわかりやすい駄目な指標があるってことかな?免疫系の抗原提示みたいなことが蛋白質レベルで行われているってことかな?
オーキシンがユビキチンに結合した構造によって別の驚くべきことが分かった。オーキシンは、Aux/IAAタンパク質がリガーゼに結合するのを促してそれらの破壊を導くが、タンパク質の形を変えることでこの仕事を行っている訳ではない。そうではなく、2つの分子の間に架橋する分子のりとして働くのである。オーキシンはユビキチンリガーゼの深い窪みの中に結合して穴を埋め、Aux/IAAタンパク質に完全に合致した表面を作り出す。
虚血も興味がある。
酸素が不足した細胞は、多くの赤血球を生み出しより多くの血管をつくるよう身体に伝える信号を送り出す。また、代謝のしくみを変えて、あまり多くの酸素を必要としないエネルギー代謝経路を使うようにする。
わからん
19052020 bioinformatics
ちょっと色々調べないといけなかったのだが、知らんことが多すぎたので週末は細胞の分子生物学の「細胞の内部構造」のパートを精読していた。
03052020 bioinformatics
30042020 bioinformatics
29042020 bioinformatics