21062020 chemoinformatics bioinformatics
久しぶりに面白い論文を読んだ。極めてインフォマティクスらしいアプローチでとても素晴らしいと思った。能動学習と組み合わせても面白いんではないかと思ったので後で試してみる。
Practical Applications of Deep Learning To Impute Heterogeneous Drug Discovery DataというJ.C.I.Mのペーパーだけど、research gateからも読めるみたい。
個人的にはマルチタスク学習も転移学習もDrug Discoveryのデータの予測にはあんまり有効じゃないんだろうなーと思っていて、特にマルチタスクなんて共通な特徴量抽出だろうから、それって結局脱溶媒に帰着してハンシュフジタのlogPに無事着陸帰還とというか、「1mmも前進してないじゃないか?美しくないなオイ」くらいに思っている。
Significant improvements over “conventional” machine learning are generally only seen in large data sets or in the case of multitask learning where there are strong correlations between the endpoints.
本論文ではインピュテーションを採用している。特に特徴量学習とかのそもそも化合物表現を攻めずに、与えられたデータから尤もらしい測定値を推定するアプローチをとっているのがインフォマティクスらしくて良いと思った。これにより、特に細胞系のアッセイでの予測精度の向上が大きいが、その理由を次のように考察している。
In particular, we can see that the project A cell 2 (cell proliferation) results cannot be predicted with conventional QSAR methods; a negative R2 indicates a performance that is worse than random (i.e., shuffling the test labels). This is likely because cell activity depends not only on target protein activity but also on the compound reaching the target which will be strongly influenced by physicochemical and ADME properties.
細胞系のアッセイだと、膜透過もパラメータとして取り込んだほうがいいから物性の結果(予測、実験値)ともに特徴量として放り込むこと多いだろうから、inputationで欠損値を埋めるアプローチって上手いよなぁと感心した。
このあたりをもう少し丁寧に読んでおくべきだろう。
- Imputation of Assay Bioactivity Data Using Deep Learning
- Data-driven missing data imputation in cluster monitoring system based on deep neural network
測定系同士に関連性がある場合に精度が向上するってあれじゃン、発現データじゃんとおもってバイオインフォマティクス関連の文献調べたらDeepImpute: an accurate, fast, and scalable deep neural network method to impute single-cell RNA-seq dataってのを見つけた。
これとimmunedeconvを組み合わせて、任意の免疫系細胞で着目している遺伝子の発現量を推定できないかな?
コンサルタントの秘密―技術アドバイスの人間学
改訂合本 ネイティブの感覚で前置詞が使える
[改訂第7版]LaTeX2ε美文書作成入門


羊をめぐる冒険(上) (講談社文庫)
羊をめぐる冒険(下) (講談社文庫)
ABC ケチャップマニス
LORINS PATIS パティス 1000ml フィリピン産魚醤油
細胞の分子生物学
工房アイザワ ステン 中華返し 70313
新越ワークス マッシャー 18-8ステンレス 日本製 31976
下村工業 (断面をなみなみにカット)フルベジ なみじゃがナイフ
下村企販 スープこし つぶしてこせる こし器 ステンレス 日本製 39905
Z会グレードアップ問題集 小学6年 算数 計算・図形 改訂版
ゲノム系計算科学 ―バイオインフォマティクスを越え,ゲノムの実像に迫るアプローチ― (計算科学講座 7)