25042020 life
嘘喰いの作者の次作。カポエラの話
一巻は期間限定無料で読める。
23042020 bioinformatics
なんかのアンケートに回答したらアマゾンギフト券が送られてきたので本を購入。
マルチオミクスの号はまだ読んでない。
22042020 chemoinformatics q-chem
私の一番大きな興味は蛋白質と低分子化合物の相互作用を如何に深く理解するかってことで、最近は量子化学のパラメータを記述子として使ったりしてるんだけど、ガチ量子系の研究者の言ってることがにわかの私には理解できないことがたまにある。
最近であったconfusionは励起状態への遷移に伴うインデュースドフィットの描像が古典力学の解釈でのそれとはなんか違うような気がして時間的な変化どうなってんのかねーという疑問が湧いたので、この本を読み直している。
レチナールとか視覚系は量子化学的な取り扱いしないといけないとは思っているけど、普通の低分子化合物の場合はどこまで非占有有軌道が効いてくるのか興味があるところ。
19042020 bioinformatics
Attention関連の調べ物をしていた。
でその上で、Compound-protein interaction prediction with end-to-end learning of neural networks for graphs and sequences.を読んだ感想となる。
引っかかったのは表題の通りで、Fig.9 (A)でcorrectly capture the interaction sitesってなってるけど、この領域はATPの結合サイトだろうからキナーゼ間で強く保存されているはずで、単にAttentionでひっかかっただけではなかろうか?学習できたというよりはデータのバイアスでそれっぽく見えたと考えるほうが自然かなぁ。右上のほうのアルファヘリックスもinteractionには関係なさそうだけどattentionでひっかかっているのでなんとなくそうっぽいし、実際に訓練セットでマルチプルアライメントしたら高度に保存されている領域として出てこないだろうか?
一方で、フラグメントスクリーニングのような多量の結合データにおいてはこういう手法は面白いのかなーと考えている。こういったものに適応できればいい感じだし。
ただ、その場合蛋白質側が文字列でうまくいくのかなー?っていう疑問は残る。この場合は、Conclutsionに記載されているように3Dで学習させてみて、って感じでしょうかね?
However, the development of GNN for 3D structured proteins is an important challenge; in particular, we believe that such a ‘3D GNN’ will allow us to achieve higher performance, provide more detailed analysis, and obtain more useful information for 3D interaction sites between compounds and proteins derived from the perspective of data-driven machine learning approach.
それでも過度な抽象化しているような気はするけど。
19042020 bioinformatics
ギフト券が余っていたので買った。
瀬々先生の機械学習関連の話題をまとめた章が一番参考になったので、関連論文を落としてきて読んでいる。
それから沖先生、太田さんのChip-Atlasの解説がしてあるクローズアップ実験法も参考になった。TogoTVだとこのへん。
WGCNAでモジュール分割してから ChIP-Atlasでエンリッチメント解析するとどうなるんだろう?と疑問に思ったので今度試してみる。
紙だと結構場所を取るので、Kindleでしかもさっとダウンロードできるのは嬉しい。ただし、レイアウト固定だと7インチFireタブレットでは読みにくいので次は10インチを買おうかなと思っている。持ち歩きどうなんだろうか?という不安はあるけど。
18042020 bioinformatics
積んであった本を読んでいた。
メタボロームってゲノムとかよりは表現系に近いところを観測しているから、文字列の並びとか抽象的なネットワーク図よりはもっと生体システムというかシステムバイオロジーのような定量性をもったシミュレーションができないとメカニズムの解釈しにくいように思うんだけど、そのあたりどうなんかなーって思った。
物化寄りの私としてはネットワークダイアグラムではなくて相分離的なアプローチで解釈していくほうがなんとなくしっくりくるかなぁと思った。
13042020 bioinformatics
COVID-19による在宅勤務が増えるに従い、ネットワークの帯域の奪い合いが激化してネットが激重で昼間は仕事にならないことが多い。
イライラしながら計算流すよりも、新しい知識を仕入れるためのまとまった時間と考えたほうが生産的であろうと、普段読めない本や論文を読むようにしている。
というわけで、最近は遺伝統計学の勉強をしている。
最初の方の章を丁寧に数式を追いかけて理解した。これは非常にわかりやすかったのでおすすめ。 それから8章の連鎖不平衡を用いた解析や、11章のノンパラメトリック連鎖解析、12章のQTLあたりが良かった。特に家系を追いかけたりしないけど、一応知識としては頭に入れておかないといけないことを理解した。
実験医学のGWAS特集もタイミングが良かった。ただ、読み物としての側面が強いので、遺伝統計学入門のような教科書っぽいGWASの本があれば嬉しい。
以下、参考になった特集(あとで読み直すリスト)
次はこのあたりでも読む予定
06042020 bioinformatics
手持ちのMacBookAirのSSDの容量が10Gないんで、手元で動かすのを諦めて読んだだけだが。
分生で@oec014に「この本役に立つと思うよ」って勧められて購入。自分は完全Dry側で、どっちかというと公開されているデータを自分でいじって何かを見つけ出したいのだけど、そういう人間にとってもかなり有用な本であった。実際、公開データをワシャワシャと解析してみたい気分にさせられた。
全体を通してわかりやすかったのだけど、5章はちょっと説明の丁寧さに欠けているかなと思った(かなり説明端折ってるよね)。それから、ある程度BioinformaticsがわかっているうえでRNA-Seqデータ解析のお作法を知るための本かなーと感じているので、本当の初心者はこっちの本も併せて勉強するといいと思う。
05042020 bioinformatics
昨日のエントリでハブ遺伝子ってバイオマーカーにはならんのちゃう?って書いたのだけど。
それからハブとなる遺伝子は、細胞としての機能を保つためにはおそらく重要な因子にはなるんだろうけど、疾患の状態に関してはあまり意味がなさそうな感じ。例えばがんとかだったらハブ遺伝子に着目するべきなんだろうけど、painとか精神疾患のような細胞そのものに起因するような状態でなければハブに着目するというよりはその周りの何かを特徴づける少数の因子のほうが重要なんだろうなーと。または共発現ではなく別のネットワークのスケールフリー性に着目するとか。
LNとNon-LNの発現プロファイルをWGCNAで解析したらトレイトと強く相関するモジュールを見つけてきてそこから最大次数を持つ遺伝子にCD36があって、これは新たなバイオマーカーとか疾患ターゲットになるんじゃないかと結論付けられている論文があった。
CD36っていろいろ機能が使い回されているが故に次数が高くなっているだろうから、こういうのに着目しちゃうと見誤りませんかね?偽陽性大きくなるとか
この論文は面白かった。GWASの知見を組み合わせている。
見いだされたSTAT1とかIRF8はこのような性質の遺伝子らしい。
もっと論文読まなあかんね。
04042020 bioinformatics
WGCNAを調べていてβの決め方がわからなかったので、理論に関して解説してあるペーパーを読んだ。
今までネットワークを結合している/していないという点でしか捉えていなかったけど0/1の次数を持つ完全グラフと考えると色々幅が広がるということに気付かされた。
シグナム関数をハードな閾値(連続値をバイナリに切り捨ててしまう)とするのに対し、ソフトな閾値としてaij = sij ** βという重みで次数を調整する。
調整の仕方はスケールフリー性を持つようにβの重みを調整する。これはチュートリアルのStep-by-step network construction and module detectionのpdfを読めば良い。
そもそも教師なし学習でのクラスタリング結果が生物学的に同等な意味を持つような遺伝子が固まるようにするためにスケールフリー性を持たすってのがいまいちピンとこないところではあるが、GTOM2で生物学的に意味の有りそうなのが固まっているのを考えるとなんかあるんだろうなとは思う。論文
それからハブとなる遺伝子は、細胞としての機能を保つためにはおそらく重要な因子にはなるんだろうけど、疾患の状態に関してはあまり意味がなさそうな感じ。例えばがんとかだったらハブ遺伝子に着目するべきなんだろうけど、painとか精神疾患のような細胞そのものに起因するような状態でなければハブに着目するというよりはその周りの何かを特徴づける少数の因子のほうが重要なんだろうなーと。または共発現ではなく別のネットワークのスケールフリー性に着目するとか。