04 04 2020 bioinformatics Tweet
WGCNAを調べていてβの決め方がわからなかったので、理論に関して解説してあるペーパーを読んだ。
今までネットワークを結合している/していないという点でしか捉えていなかったけど0/1の次数を持つ完全グラフと考えると色々幅が広がるということに気付かされた。
シグナム関数をハードな閾値(連続値をバイナリに切り捨ててしまう)とするのに対し、ソフトな閾値としてaij = sij ** βという重みで次数を調整する。
調整の仕方はスケールフリー性を持つようにβの重みを調整する。これはチュートリアルのStep-by-step network construction and module detectionのpdfを読めば良い。
そもそも教師なし学習でのクラスタリング結果が生物学的に同等な意味を持つような遺伝子が固まるようにするためにスケールフリー性を持たすってのがいまいちピンとこないところではあるが、GTOM2で生物学的に意味の有りそうなのが固まっているのを考えるとなんかあるんだろうなとは思う。論文
それからハブとなる遺伝子は、細胞としての機能を保つためにはおそらく重要な因子にはなるんだろうけど、疾患の状態に関してはあまり意味がなさそうな感じ。例えばがんとかだったらハブ遺伝子に着目するべきなんだろうけど、painとか精神疾患のような細胞そのものに起因するような状態でなければハブに着目するというよりはその周りの何かを特徴づける少数の因子のほうが重要なんだろうなーと。または共発現ではなく別のネットワークのスケールフリー性に着目するとか。