19 04 2020 bioinformatics Tweet
Attention関連の調べ物をしていた。
でその上で、Compound-protein interaction prediction with end-to-end learning of neural networks for graphs and sequences.を読んだ感想となる。
引っかかったのは表題の通りで、Fig.9 (A)でcorrectly capture the interaction sitesってなってるけど、この領域はATPの結合サイトだろうからキナーゼ間で強く保存されているはずで、単にAttentionでひっかかっただけではなかろうか?学習できたというよりはデータのバイアスでそれっぽく見えたと考えるほうが自然かなぁ。右上のほうのアルファヘリックスもinteractionには関係なさそうだけどattentionでひっかかっているのでなんとなくそうっぽいし、実際に訓練セットでマルチプルアライメントしたら高度に保存されている領域として出てこないだろうか?
一方で、フラグメントスクリーニングのような多量の結合データにおいてはこういう手法は面白いのかなーと考えている。こういったものに適応できればいい感じだし。
ただ、その場合蛋白質側が文字列でうまくいくのかなー?っていう疑問は残る。この場合は、Conclutsionに記載されているように3Dで学習させてみて、って感じでしょうかね?
However, the development of GNN for 3D structured proteins is an important challenge; in particular, we believe that such a ‘3D GNN’ will allow us to achieve higher performance, provide more detailed analysis, and obtain more useful information for 3D interaction sites between compounds and proteins derived from the perspective of data-driven machine learning approach.
それでも過度な抽象化しているような気はするけど。