REMUS

NARのWeb Server issueがでとったのでめぼしいものをピックアップ。

気になったのがREMUSというエピトープ探索サービス

蛋白質が発現ちゃんとしてるかとか調べるためにモノクロが欲しくなる場面は結構あって、効率的にゲットするためにホモロジーモデリングの過程で得られるループの情報を使うことは意外に多い。

溶媒に露出しているループである程度の長さのもの、特に膜を貫通する場合は細胞表面に露出しているもの

ってな感じで選択してペプチド合成すると成功率はなかなか。ただ、いつももうちょっと確度を高めたいナァとは思っていて、この論文参考に出来るかなと思って、アルゴリズムまで遡ってみた。

BioMed Central | Full text | A reinforced merging methodology for mapping unique peptide motifs in members of protein families

Members of a protein family often have highly conserved sequences; most of these sequences carry identical biological functions and possess similar three-dimensional (3-D) structures. However, enzymes with high sequence identity may acquire differential functions other than the common catalytic ability. It is probable that each of their variable regions consists of a unique peptide motif (UPM), which selectively interacts with other cellular proteins, rendering additional biological activities. The ability to identify and localize such UPMs is paramount in recognizing the characteristic role of each member of a protein family.

んー、どうもファミリー間で相同性ナイっぽいとこ探してるだけっぽいなぁ。先のモデリングの流れで考えるとSCR(構造と配列の保存された領域)でピン止めさせると残りはわりと多様性の生じやすいループの部分がわかるんだけど、それを単にファミリーのアライメントから求めているだけなのか?
それだと結果論的にループとかにnique peptide motif (UPM)が現れるのは納得できたり。

普通に二次構造予測でへリックスとかシートの領域求めてそれ以外の領域を抽出するのと比べていい結果でるんだろうか?と思ったヨ。

Bioshell

BioShellはどっちかというとモデリング向けのワンライナー用プログラムですな。

rms,str_calcなどが便利そうだ。

あとgnuplotってpm3dをセットすると綺麗に表現できるのね。知らんかった。

16407320

ChemDB

ChemDBはDBMSにポスグレつかってるらしい。他のDBとの比較があったので眺めたが、アノテーションの多さが売りのデータベースって感じかな。

ちなみに、マシンラーニング用のデータセット が遊ぶにはいい感じ。なんかいい記述子発生ソフトとかあればR使っていじってみたいところだが、オープンソースのdescriptorプロジェクトってあんのかな?ないのかな?サブストラクチャーベースのヤツだったらありそうな気もするけど。

あと、ChemDBで使われているOEChemのpythonライブラリが非常に気になったりしたヨ。そしてChEBIにはChemAxonの影が。

気になるといえば、第3回オープンバイオ研究会「ビジュアライズの技法」というパネルセッションも気になる(さすがにいけないけど)。スライドとか公開されんのかな?

16174682 16381955 15608238 16381840

GeneRank

GoogleのPageRankをモジッてGeneRank。もちろんアルゴリズムを参考にしてます。PageRankはここみるとなんとなくわかるかも。

多分5年くらい前だと思うが、アレイのブームあたりで、どっかのベンチャーがGoogleのアルゴリズムを取り入れたいとか言っていたことを思い出したヨ。

さて、大雑把なGeneRankの式は

ランク = (1-d) x 発現変動率 + d x 結合度

みたいな感じ。PageRankだと左の項は(飽きて)他のページにいっちゃう項で、右項がリンクをたどる項か。要するに右の項は束縛なんだろうと思う。というわけで、GeneRankは発現変動率を、GOとか他のネットワークの情報である程度補正するイメージになるかな。程度はdで決める。

ちなみにPageRankはd=0.85らしい。が、そんなに大きい確率でリンク辿るか?ブログが多くなってくるとあんまりリンクを辿るという行為をしなくなるよな。

GeneRankでは、これをGOのネットワークとかで補正をかけて評価してます。が、あんま改善されてないっぽい。転写の制御被制御をGOで補正しようというところに無理があるのかな?と思ってみたりする。

同じシスエレメント持っているとかのネットワークを使ったほうがうまくいくのかも知れない。がそれって作るの大変ダヨナァ。というか、ネットワークをどう表現するかで、ランキングが改良されるかどうか決まるっぽいんだが。文献からNLPで作った、ネットワークは使えないんだろうかね。

16176585

PSI-BLAST-ISS

ホモロジーモデリングをするとき、一番気を使うのはテンプレートとなる結晶構造の選択と、それへの配列のアライメントではないかと思う。

というわけで、テンプレートの選択と配列アライメントのためには、類縁の遺伝子の機能とかモチーフとか進化的な素因とかきちんと理解したり、さらには立体構造アライメントによる、類似構造の機能と構造の相関とか地道に押さえることがいいモデル作成の秘訣だったりするため、トライアンドエラーは当たり前。

PSI-BLASTとcd-hitを組み合わせたPSI-BLAST-ISSを使えばここら辺の作業の効率化と迅速化がはかれるっぽいので、これってイイかもなんて思ったりする

16033659 11294794 11836214

文献もこっちで管理しよう

読んだ論文は別のblosxomメモッとことか思ってたが、最近pubmed版のdel.icio.usみたいなほうが調子いいのかもなんて思ってる。

ブックマークレット+一行コメントでお手軽だしね

これはそのうち作ってみよう。

あとは、文献のエントリもタグくっつけておけば、すぐに検索できるし、こっちのblosxomで一緒に管理しても困らんかもとか思ったのでそうしよう。

考えたことの永続化

最近論文読む暇ないなぁと思いつつも、GeneRankはなかなか面白かったのでメモ。

考えたことを外部記憶に留めておこうblosxomを使用してみている。