ChemDB

ChemDBはDBMSにポスグレつかってるらしい。他のDBとの比較があったので眺めたが、アノテーションの多さが売りのデータベースって感じかな。

ちなみに、マシンラーニング用のデータセット が遊ぶにはいい感じ。なんかいい記述子発生ソフトとかあればR使っていじってみたいところだが、オープンソースのdescriptorプロジェクトってあんのかな?ないのかな?サブストラクチャーベースのヤツだったらありそうな気もするけど。

あと、ChemDBで使われているOEChemのpythonライブラリが非常に気になったりしたヨ。そしてChEBIにはChemAxonの影が。

気になるといえば、第3回オープンバイオ研究会「ビジュアライズの技法」というパネルセッションも気になる(さすがにいけないけど)。スライドとか公開されんのかな?

16174682 16381955 15608238 16381840

GeneRank

GoogleのPageRankをモジッてGeneRank。もちろんアルゴリズムを参考にしてます。PageRankはここみるとなんとなくわかるかも。

多分5年くらい前だと思うが、アレイのブームあたりで、どっかのベンチャーがGoogleのアルゴリズムを取り入れたいとか言っていたことを思い出したヨ。

さて、大雑把なGeneRankの式は

ランク = (1-d) x 発現変動率 + d x 結合度

みたいな感じ。PageRankだと左の項は(飽きて)他のページにいっちゃう項で、右項がリンクをたどる項か。要するに右の項は束縛なんだろうと思う。というわけで、GeneRankは発現変動率を、GOとか他のネットワークの情報である程度補正するイメージになるかな。程度はdで決める。

ちなみにPageRankはd=0.85らしい。が、そんなに大きい確率でリンク辿るか?ブログが多くなってくるとあんまりリンクを辿るという行為をしなくなるよな。

GeneRankでは、これをGOのネットワークとかで補正をかけて評価してます。が、あんま改善されてないっぽい。転写の制御被制御をGOで補正しようというところに無理があるのかな?と思ってみたりする。

同じシスエレメント持っているとかのネットワークを使ったほうがうまくいくのかも知れない。がそれって作るの大変ダヨナァ。というか、ネットワークをどう表現するかで、ランキングが改良されるかどうか決まるっぽいんだが。文献からNLPで作った、ネットワークは使えないんだろうかね。

16176585

PSI-BLAST-ISS

ホモロジーモデリングをするとき、一番気を使うのはテンプレートとなる結晶構造の選択と、それへの配列のアライメントではないかと思う。

というわけで、テンプレートの選択と配列アライメントのためには、類縁の遺伝子の機能とかモチーフとか進化的な素因とかきちんと理解したり、さらには立体構造アライメントによる、類似構造の機能と構造の相関とか地道に押さえることがいいモデル作成の秘訣だったりするため、トライアンドエラーは当たり前。

PSI-BLASTとcd-hitを組み合わせたPSI-BLAST-ISSを使えばここら辺の作業の効率化と迅速化がはかれるっぽいので、これってイイかもなんて思ったりする

16033659 11294794 11836214

DDBJにSOAPってみる

SOAPな環境も出来たので、外のサーバーにSOAPでクエリを送ってみることに、わりと近めの遺伝研チュートリアルをみながら。

楽勝!! スクリプトがスッキリしててなんか気持ちいい

#!/usr/bin/perl #SOAP Lite のインクルード use SOAP::Lite; #WSDLの指定 $service = SOAP::Lite -> service('http://xml.nig.ac.jp/wsdl/GetEntry.wsdl'); #WEBサービスの呼び出し $result = $service->getXML_DDBJEntry("AB000003"); print $result;

この勢いで、E-Utilities Web Serviceにチャレンジしたが、どうもうまくいかない。パラメータの辺りなんだけど、、、

SOAPでpubmed検索してみたかったんだが、、、、

colinux(debian)にEMBOSS+Bio::Emboss

colinuxにバイオ関連のツールを入れる場合に配列解析用のEMBOSSは外せない。 colinuxにはX入れてないのでwith-x=noオプションをつけてコンパイル

./congigure --with-x=no make make install

続いてBio::Embossを入れてperlからも扱えるように。

per -MCPAN -e 'install Bio::Emboss'

これは駄目、こけた。.cpan/build/Bio-Emboss-3.0.0をみてみると、環境変数の設定とライブラリを展開しておかないといけないらしい。 なんで、さっきインストールに使ったEMBOSS-3.0.0ディレクトリを/usr/local/srcに移してexportで次の二つの環境変数を設定。

  • $EMB_ROOT=/usr/local
  • $EMB_SRC_ROOT=/usr/local/src/EMBOSS-3.0.0

更に、メモリも256Mまであげないとコンパイルが通らないがswap用のイメージ用意していないので、default.colinux.xmlにメモリを256にして再起動

あとは普通に

perl Makefile.PL make make install

でOKだが、ライブラリアクセス用のモジュールなので当分使わないかも。コマンド呼び出しのモジュールはないのかな?bioperlはアウトプットパーザーみたいなナ感じでイマイチだし。知らないだけか?

MDエンジン

分子動力学法(MD)はいまんとこインシリコ創薬シーンの中核技術とは言えないけど、ちょっと気にはなる。インシリコ創薬シーンのメインストリームはずばり目視、これだね。MD,MO,MMがまだ基礎研究レベルだっていう印象もたれている部分もあると思うが、結局ケミストと対話しないといけないからね。ま、そこらへんはバイオのwetとdryと一緒みたいなもんなんだけど。

新薬開発を支援するNECの分子動力学計算サーバ - @IT

NECは11月29日、分子動力学(MD:Molecular Dynamics)計算専用ハードウェア「MDエンジン」を搭載したサーバ「Express5800/MD Server」を発表した。同社は2004年に富士ゼロックスからMDエンジンを継承し、独自のLSI技術を適用しながらサーバへの実装を進めてきた。

細かいところとか感覚的な部分も含めてMDも勉強しないとなぁ。