<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0"><channel><title>ncbi / Drkcore</title><link>http://blog.kzfmix.com/ncbi</link><description>Programming, Music, Snowboarding</description><language>ja</language><lastBuildDate>Thu, 02 Feb 2006 22:51:40 +0919</lastBuildDate><item><title>blastclust</title><link>http://blog.kzfmix.com/entry/1138888300</link><description>&lt;p&gt;蛋白配列や核酸配列の冗長性を除きたいときには、&lt;a href="http://www.ncbi.nlm.nih.gov/Web/Newsltr/Spring04/blastlab.html"&gt;blastclust&lt;/a&gt;を使うとよいらしい。&lt;/p&gt;
&lt;blockquote class="terminal"&gt;
blastclust -i infile -o outfile -p F -L .9 -b T -S 95
&lt;/blockquote&gt;

&lt;p&gt;上の例だと、infileの配列を、配列の90%以上の領域で95%以上の同一性を持つものをクラスタリングして出力します。&lt;/p&gt;
&lt;p&gt;でも、実際に検索したり、配列いじくったりする側からすると、&lt;strong&gt;最初に配列リストありき&lt;/strong&gt;みたいな状況は稀で、大概次のような処理フローになると思うから、コレだけだとイマイチ使えん。&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;NR,NT,SNP,ESTなんかにblast検索&lt;/li&gt;
&lt;li&gt;ヒットしたIDから配列リストをゲット&lt;/li&gt;
&lt;li&gt;マルチプルアライメント or クラスタリング&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;blastallでfastalistを吐くか、id-listを吐けば　&lt;strong&gt;blastall | fastacmd&lt;/strong&gt; が出来るから、&lt;/p&gt;
&lt;blockquote class="terminal"&gt;
blastall -p blastn -d nt -i XXX.seq -e 1e-20 | blastclust -o outfile -p F -L .9 -b T -S 95
&lt;/blockquote&gt;

&lt;p&gt;こんな感じでワンライナーになって使いやすいかな。いまのとこ、同じことやる自前のスクリプトのほうが取り回しがらくだ。&lt;/p&gt;
&lt;p&gt;ん？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;1をタブ区切りで出力させて、fastacmdで2を実行するコマンド作っておけば&lt;/strong&gt;ワンライナーへの道は開けるか？&lt;/p&gt;</description><pubDate>Thu, 02 Feb 2006 22:51:40 +0919</pubDate><category>ncbi</category></item><item><title>PubmedでRSS配信</title><link>http://blog.kzfmix.com/entry/1133917743</link><description>&lt;p&gt;やっと&lt;a href="http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed"&gt;Pubmed&lt;/a&gt;がRSS配信するようになったのね。&lt;/p&gt;
&lt;p&gt;&lt;img alt="pubmed rss" src="http://www.kzfmix.com/images/blosxom/pubmed_rss.jpg" /&gt;&lt;/p&gt;
&lt;p&gt;というわけで、PubmedのRSSを&lt;a href="http://www.bloglines.com/"&gt;bloglines&lt;/a&gt;か&lt;a href="http://blog.kzfmix.com/entry/1126616121"&gt;feed on feeds&lt;/a&gt;でチェックすればよいんだけど、既読と未読の管理をしないと効率よく捌けないので、なにか作らないといけないな。&lt;/p&gt;
&lt;p&gt;Catalyst使うときが近づいているのか？&lt;/p&gt;
&lt;p&gt;なんて。&lt;/p&gt;</description><pubDate>Wed, 07 Dec 2005 10:09:03 +0919</pubDate><category>ncbi</category></item><item><title>hubmed</title><link>http://blog.kzfmix.com/entry/1119151466</link><description>&lt;p&gt;やっぱ、「暗黙知の共有」が一番おもろいよね～と思うことしばしば。&lt;/p&gt;
&lt;p&gt;ってことで、ごく限られたチームの中で
&lt;a href="http://www.hubmed.org/"&gt;hubmed&lt;/a&gt;とか使えないかナァと思ったり。
これとblosxomを組み合わせて適当にプラグイン入れれば何かがokな感じもするので、やってみようかなぁと思ったりするわけだヨ。&lt;/p&gt;</description><pubDate>Sun, 19 Jun 2005 12:24:26 +0919</pubDate><category>blosxom</category><category>ncbi</category></item><item><title>bl2fasta</title><link>http://blog.kzfmix.com/entry/1119151129</link><description>&lt;p&gt;&lt;a href="http://blog.kzfmix.com/entry/1138888300"&gt;blastからfastaを出力するプログラム欲しい&lt;/a&gt;ってことで&lt;a href="/tools/bl2fasta.txt"&gt;自分で書いてみた&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;最初はGetoptモジュール使ってちゃんとやろうと思ったんだが、blastallってオプション多すぎていちいち面倒なんで、ARGV適当につなげて、オプションのチェックはblastallにまかせた。&lt;/p&gt;
&lt;p&gt;普通にblastallのオプションが使えて&lt;/p&gt;
&lt;blockquote class="terminal"&gt;
# bl2fasta -p blastp -i top2.seq -d pdbaa
&gt;gi|4929914|pdb|1BJT|  Topoisomerase Ii Residues 409 - 1201
ENALKKSDGTRKSRITNYPKLEDANKAGTKEGYKCTLVLTEGDSALSLAVAGLAVVGRDYYGCYPLRGKMLNVREASADQ
ILKNAEIQAIKKIMGLQHRKKYEDTKSLRYGHLMIMTDQDHDGSHIKGLIINFLESSFLGLLDIQGFLLEFITPIIKVSI
TKPTKNTIAFYNMPDYEKWREEESHKFTWKQKYYKGLGTSLAQEVREYFSNLDRHLKIFHSLQGNDKDYIDLAFSKKKAD
DRKEWLRQYEPGTVLDPTLKEIPISDFINKELILFSLADNIRSIPNVLDGFKPGQRKVLYGCFKKNLKSELKVAQLAPYV
SECTAYHHGEQSLAQTIIGLAQNFVGSNNIYLLLPNGAFGTRATGGKDAAAARYIYTELNKLTRKIFHPADDPLYKYIQE
DEKTVEPEWYLPILPMILVNGAEGIGTGWSTYIPPFNPLEIIKNIRHLMNDEELEQMHPWFRGWTGTIEEIEPLRYRMYG
RIEQIGDNVLEITELPARTWTSTIKEYLLLGLSGNDKIKPWIKDMEEQHDDNIKFIITLSPEEMAKTRKIGFYERFKLIS
PISLMNMVAFDPHGKIKKYNSVNEILSEFYYVRLEYYQKRKDHMSERLQWEVEKYSFQVKFIKMIIEKELTVTNKPRNAI
IQELENLGFPRFNKEGKPYYGSPNDEIAEQINDVKGATSDEEDEESSHEDTENVINGPEELYGTYEYLLGMRIWSLTKER
YQKLLKQKQEKETELENLLKLSAKDIWNTDLKAFEVGYQEFLQRDAEARGGNVPNKGSKTKGKGKRKLVDDED
&gt;gi|3891992|pdb|1AB4|  59kda Fragment Of Gyrase A From E. Coli
VGRALPDVRDGLKPVHRRVLYAMNVLGNDWNKAYKKSARVVGDVIGKYHPHGDSAVYDTIVRMAQPFSLRYMLVDGQGNF
GSIDGDSAAAMRYTEIRLAKIAHELMADLEKETVDFVDNYDGTEKIPDVMPTKIPNLLVNGSSGIAVGMATNIPPHNLTE
VINGCLAYIDDEDISIEGLMEHIPGPDFPTAAIINGRRGIEEAYRTGRGKVYIRARAEVEVETIIVHEIPYQVNKARLIE
KIAELVKEKRVEGISALRDESDKDGMRIVIEGEVVLNNLYSQTQLQVSFGINMVALHHGQPKIMNLKDIIAAFVRHRREV
VTRRTIFELRKARDRAHILEALAVALANIDPIIELIRHAPTPAEAKTALVANPWQLGNVAAMLEDAARPEWLEPEFGVRD
GLYYLTEQQAQAILDLRLQKLTGLEHEKLLDEYKELLDQIAELLRILGSADRLMEVIREELELVREQFGDKRRTEIT
&gt;gi|66361362|pdb|1Z84|B Chain B, X-Ray Structure Of Galt-Like Protein From Arabidopsis Thaliana At5g18200
&lt;/blockquote&gt;

&lt;p&gt;または、パイプでつなげて&lt;/p&gt;
&lt;blockquote class="terminal"&gt;
# bl2fasta -p blastp -i top2.seq -d pdbaa | blastclust
May 30, 2005  8:59 PM Start clustering of 6 queries
52696130 66361362
4929914
3891992
18159024
15826535
&lt;/blockquote&gt;

&lt;p&gt;みたいにも使える。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;使い道？&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ホモロジーモデリングの際blast-&amp;gt;clustalwをかける際に無駄に重複する配列を除く&lt;/li&gt;
&lt;li&gt;SNPのデータベースに当てたとき、冗長な配列を除く&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;とか、お手軽に違いない。まぁ、30分で書いたからバグだらけと思うが、バグったらゴメンヨ。&lt;/p&gt;</description><pubDate>Sun, 19 Jun 2005 12:18:49 +0919</pubDate><category>ncbi</category></item></channel></rss>