blastからfastaを出力するプログラム欲しいってことで自分で書いてみた。
最初はGetoptモジュール使ってちゃんとやろうと思ったんだが、blastallってオプション多すぎていちいち面倒なんで、ARGV適当につなげて、オプションのチェックはblastallにまかせた。
普通にblastallのオプションが使えて
# bl2fasta -p blastp -i top2.seq -d pdbaa >gi|4929914|pdb|1BJT| Topoisomerase Ii Residues 409 - 1201 ENALKKSDGTRKSRITNYPKLEDANKAGTKEGYKCTLVLTEGDSALSLAVAGLAVVGRDYYGCYPLRGKMLNVREASADQ ILKNAEIQAIKKIMGLQHRKKYEDTKSLRYGHLMIMTDQDHDGSHIKGLIINFLESSFLGLLDIQGFLLEFITPIIKVSI TKPTKNTIAFYNMPDYEKWREEESHKFTWKQKYYKGLGTSLAQEVREYFSNLDRHLKIFHSLQGNDKDYIDLAFSKKKAD DRKEWLRQYEPGTVLDPTLKEIPISDFINKELILFSLADNIRSIPNVLDGFKPGQRKVLYGCFKKNLKSELKVAQLAPYV SECTAYHHGEQSLAQTIIGLAQNFVGSNNIYLLLPNGAFGTRATGGKDAAAARYIYTELNKLTRKIFHPADDPLYKYIQE DEKTVEPEWYLPILPMILVNGAEGIGTGWSTYIPPFNPLEIIKNIRHLMNDEELEQMHPWFRGWTGTIEEIEPLRYRMYG RIEQIGDNVLEITELPARTWTSTIKEYLLLGLSGNDKIKPWIKDMEEQHDDNIKFIITLSPEEMAKTRKIGFYERFKLIS PISLMNMVAFDPHGKIKKYNSVNEILSEFYYVRLEYYQKRKDHMSERLQWEVEKYSFQVKFIKMIIEKELTVTNKPRNAI IQELENLGFPRFNKEGKPYYGSPNDEIAEQINDVKGATSDEEDEESSHEDTENVINGPEELYGTYEYLLGMRIWSLTKER YQKLLKQKQEKETELENLLKLSAKDIWNTDLKAFEVGYQEFLQRDAEARGGNVPNKGSKTKGKGKRKLVDDED >gi|3891992|pdb|1AB4| 59kda Fragment Of Gyrase A From E. Coli VGRALPDVRDGLKPVHRRVLYAMNVLGNDWNKAYKKSARVVGDVIGKYHPHGDSAVYDTIVRMAQPFSLRYMLVDGQGNF GSIDGDSAAAMRYTEIRLAKIAHELMADLEKETVDFVDNYDGTEKIPDVMPTKIPNLLVNGSSGIAVGMATNIPPHNLTE VINGCLAYIDDEDISIEGLMEHIPGPDFPTAAIINGRRGIEEAYRTGRGKVYIRARAEVEVETIIVHEIPYQVNKARLIE KIAELVKEKRVEGISALRDESDKDGMRIVIEGEVVLNNLYSQTQLQVSFGINMVALHHGQPKIMNLKDIIAAFVRHRREV VTRRTIFELRKARDRAHILEALAVALANIDPIIELIRHAPTPAEAKTALVANPWQLGNVAAMLEDAARPEWLEPEFGVRD GLYYLTEQQAQAILDLRLQKLTGLEHEKLLDEYKELLDQIAELLRILGSADRLMEVIREELELVREQFGDKRRTEIT >gi|66361362|pdb|1Z84|B Chain B, X-Ray Structure Of Galt-Like Protein From Arabidopsis Thaliana At5g18200
または、パイプでつなげて
# bl2fasta -p blastp -i top2.seq -d pdbaa | blastclust May 30, 2005 8:59 PM Start clustering of 6 queries 52696130 66361362 4929914 3891992 18159024 15826535
みたいにも使える。
使い道?
- ホモロジーモデリングの際blast->clustalwをかける際に無駄に重複する配列を除く
- SNPのデータベースに当てたとき、冗長な配列を除く
とか、お手軽に違いない。まぁ、30分で書いたからバグだらけと思うが、バグったらゴメンヨ。