02 07 2010 chemoinformatics Tweet
昨日bayonでどんだけいけるかって話になって、そういえばあんまり大きい数のクラスタリングしたことないなと思ったので早速やってみた(白macbook)。
データはPubchemから最新の25万件分(Compound_45925001_45950000からCompound_46150001_46175000まで)をダウンロードしてきた。bayon用のデータセットを作るためのpythonスクリプトは以前書いたものを使った。
for i in *.sdf.gz ; do babel -imol $i -ofpt ${i%.sdf.gz}.fpt -xh -xfFP2; done
for i in *.fpt ; do ../python/f2bayon.py $i > ${i%.fpt}.tsv; done
とりあえず25000件くらい
$ wc Compound_45925001_45950000.tsv
24770 6696478 20005168 Compound_45925001_45950000.tsv
$ time bayon -n 100 Compound_45925001_45950000.tsv > Compound_45925001_45950000.cls
real 0m37.312s
user 0m36.378s
sys 0m0.402s
1分かからず終了。続いて25万件くらい
$ wc all.tsv
248232 74728370 222905963 all.tsv
$ time bayon -n 10000 all.tsv > all.cls
real 9m49.447s
user 9m4.833s
sys 0m8.037s
これは10分かからずに終了。