Drkcore

02 07 2010 chemoinformatics Tweet

bayonで大量の化合物クラスタリング

昨日bayonでどんだけいけるかって話になって、そういえばあんまり大きい数のクラスタリングしたことないなと思ったので早速やってみた(白macbook)。

データはPubchemから最新の25万件分(Compound_45925001_45950000からCompound_46150001_46175000まで)をダウンロードしてきた。bayon用のデータセットを作るためのpythonスクリプトは以前書いたものを使った。

for i in *.sdf.gz ; do babel -imol $i -ofpt ${i%.sdf.gz}.fpt  -xh -xfFP2; done
for i in *.fpt ; do ../python/f2bayon.py $i > ${i%.fpt}.tsv; done

とりあえず25000件くらい

$ wc Compound_45925001_45950000.tsv
   24770 6696478 20005168 Compound_45925001_45950000.tsv

$ time bayon -n 100 Compound_45925001_45950000.tsv > Compound_45925001_45950000.cls

real    0m37.312s
user    0m36.378s
sys     0m0.402s

1分かからず終了。続いて25万件くらい

$ wc all.tsv 
  248232 74728370 222905963 all.tsv

$ time bayon -n 10000 all.tsv > all.cls

real    9m49.447s
user    9m4.833s
sys     0m8.037s

これは10分かからずに終了。

About

  • もう5年目(wishlistありマス♡)
  • 最近はPythonとDeepLearning
  • 日本酒自粛中
  • ドラムンベースからミニマルまで
  • ポケモンGOゆるめ

Tag

Python Deep Learning javascript chemoinformatics Emacs sake and more...

Ad

© kzfm 2003-2021