RSSから単語セットを抽出したら続いて、頻度のマトリックスを作成する。
流れとしては、全単語セットからある頻度以上の単語リストを作成(これが行のセット)し、それぞれのURL毎に何個含まれているかを調べてマトリックスにする。この時、あまりにもマイナーな単語とか、逆にあまりにもよく出る単語は類似性をはかるときに情報量ゼロにしかならないので除く。 今回1100件のフィードからなる(かなり多様性の高い)セットだったので、minの頻度はかなり低く設定した。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import cPickle,sys
def get_tagset(tag_data,min=0.1,max=0.7):
all_tags = []
tag_counts = {}
size = float(len(tag_data))
for tags in tag_data.values():
for tag in tags:
tag_counts[tag] = tag_counts.get(tag,0)+1
for (tag,count) in tag_counts.items():
if min < count/size < max: all_tags.append(tag)
return all_tags
if __name__ == "__main__":
out=file('blogdata.txt','w')
f=file('myldrwordsets','rb')
tag_data = cPickle.load(f)
wordlist = get_tagset(tag_data,min=0.1,max=0.5)
totalwords = len(wordlist)
out.write('Blog')
for word in wordlist: out.write('\t%s' % word)
out.write('\n')
for url,wordcount in tag_data.items():
out.write(url)
count = 0
txt = ""
for word in wordlist:
c = wordcount.get(word,0)
txt += '\t%s' % c
if (c != 0): count += 1
if float(count)/totalwords > 0.000000001:
out.write(txt + '\n')
print "%s: %2.8f" % (url,float(count)/totalwords)
実際に作成してみたデータを眺めた。というより、ケモインフォマティクス系はタニモト距離をよく使う関係上、密度(density)には非常に敏感。というわけで、url毎に非0の単語がどのくらいの割合含まれているかをチェック。やたらとビット密度の低いフィードは距離を算出しても仕方ないので除く事にした。
if float(count)/totalwords > 0.000000001:
out.write(txt + '\n')
print "%s: %2.8f" % (url,float(count)/totalwords)
結局、915x300くらいのマトリックスが作成された。
類似度はかるのに尺度はなにを使おうか、、、とりあえず本にある通りにピアソン使おうかな。それとも今回の場合は単語の出現頻度よりも、ある文書に単語リスト中の文字が含まれるかどうかのほうが重要そうだからタニモトのほうがよさそうな気もする。