Programming Collective Intelligenceを読み始めた。
Programming Collective Intelligence: Building Smart Web 2.0 Applications
Toby Segaran
Oreilly & Associates Inc / 3446円 ( 2007-08 )
Toby Segaran
Oreilly & Associates Inc / 3446円 ( 2007-08 )
英語だとスペースで分割すれば単語に分けられるのだけど、日本語は品詞分解できないと類似度を計れないしクラスタリングもできないので、まずMeCabを使えるようにしておく。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | #!/usr/bin/env python # -*- coding: utf-8 -*- import sys,re,feedparser import MeCab d = feedparser.parse('http://blog.kzfmix.com/rss/') txt = '' for entry in d.entries: txt += re.compile(r'<[^>]+>').sub('',entry.summary_detail.value) try: t = MeCab.Tagger() m = t.parseToNode(txt.encode('utf-8')) while m: if m.stat < 2: if re.match('名詞',m.feature): print m.surface m = m.next except RuntimeError, e: print "RuntimeError:", e; |