図書館の利用集中図書をBeautifulSoupでスクレイピングしてみた。
doctypeが
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"//>
となっていてなんだかなぁと。Validation Serviceくらいかけておけばいいのに
#!/usr/bin/env python
# -*- encoding:utf-8 -*-
import urllib2,re
from BeautifulSoup import BeautifulSoup
url = "http://library.fujishi.jp/opw/OPW/OPWBESTREAD.CSP?SID=6238242_4drwukDg00_92488&DB=LIB&MODE=1&FLG=RESET"
html = urllib2.urlopen(url).read()
html_fixed = re.sub("//>"," >",html)
soup = BeautifulSoup(html_fixed)
for _a in soup.findAll('a'):
if 'OPWSRCHTYPE.CSP' in _a.get('href'):
print "- [%(title)s](%(url)s)" % {'title':_a.string, 'url':_a.get('href')}
結果