BeautifulSoup

Drkcore

23 05 2010 life Tweet

BeautifulSoup

図書館の利用集中図書をBeautifulSoupでスクレイピングしてみた。

doctypeが

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"//>

となっていてなんだかなぁと。Validation Serviceくらいかけておけばいいのに

#!/usr/bin/env python
# -*- encoding:utf-8 -*-

import urllib2,re
from BeautifulSoup import BeautifulSoup
url = "http://library.fujishi.jp/opw/OPW/OPWBESTREAD.CSP?SID=6238242_4drwukDg00_92488&DB=LIB&MODE=1&FLG=RESET"

html = urllib2.urlopen(url).read()
html_fixed = re.sub("//>"," >",html)

soup = BeautifulSoup(html_fixed)
for _a in soup.findAll('a'):
    if 'OPWSRCHTYPE.CSP' in _a.get('href'):
        print "- [%(title)s](%(url)s)" % {'title':_a.string, 'url':_a.get('href')}

結果

告白
カッコウの卵は誰のもの
1Q84 BOOK2
1Q84 BOOK3
新参者
1Q84 BOOK1
パラドックス13
夜明けの街で
流星の絆
聖女の救済
赤い指
ガリレオの苦悩
ほかならぬ人へ
ダイイング・アイ
神苦楽島上
ブラックチェンバー
光媒の花
北帰行
Nのために
教室の亡霊
神苦楽島下
真昼なのに昏い部屋
不等辺三角形
楽園上
楽園下
東京島
ももこのまんねん日記
おそろし
英雄の書上
贖罪
植物図鑑
廃墟に乞う
神様のカルテ
ダーリンの頭ン中 2
自白
マドンナ・ヴェルデ
オー!ファーザー
裁判員

About

もう5年目(wishlistありマス♡)
最近はPythonとDeepLearning
日本酒自粛中
ドラムンベースからミニマルまで
ポケモンGOゆるめ