Drkcore

23 05 2010 life Tweet

BeautifulSoup

図書館の利用集中図書をBeautifulSoupでスクレイピングしてみた。

doctypeが

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"//>

となっていてなんだかなぁと。Validation Serviceくらいかけておけばいいのに

#!/usr/bin/env python
# -*- encoding:utf-8 -*-

import urllib2,re
from BeautifulSoup import BeautifulSoup
url = "http://library.fujishi.jp/opw/OPW/OPWBESTREAD.CSP?SID=6238242_4drwukDg00_92488&DB=LIB&MODE=1&FLG=RESET"

html = urllib2.urlopen(url).read()
html_fixed = re.sub("//>"," >",html)

soup = BeautifulSoup(html_fixed)
for _a in soup.findAll('a'):
    if 'OPWSRCHTYPE.CSP' in _a.get('href'):
        print "- [%(title)s](%(url)s)" % {'title':_a.string, 'url':_a.get('href')}

結果

  • 告白
  • カッコウの卵は誰のもの
  • 1Q84 BOOK2
  • 1Q84 BOOK3
  • 新参者
  • 1Q84 BOOK1
  • パラドックス13
  • 夜明けの街で
  • 流星の絆
  • 聖女の救済
  • 赤い指
  • ガリレオの苦悩
  • ほかならぬ人へ
  • ダイイング・アイ
  • 神苦楽島 上
  • ブラックチェンバー
  • 光媒の花
  • 北帰行
  • Nのために
  • 教室の亡霊
  • 神苦楽島 下
  • 真昼なのに昏い部屋
  • 不等辺三角形
  • 楽園 上
  • 楽園 下
  • 東京島
  • ももこのまんねん日記
  • おそろし
  • 英雄の書 上
  • 贖罪
  • 植物図鑑
  • 廃墟に乞う
  • 神様のカルテ
  • ダーリンの頭ン中 2
  • 自白
  • マドンナ・ヴェルデ
  • オー!ファーザー
  • 裁判員

About

  • もう5年目(wishlistありマス♡)
  • 最近はPythonとDeepLearning
  • 日本酒自粛中
  • ドラムンベースからミニマルまで
  • ポケモンGOゆるめ

Tag

Python Deep Learning javascript chemoinformatics Emacs sake and more...

Ad

© kzfm 2003-2021