@ando_ando_andoと一緒にコミュニティFでScrapyをいじっていた。
$ scrapy startproject tutorial
とかでひな形が作られるので楽なのと対話操作のためのユーティリティが用意されていてスクレイピングのチェックをするときに便利だなぁと。
. ├── __init__.py ├── items.py ├── pipelines.py ├── settings.py └── spiders ├── __init__.py └── yahoo_spider.py
こんな構成にして
import scrapy class YahooItem(scrapy.Item): name = scrapy.Field() total = scrapy.Field()
spiderのほうは
import scrapy from tutorial.items import YahooItem class YhSpider(scrapy.Spider): name = "yahoo" allowed_domains = ["yahoo.co.jp"] start_urls = [ "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=4568.T" ] def parse(self, response): item = YahooItem() item['name'] = response.xpath('//title/text()').extract() item['total'] = response.xpath('//*[@id="main"]/div[7]/div[2]/div[2]/div[1]/dl/dd/strong/text()').extract() return item
とかやると、第一三共の時価総額をスクレイプできる。
@ando_ando_andoになんで自分の会社スクレイプしないん?とか言われたけどなんかいやじゃんw
ちょっと仕事で使ってみようと思ったので有意義なひとときであった。
それから、@karky7もウォーズアカウントを持っているらしいことを聞いたのでいつか手合わせしてもらわんとなぁとw