Drkcore

01 11 2014 Python Tweet

Scrapyをいじってみた

@ando_ando_andoと一緒にコミュニティFでScrapyをいじっていた。

$ scrapy startproject tutorial

とかでひな形が作られるので楽なのと対話操作のためのユーティリティが用意されていてスクレイピングのチェックをするときに便利だなぁと。

.
├── __init__.py
├── items.py
├── pipelines.py
├── settings.py
└── spiders
    ├── __init__.py
    └── yahoo_spider.py

こんな構成にして

import scrapy

class YahooItem(scrapy.Item):
    name = scrapy.Field()
    total = scrapy.Field()

spiderのほうは

import scrapy
from tutorial.items import YahooItem

class YhSpider(scrapy.Spider):
    name = "yahoo"
    allowed_domains = ["yahoo.co.jp"]
    start_urls = [
        "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=4568.T"
    ]

    def parse(self, response):
        item = YahooItem()
        item['name'] = response.xpath('//title/text()').extract()
        item['total'] = response.xpath('//*[@id="main"]/div[7]/div[2]/div[2]/div[1]/dl/dd/strong/text()').extract()
        return item

とかやると、第一三共の時価総額をスクレイプできる。

@ando_ando_andoになんで自分の会社スクレイプしないん?とか言われたけどなんかいやじゃんw

ちょっと仕事で使ってみようと思ったので有意義なひとときであった。

それから、@karky7もウォーズアカウントを持っているらしいことを聞いたのでいつか手合わせしてもらわんとなぁとw

About

  • もう5年目(wishlistありマス♡)
  • 最近はPythonとDeepLearning
  • 日本酒自粛中
  • ドラムンベースからミニマルまで
  • ポケモンGOゆるめ

Tag

Python Deep Learning javascript chemoinformatics Emacs sake and more...

Ad

© kzfm 2003-2021