WIPOで公開番号からpdfを落とす

Drkcore

19 09 2012 Python Tweet

WIPOで公開番号からpdfを落とす

公開番号.pdfとかなってるんだろうから楽勝だろうなと思ったら、そんなことはなくてドキュメント用のIDがついていて面倒くささが20%増量してた。

検索してpdfのリンクをスクレイプしてダウンロードするようにしておいた。

WIPO

こんな感じ

import sys
import requests
from pyquery import PyQuery as pq

wipo_url = "http://patentscope.wipo.int/"

def get_pdf_url(wipoid):
    url = wipo_url + "search/en/detail.jsf?docId=" \
        + wipoid + "&recNum=1&tab=PCTDocuments"
    d = pq(requests.get(url).content)
    pdf_link = pq(d('table.rich-table:eq(1) a:contains("PDF")')[1]).attr('href')
    return wipo_url + pdf_link

if _name_ == '__main__':
    wipoid = sys.argv[1]
    pdf_url = get_pdf_url(wipoid)
    with open(wipoid + ".pdf", "wb") as f:
        f.write(requests.get(pdf_url).content)

pyqueryがちょっと決め打ちしすぎなのと、requestsでgetしたのをファイル開いて書き出してるんだけどsaveみたいなメソッドないのかな？

About

もう5年目(wishlistありマス♡)
最近はPythonとDeepLearning
日本酒自粛中
ドラムンベースからミニマルまで
ポケモンGOゆるめ