公開番号.pdfとかなってるんだろうから楽勝だろうなと思ったら、そんなことはなくてドキュメント用のIDがついていて面倒くささが20%増量してた。
検索してpdfのリンクをスクレイプしてダウンロードするようにしておいた。
こんな感じ
import sys import requests from pyquery import PyQuery as pq wipo_url = "http://patentscope.wipo.int/" def get_pdf_url(wipoid): url = wipo_url + "search/en/detail.jsf?docId=" \ + wipoid + "&recNum=1&tab=PCTDocuments" d = pq(requests.get(url).content) pdf_link = pq(d('table.rich-table:eq(1) a:contains("PDF")')[1]).attr('href') return wipo_url + pdf_link if _name_ == '__main__': wipoid = sys.argv[1] pdf_url = get_pdf_url(wipoid) with open(wipoid + ".pdf", "wb") as f: f.write(requests.get(pdf_url).content)
pyqueryがちょっと決め打ちしすぎなのと、requestsでgetしたのをファイル開いて書き出してるんだけどsaveみたいなメソッドないのかな?