PyConJPのSphinxのセッションのスライドを見た

2日目の途中で帰ってしまったので、朝コーヒーを飲みながら、残りのスライドを眺めてた。

HTMLテーマの拡張の話Docutilsが参考になった。

そういえば二年くらい前に原稿書くときに使ったときはwordに出力するのに難儀したけど、今はdocxに出力できるらしいので、MSWORDな会社でも安心して使えますね。さらにmoin2を組み合わせれば、普段はWikiで使いつつ、必要に応じてSphinx経由で好きな書式で文書出力ってのもやりやすくなるだろうし。

パーマカルチャーとは持続可能な農的暮らしのことなのか?

パーマカルチャーには農業的な要素は外せないのかな?まぁ生きることは食べることなのでそうなんだろうが。

ProductName パーマカルチャー菜園入門

家の光協会 / 1575円 ( 2010-07-27 )


パーマカルチャーは、石油などの化石燃料に多くを依存する暮らしを改め、太陽の恵みを十分に活用して環境にやさしい循環型の社会を築くという思想です。

エッジ効果という考え方は面白かった。つまり異なる環境が接する縁に豊かな生態系が生成するということであるが、汽水とかをイメージするとわかりやすい。

それから小規模集約システムという考え方も参考になった。

SQLAlchemyのmany-to-manyであるタグを含むエントリをフィルタする方法

単にタグを含むエントリを取ってくる場合にはこうやればいいんだけど、さらに絞り込む場合にどうやればいいのか悩んだ。

filter(Entry.tags.in_(tags))

とかやったら、

"in_()" operator is not currently implemented for many-to-one-relations

みたいなエラーが出てきたので、グーグル先生にお伺いを立てたら解答が見つかった。

というわけで

Entry.query.filter_by(status=1).filter(Entry.tags.any(Tag.id.in_([tag.id])))

という感じで、anyとin_を組み合わせるのがいいらしい。

もう少し精進せなアカンなと。

ProductName Essential Sqlalchemy
Rick Copeland
Oreilly & Associates Inc / 2556円 ( 2008-06 )


結局こういったあたりで悩むんだったら、最初からpymongoでいいんじゃなかろうかと思ったりするんだけど、Flask-SQLAlchemyが便利すぎなのでなかなか悩ましいところ。

Python Testing Cookbook

Python Testing: Beginnerと同時期に買って一緒に読んだのだけど、書評を書いてなかったので今更ながら書いてみた。

ProductName Python Testing Cookbook
Greg Lee Turnquist
Packt Publishing / 3770円 ( 2011-05-30 )


Python Testing: BeginnerはユニットテストとかTDDの習得に主眼を置いているのに対し、本書はもうちょっと広くて高度な内容を取り扱っている。

BDDとか受け入れテストとか(Jenkinsを使った)継続的インテグレーションとかテストのカバレッジとかスモークテストなんか。

最終章の「良いテストの習慣」はなかなかいい言葉がまとまっている(ような気がする)

  • Something is better than nothing
  • Coverage isn't everything
  • Be willing to invest in test fixtures
  • Harvesting metrics

こんなかんじで12の習慣が。

個人的に良かったのがBDDの章であった。本書ではnose+mockitで説明されてた。ちなみに僕はpyVowsを使っています(Node.jsにVowsがあるので)。

それからlettuceの説明もよかった。これはちょっと試しただけで全然使ってないけど、そろそろ真面目につかうことになりそうだ。

というわけで、両方とも役に立っている。

ProductName Python Testing: Beginner's Guide
Daniel Arbuckle
Packt Publishing / 3220円 ( 2010-01-31 )


WIPOで公開番号からpdfを落とす

公開番号.pdfとかなってるんだろうから楽勝だろうなと思ったら、そんなことはなくてドキュメント用のIDがついていて面倒くささが20%増量してた。

検索してpdfのリンクをスクレイプしてダウンロードするようにしておいた。

こんな感じ

import sys
import requests
from pyquery import PyQuery as pq

wipo_url = "http://patentscope.wipo.int/"

def get_pdf_url(wipoid):
    url = wipo_url + "search/en/detail.jsf?docId=" \
        + wipoid + "&recNum=1&tab=PCTDocuments"
    d = pq(requests.get(url).content)
    pdf_link = pq(d('table.rich-table:eq(1) a:contains("PDF")')[1]).attr('href')
    return wipo_url + pdf_link

if _name_ == '__main__':
    wipoid = sys.argv[1]
    pdf_url = get_pdf_url(wipoid)
    with open(wipoid + ".pdf", "wb") as f:
        f.write(requests.get(pdf_url).content)

pyqueryがちょっと決め打ちしすぎなのと、requestsでgetしたのをファイル開いて書き出してるんだけどsaveみたいなメソッドないのかな?

チケット駆動開発を読んだ

付箋の数と良書度は比例する(脳内調べ)。

アジャイルとウォーターフォールという二元論的な考え方は、その概念が普及する段階では役に立ちましたが、もうその次代は終わりつつあると思います。様々な開発法があるなかで、どのようなプロセスで開発するか、具体的な実践技術が求められているでしょう。

1347269572

僕のチケット駆動に対する期待は、創薬研究への応用なので、チケット駆動開発の背景にある考え方がぎっしり詰まった本書は、色々な発見や再発見があったり、今の仕事のアナロジーを見つけたりとかなり満足度の高い本だった。ただ、redmineをある程度使っているとか、アジャイルサムライ読んだとかそういいう基礎知識は必須なので、いきなり本書を読むよりは前作を読んだりしておいたほうがいいかなと思う。

ProductName Redmineによるタスクマネジメント実践技法
小川 明彦
翔泳社 / 3444円 ( 2010-10-13 )


ProductName アジャイルサムライ−達人開発者への道−
Jonathan Rasmusson
オーム社 / 2730円 ( 2011-07-16 )


本書は、ソフトウェアの使い方が載っているわけではない(mantisくらいかな)ので、そこは注意。

ProductName チケット駆動開発
小川 明彦
翔泳社 / 3444円 ( 2012-08-24 )


処理手順

障害管理ツールの処理手順(p.24)を創薬探索系に重ねると、

  • 障害発見者: アッセイ担当
  • BTS: BTS
  • 担当者: 合成担当

という感じになるかな。そうすると障害とは何か?という話になるが、創薬系だと予想外の結果ということになるだろう。

予想外というのは仮説駆動開発の文脈だったら、なんのために合成するのか?という最初の目的が達成されたかどうかで判断するところだろうが、明確な目的を持って合成されることは少ないので、MMPに照らし合わせてcliffかどうかで判断してもいいかもしれない。結局cliffは予測外の事象だからね。

リポジトリマイニング

創薬系だとリポジトリにあたるものは既に存在するので、そこから今後の予測を行う技術は非常に興味がある。本書では詳しく解説されてないので、他の文献をあたろうと思った。

バージョン

本書を読んでredmineのバージョンの使い方を理解した。だが、創薬系だと多次元で並行的に進めていくので、ソフトウェア開発だと2系と3系を同時に開発するみたいな感じかなあ。ちょっと難しい。

バージョンの概念は、単なるタグだけでなく、合意というマネジメント要素も含んでいるのです。

p.295のバージョンの概念が欠落する理由も参考になった。

2012.09.18追記

著者の方からレスポンスを頂いた。ありがとうございます。

Q.創薬系のプロジェクトのバージョンとは何か? A.プロジェクトのマイルストーンに相当します。  学会で報告する、創薬研究の開発が完了する、などのチェックポイントが大きなマイルストーンになりますが、たぶん1ヶ月単位で意味ある成果物を出せるように、マイルストーンの目的を明確にすればいいでしょう。

大きいマイルストーンはあるのだけど、一ヶ月単位で測れるようなマイルストーンというのはあまり見ない気がする。というわけで、今必要なのはそういうブレークダウンした形のマイルストーンをどう定義するかだな。そういう意味ではメトリクスも足りてないだろう。

もう一つは、創薬開発手法は生産ではなく開発だという点において、トヨタ生産方式みたいな工場の生産系よりはソフト開発手法にすごく似ているのだけど、大きく異る点が1つある。 それは探索の割合が非常に大きいということだ(ライフサイエンス全般に言えることだけど)。これは工学と明らかに違って、コントロール出来ない要因を多分に含んでいて、それを考慮したような仮説ドリブンなマイルストンが必要なんだろうなぁと。

もう少し丁寧に考える必要があるが、理解が前進したので嬉しい。

Photoshopでキャラデザイン

PyConJPに行ってて、子供の面倒を見なかったので、今日は一緒にお絵かきした

ProductName Photoshopキャラクタデザイン (MdN books)
伊藤 輝
エムディエヌコーポレーション / ?円 ( 2003-07 )


この本はキャラクターごとに完成までの目標時間が書いてあるので、難易度が類推できる。娘はペンタブ使って描いてたけど、これだったらマウスのほうが効率的かも。

PyConJP2012二日目

聞いたセッションは以下

基調講演の緊張感が面白かった。YAPCなんかでは他言語比較はよく見た気がするけど、PyConでPerlやRubyと比較してた。個人的にPythonにも正規表現リテラル欲しいなぁと思っているので、そこは同意。

基調講演後はSphinxの部屋にいたんだけど、電車の関係で早めに帰った。後半はディープな話題に入っていったのかなぁ、それとも初心者向けの話題が多めだったのか気になる。後でスライド見ようっと。自分用のHTMLテーマとか作りたいし、職場のレポート自動化にSphinx使えないかなぁと思っているので、そのうちいじってみようっと。

そういえば、SphinxのソースコードリーディングメモをSphinxで管理してるけどpyccoのほうがイイかもしれないなぁ。

PyConJP2012一日目

PyConJP2012の一日目は超楽しかった。

python+awsのepubを買おうか迷っていたら、PyConJP用に薄い本として特別に出版されていたので即ゲットしておいた。

1347712165

僕はこのブログをFlask+gunicorn+supervisorで動かしているのと、職場のウェブサービスも似たような構成にしているので、今日の全てのセッションが楽しかったし勉強になった。

基調講演

マシン名がナウシカ。

Python Type and Object

あとで、Python Types and Objectsを丁寧に読みなおそうと思った。

演者のスライドにjavascriptとpythonのクラスシステムを比較したのもあって、それも面白そう。

MongoDB with Python

Flask-SQLAlchemy+Flask-WTFが便利なのでなかなか移行する気になれないなぁ、でも気になってるんだよなぁという状況だったのだけど、ウェブサービスじゃなくて、ケモインフォマティクスの仕事でMongoDB使えそうじゃんと思ったので、来週会社に行ったら早速遊んでみる。距離のインデックスがちょっとよさげ。

発表内容もクックブック的なものも織り込まれていて良かった。スライド公開すんだろうか?して欲しいなぁ。

分散バージョン管理システムの組織化

ブランチ戦略がよくまとまっていて、かなりわかりやすかった。ただ僕はチーム開発してないので、最初の方に出てきたパターンで動いているのだが。

SQLAlchemyと僕

入門的な内容だったが、最後のツール紹介のAlembicってのは初めて知ったけど、そのうち使うことになりそうなので覚えておく。

Gunicorn what’s next? The new web challenge

gunicornの今後に関して。gunicorn便利ですよね。

Python 製ビルドツールのススメ

wafを積極的に使っていこうと思った。

pygamessの便利なところ

懇親会でpygamessじゃなくてもFacioで良かろうと言われたのだけど、対話環境よりも、スクリプトでやれたほうがいい場面が多いので書いておく。ちなみに僕はAvogadroユーザーです。

適当なsdfが手元になかったので

C
CC
CCC

というSMILESのリストを

babel -ismi carbons.smi -osdf carbons.sdf

とやってsdfにしたものを使いました。

sdfの分子群に対して計算したい場合、対話環境だとチマチマと作業しないといけないが、スクリプトだとforループを回せばよいし、結果がmoleculeオブジェクトで返ってくるので、そのあとのケモインフォマティクス的な取り回しが楽です。Gamessのアウトプット睨みながらコピペとか苦行だし、アウトプットの処理用のパーサー書くならinputから全てスクリプトで処理したほうがいいんじゃないかなと。

>>> import pybel
>>> from pygamess import Gamess
>>> g = Gamess()
>>> mols = pybel.readfile('sdf', 'carbons.sdf')
>>> for mol in mols:
...   nmol = g.run(mol)
...   print nmol, nmol.energy
... 
C   
 -39.7265813363
CC  
 -78.3052918313
CCC 
 -116.885136991

ケミストのように化合物を個別のものとして一つ一つ丁寧に対応していくのか、情報論的にまとめて取り扱いたいのかとかそういうあたりで使い分ければいいのだと思う。オービタル見たい場合にはGUI必須だけど、エネルギーみたいな数字だけに関心があるのであればGUIは要らないかな。