pyPdfでdoiを抽出する

普段はCAM::PDFを使っているのだけど、pythonでPDFからdoiを抽出したくなったのでpyPdfを使ってみた。

#!/usr/bin/env python
# -*- encoding:utf-8 -*-

from pyPdf import PdfFileReader
import re

doi_re = re.compile("10.(\d)+/([^(\s\>\"\<)])+")
input = PdfFileReader(file("1267.full.pdf", "rb"))
text = input.getPage(0).extractText()

m = doi_re.search(text)
print m.group(0)

結果

10.1124/dmd.107.019711.ABBREVIATIONS:PKPD,pharmacokinetic-pharmacodynamic;HGF,hepatocytegrowthfactor;PF02341066,

dmdだとdoiと文字の境目が切れないので余計な文字もついてきてしまうなぁ。prefixとsuffixを見ながら判断するようにするのがいいかな。

それにしても、meta情報のtitleに埋め込まれてたり、本文の1page目に書いてあったり、ファイル名そのものだったりと、論文からdoiを抽出するのは結構めんどくさいんだよなぁ。

Java並行処理プログラミング

復刊で購入しといたのを読んでみた。

ProductName Java並行処理プログラミング ―その「基盤」と「最新API」を究める―
Brian Goetz,Joshua Bloch,Doug Lea
ソフトバンククリエイティブ / ¥ 3,990 ()
在庫あり。

1,2部まで読んだけど、その先ちょっとついていけそうになかったので、読むのを中断した。 並行処理プログラミングってほとんどしないけど、化合物の3次元構造立ち上げとかは並行で動かすのが当たり前になりそうなので、そのうちやらんといかんのだろう。

8coreとか欲しいなぁ。

炎でランチ

チャイナカフェ炎

ラーメンとおこげのあんかけ

1270356019 1270356025

スープ入り水餃子と白粥

1270356031 1270356037

油淋鶏

1270356043

Machine Learning: An Algorithmic Perspective 14,15章

MCMCとグラフィカルモデリング

この本だけではちょっと理解不足なので、PRMLとかまた読み返そう。

ProductName グラフィカルモデリング (統計ライブラリー)
宮川 雅巳
朝倉書店 / ¥ 3,990 ()
在庫あり。

ProductName パターン認識と機械学習 下 - ベイズ理論による統計的予測
C. M. ビショップ
シュプリンガー・ジャパン株式会社 / ¥ 8,190 ()
在庫あり。

ひなよし

ひなよしにいってきた。

飲んだお酒

  • 雪の茅舎
  • 花陽浴
  • 國香
  • 手取川

ほかにも色々飲んだ。

「心を鬼にして叱るより 無理にでもほめなさい」を読んだ

「承認」というものが、なんとなくわかった気がする。

ProductName 心を鬼にして叱るより 無理にでもほめなさい
杉本 良明
日本実業出版社 / ¥ 1,470 ()
在庫あり。

macbookにMongoKitをいれた

>>> from mongokit import *
Traceback (most recent call last):
    from magic import Magic
  File "build/bdist.macosx-10.5-i386/egg/magic.py", line 112, in <module>
  File "/opt/local/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/ctypes/__init__.py", line 353, in __init__
    self._handle = _dlopen(self._name, mode)
OSError: dlopen(/opt/local/lib/libmagic.dylib, 6): image not found

これはfileが入ってないせいらしいので、portで入れとく

$ sudo port install file
--->  Computing dependencies for file
--->  Fetching file
--->  Attempting to fetch file-5.04.tar.gz from http://distfiles.macports.org/file
--->  Verifying checksum(s) for file
--->  Extracting file
--->  Applying patches to file
--->  Configuring file
--->  Building file
--->  Staging file into destroot
--->  Installing file @5.04_0
--->  Activating file @5.04_0
--->  Cleaning file

これでOK

Pharmacokinetic-Pharmacodynamic Modeling and Simulation 5章

Case Studies in Linear and Nonlinear Modeling

CocaineのPKモデリングの話が面白かった。IVから始まってinhalational,intranasalのモデルを作成していく。重要なのは代謝とか排泄側のプロセスで吸収過程はそれほど複雑ではないのかなぁと読んでて思ったし、漠然と感じるところではあるんだけど実際のとこどうなんだろう?

それからロジスティック回帰を使って、Adverse Eventsの検討をする例もよかった。僕の関わる領域ではそこまでのデータとることはないだろうけど、事象の発生確率をモデルに取り込む方法としては勉強になった。

ProductName Pharmacokinetic-Pharmacodynamic Modeling and Simulation
Peter Bonate
Springer / ¥ 8,616 ()
在庫あり。

次の章から混合効果モデルに入っていく

アサーティブ関連な本

アサーティブって僕が娘に接する態度みたいなもんか、、、

ProductName アサーティブ仕事術―気持ちが伝わる!意見が通る!
畔柳 修
PHP研究所 / ¥ 945 ()
在庫あり。

  • 感情は感じている本人のものという自覚を持とう
  • youメッセージからIメッセージへ
  • DESC法

ProductName いい仕事をする人の3つの断り方!
臼井 由妃
青春出版社 / ¥ 1,365 ()
在庫あり。

  • 「断ったほうがいい」とか「断らないほうがいい」という問題でなく長い目でみて自分はどうなりたいのか
  • 「どうせ断るのだから」とおざなりな対応をしたり、「嫌いな相手の誘いだから」とバカにした態度をとってはいけません

「Rの基礎とプログラミング技法」を読み返した

Rのオブジェクト指向ってCommon Lispのそれと似ている?

ProductName Rの基礎とプログラミング技法
U.リゲス
シュプリンガー・ジャパン(株) / ¥ 3,675 ()
在庫あり。

+も->も関数

> "<-"(a,2)
> a
[1] 2
>  "+.Date"(as.Date("2010-03-31"),1)
[1] "2010-04-01"

遅延評価はdelayedAssignで

> delayedAssign("lazy",{print("delayed"); 3})
> lazy
[1] "delayed"
[1] 3

モデル式で相互作用は:で。*を使うと相互作用を含むモデル

y ~ x1 * x2 * x3

は x1:x2, x1:x3, x2:x3を含む