週末は学科の同窓会に行ってきた

行ったら同級生が一人しかいなかったというw

お昼は丸太町の花ももですだち蕎麦。これは美味しかった。お酒も飲みたいくらいw

1466599931 1466599929

夜はつくね製作所で。日本酒から入ったんだけど、懇親会で飲んでたからあまり入らなかった。

1466599934 1466599936

1466599938 1466599941

二枚目の写真が酒の肴としては最高だったがちょっと濃かった

1466599943 1466599945

次の日は今回の旅のメインの鯖寿司を求めてぐるっと一周

お昼はひさしぶりにますたにで。

1466599947

家に帰ってから鯖寿司三種食べ比べ。鱧寿司も買うべきだったんだろうけど、予算オーバーw ボーナス出たら季凛さんに鱧コース食べに行こうっとw

1466599950

お酒はKIDスパークリング(父の日だったからw)

1466599952

Bag of Fragments(BoF)を超えろ

先日Deep Learning創薬の駄文をのせてみたが、

深いニューラルネットワークで特徴抽出っていうのが、chemoinformaticsの文脈だと「フラグメントからファーマコフフォア構築」というのはその通りだと思うんだけど、それがBoW的なECFP4みたいなフィンガープリントでいいのだろうか?pharmacophoreとかCoMFA,CoMSIAみたいな表現に向かうような記述子で出発しないといけないんじゃないかなーと思う

以前@iwatobipenが触れていたNeuralFingerPrintもECFPの特徴抽出プロセスと類似の方法で距離を考慮してないからファーマコフォアにはいたらないと思う。精度がいいのは分散表現のところではないかなぁと思っている(つまり以下の説明)。

Standard fingerprints encode each possible fragment completely distinctly, with no notion of similarity between fragments. In contrast, each feature of a neural graph fingerprint can be activated by similar but distinct molecular fragments, making the feature representation more meaningful.

実際溶解性みたいな分子全体の特徴が重要な場合の予測は非常に改善されているが、薬理活性みたいな分子認識が重要なファクターになっているものはあんまり改善してないように思う。GitHubに実装があるし、精度もいいから予測モデル作る場合にはこれを使うけどね。

ここらへんも似た感じだと思う。如何にもトキシコフォアとかファーマコフォアが学習されるようなFigureが載ってるけど、Catalystとか使ってファーマコフォアモデルを組み立てたり、ドッキングシミュレーションをやりまくった経験からはこれは誤解されそうな説明だなぁと思った。

で本題。最近Molecular Graph Convolutions: Moving Beyond Fingerprintsという意欲作を読んで感動した。

ここまで書いたら中身の説明を書くのに疲れちゃったので興味のある方は是非読みましょう。著者もGoogleとStanfordの人だし、pubmedで出てこなかったらノーマークだったわ。

化合物(グラフとしての)の不変性を獲得するようなCNNのやり方参考になったがプーリングがsumっていうのがそれでいいのかなぁと思った。

f is a learned linear operator with a rectified linear activation function and g is a sum.

ファーマコフォアが記述できるようなDNNの方法ができれば、精度上がるだろうから、測定データさえ増やせるのなら有望じゃないかと思う。

さらにその結果からドッキングシミュレーションの評価関数を作れるだろうから、それを使ってリードホッピングにトライしてもいいから夢が広がる。

ドッキングの精度が高ければモデルでFMO実行してもそれなりに正しそうな結果が出るだろうから、結晶に頼らなくてもモデリングでいけそうだしな。

PyQueryの挙動がちょっとわからん

企業のプレスリリースをテキストマイニングしようと思うと色々大変なわけだ。そもそもプレスリリースの媒体がpdfを想定されているために、タイトルのみ本文無しという潔いRSSが多いしそういうのは購読しても嬉しくない。

というわけでプレスリリース一覧のページからpdfのURLを抜き出してpdfminerかましてデータ抽出やらないといけないしそっちのほうが逆に構造化されていてスクレイプしやすかったりする。

で、PyQueryを使ってガリガリやっていたのだが、何故かスクレイプできないサイトがあった。BeautifulSoupではちゃんとスクレイピング出来たのでエラーの原因が気になって調べてみたのでメモっておく

普通にrequestsでHTMLを取ってきてPyQueryに渡してやると :::sh >>> from pyquery import PyQuery as pq >>> import requests >>> tgpr = "http://www.transgenic.co.jp/pressrelease/" >>> d1 = pq(requests.get(tgpr).content) >>> d1 [<{http://www.w3.org/1999/xhtml}html>] >>> d1("a") []

aタグが一件も見つからない。しかし、urlオプションに直接サイトのURLを指定するときちんとparseされている

>>> pq(url="http://www.transgenic.co.jp/pressrelease/")
[<html>]
>>> d2 = pq(url="http://www.transgenic.co.jp/pressrelease/")
>>> len(d2("a"))
71

なんだこれは?となったのでドキュメントを漁ったらxmlパーサーでパースしてみてだめだったらhtmlパーサー使うぜって書いてあったので強引にxmlパーサーでparseさせてみた。

>>> d3 = pq(url="http://www.transgenic.co.jp/pressrelease/", parser="xml")
>>> d3
[<{http://www.w3.org/1999/xhtml}html>]
>>> len(d3("a"))
0

というわけで文字列を渡すときにはなぜかhtmlのパーサーでparseされていないっぽい。これはコードを追うべきですな。

67行目のetree.XMLSyntaxErrorという例外が投げられてないのではないかということになった。

まぁ別にわざわざrequests使う必要もないのでurlオプションにURL渡せばいいんだけどね。

次回のShizuoka.pyの懇親会はやきとり王将になりました

王将使うの多分初めてかな。懇親会は予約の締め切りがあるので参加される方はお早めに

昨日は久しぶりに#A君とあって一緒に黙々コーディングをしてたんだけど、A君重量級になってた…弱虫ペダルでいうと田所感が出てた(まじで運動しないと身体にくるぞw)

また@karky7@ando_ando_andoと鈴木屋でホルモンつつきながらプログラミング言語談義でもしたいなぁと思っていたけどなかなか難しいですね。

それから#A君にはgoに奪われた静岡市圏の勢力をPyhtonで奪還するというタスクが出来たので頑張ってください。たまにはコメヤスに酒を買いにいきたいし静岡で飲みたいなぁ。

で、もくもく会では2人でTDNetのクローラー動かないなー、おかしいなーと悩んでいたんだけど、selenium2.53.2とphantomjs2.1.1の組み合わせだとswitch_to_frameメソッドがきちんと動いてないっぽいですね。chromedriverだと動いたのでダウングレードして動く組み合わせを見つけるかバグフィックスされるの待たないといけませんな。

久々にもくもくしたけど楽しかった。ここ二三年一人でコーディングすることに慣れちゃったのと、技術を追いかけなくても余裕で生きていけるようなぬるま湯に浸かりきっていたので流石にまずいなーと感じたよ。

次回のShizuoka.pyでは

  • 不適切だが違法ではない♡クローラーを作ろう
  • はじめてならアコムをやめてジョブリブでキャッシングをしよう☆

という2つの発表をします。どちらもネタに走る予定なのであまり役に立たないかもしれないけどリハビリも兼ねているので大目に見てくださいw

HUNTER×HUNTER-モノクロ版-33

最新刊出てた。

そして後手番で石田流を目指す43飛戦法というのに興味があったので読んでる。

ProductName 振り飛車4→3戦法 (マイナビ将棋BOOKS)
戸辺 誠
マイナビ出版 / ?円 ( 2013-03-27 )


角交換四間飛車の出だしから気分で変更できるのが良さそう。ゴキ中は最初からゴキ中と戦型固定されるから気を使う。

ぬか漬けはじめた

ゴールデンウィーク前からぬか漬けを始めた。近所にぬか漬け売ってないから自分で作るしかないのだけど、朝晩かき混ぜるの面倒くさいなぁと思って敬遠してた。

でも実際やってみるとすごく楽しいw

まずぬか床のメンテナンスが、完全なPDCAサイクルなのでやりがいがあるし、ぬか漬けの野菜を色々考えて試すのも楽しい。

ズッキーニのぬか漬け美味しい。古漬け気味なほうが好きだな。

1465015539

アスパラのぬか漬けは茹で過ぎたせいか、色も悪いしフニャッと感がいまいちだった。二回目は上手く出来たけど。 こんにゃくはなんかぼやっとした味だったので個人的にはいまいちだった。

1465015540

他にエシャロットなんかも漬けると美味しかった。

Shizyoka.py #5を7/9@コミュニティFで開催します

一年半ぶりにShisuoka.pyをやります。沼津のプラサヴェルデを会場にしようと思っていたんだけど、別のイベントで使ってみたら、団体登録とか予約とかちょっとめんどくさかったので前回と同じコミュニティFでやることにします。

演題絶賛募集中です。僕は来週#A君(@ando_ando_ando)とSeleniumを使ってクローラー作る予定なのでその内容を発表しようかなーと考えています。

また、懇親会の場所が決まってないのでリクエスト等あれば。ビール電車もなかなか魅力的ではあるが…

pep8はもう古いのでpycodestyleを使おう

Pythonのコーディング規約をチェックするツールにpep8があるのだけど、pycodestyleっていう名前に変わったので今後はこちらをつかえということらしい。

つらつらと眺めていたらプロジェクトの統計を取るオプションが面白そうだったのでこのブログのCMSで実行してみた。

$ pycodestyle --statistics -qq .
1       E128 continuation line under-indented for visual indent
1       E203 whitespace before ':'
5       E231 missing whitespace after ','
2       E265 block comment should start with '# '
5       E271 multiple spaces after keyword
1       E302 expected 2 blank lines, found 1
11      E402 module level import not at top of file
29      E501 line too long (115 > 79 characters)
14      E711 comparison to None should be 'if cond is None:'
1       W291 trailing whitespace

一行のコードの文字数多すぎるんだよっていうエラーが一番多いけど、SQLAlchemyのクエリって長くなりがちだから しょうがないじゃん。 \で改行すると読みにくくなるから嫌いなんだよなぁ。

Emacs+flymakeでコード書いているのでpep8をpycodestyleに変更するだけでOK

Fastladder入れてる仮想環境のHDDの容量が足りなくなったので拡張した

もともと10GのHDDで仮想環境(KVM)作ったけど溢れてしまったので拡張した。

ほぼまるごと「KVMでVMにHDD追加」を参考にした

あとは色々調べるのはvgscan, lvscan, pvscanとscan系のコマンドを使えばいい。最近(4,5年前)のFedoraはデフォルトがLVMなので容量追加とか簡単で助かる。

PyData2016で Deep Learning for QSARという発表があった

slideもあったけど肝心な部分が抜けているので動画を見たほうが面白いです。

10分ぐらい

部分構造の高次表現としてpharmacophoreとして記述されるみたいな感じのスライドがあったけどpharmacophoreは特徴間の距離が非常に重要なのでBoW的な特徴ベクトルでは表現出来ないと思う。n-gram的な考え方を取り入れないと難しいと思っている。でもそれって5-10word離れている単語の関係を評価していくってことだからコスト高なんだよね

22分くらい

chemoinformaticsで目玉焼き


深いニューラルネットワークで特徴抽出っていうのが、chemoinformaticsの文脈だと「フラグメントからファーマコフフォア構築」というのはその通りだと思うんだけど、それがBoW的なECFP4みたいなフィンガープリントでいいのだろうか?pharmacophoreとかCoMFA,CoMSIAみたいな表現に向かうような記述子で出発しないといけないんじゃないかなーと思う。

あとタンパク質とリガンドの相互作用、特に電荷の移動という特徴を持たせられないのも今の記述子の問題ではあると思う。

画像認識と分子認識は色々違うからね。