新しいサーバーにblosxomを移したりしてたが

新しいサーバーにblosxomを移そうとしているがやっぱ遅い、っていうか負荷かかりすぎ。あとは、自作の変なプラグインが入ってるので、cpanのモジュール入れたりするのが大変すぎ。あとこれだと、折角、サーバーのスペックあげても、容赦ないロボット来たらやられちゃうナァって感じの負荷量。

modだmodとか言ってModblosxomにしようかしらと思って、移行しようとしてみたけど、今の環境をそのままmodblosxomで動かすにはモジュール化しなければいけないプラグイン多すぎだ。

じゃぁ、いっそpyblosxomでpythonの勉強も兼ねていじってみようか。と思ってたら、Djangoのblogキットってのもあるらしい。悩む。turbogeasでも似たようなものあるのかな?

perlだったら、catlxomとかbifty、あとはTypefaceあたりな気がするが。

むー。ずっとblosxom使っていて気になってたのはやっぱ下書きを保存しておく機能がないとつらいよなってことなので、変えるんだったら下書き機能が標準でついてるやつ。

変えないんだったら、blosxomをもうちょいいじって、基本はstaticでサイドバーのコメントとかトラックバックとかJSONにするのがいいような気がする。あとはdynamic_cacheはスパムとか来るたびにrecacheで今までのキャッシュ消しちゃうので、こっちをなんとかしても、負荷対策になるような気がする。

LiveHTTPHeader

ここ何日かHTTP(S)の通信追ってきて、curlとかWWW::Mechanizeのトレースモードをずっとみてた。

で、ブラウザのヘッダーの追っかけが、かなり役立ったんだが、この LiveHTTPHeaderの便利さを改めて実感した。

LiveHTTPHeader

でも、ヘッダーだけだとわからないことも多かった。特にプロキシ介する場合に結局どこに問題あるのかイマイチ判明しないのには苦労させられたな。

2007.02.10追記

Webクライアントプログラミングの最初のほう読むと、LiveHTTPHeaderを結構使えるようになると思うんだけど。

ProductName Webクライアントプログラミング
クリントン ウォング
オライリー・ジャパン / ?円 ( 1997-09 )


が、絶版みたい

perlとかpythonで使える綺麗な描画ライブラリを探してみた

Radial clustergramsっていうクラスタリングの結果を円の形にして視覚的に分かりやすくするっていう論文があって、Anti-Grain Geometryというツールキットを使って実装されてるそうで、かなり綺麗に描けるみたい。

おーこれいいナァと思ってたら意外なところで似たような視覚化を見つけた。

du_scanner - miau's blog?

HDD が一杯になってどのファイルが容量を食ってるか確認したくなった時、私は Scanner というソフトを使います。

ハードディスクの使用状況を視覚的に確認できる「Scanner」v2.1

マインドマップ的な理屈(下の階層ほど外周部に表示される)で、情報が効率よく収まっているので気に入っているわけですが。

Perlのスクリプトも公開されているので、これを使えば、Radial clustergramsと似たようなことはできそうな気がする。

というわけで、GDでも使ってやってみるかなと思ったんだが、GDあんま綺麗じゃないし。AGGみたいな綺麗な描画ライブラリはないものかと脱線して描画ライブラリ探しに夢中になってた。

  • Anti-Grain Geometry
  • さすがに綺麗、でもc++用、swig使ってperlバインディングとか用意できるのだろうか?わからん。
  • Cairo
  • なかなかヨサゲ。Vector Graphics Libraryなのでかなり綺麗。
  • Matplotlib
  • pythonだったらこれかな。対話的にいじれるので調子いい。

それにしても、Matplotlib便利そうだ。あとでExamples 眺めてみよう。

DNA rainbow visualization

DNA rainbow visualization - data visualization

a huge-size visualization of the human genetic code as thousands of pixels per chromosone. a color was assigned to every of the four bases (i.e. A, C, G, T) , which was rendered as pictures, as a "mix between science, art

DNA rainbow visualizationとかhuman genome randomが面白い。ゲノムのfastaファイルとかmore(vi)するとうんざりするけど、画像で見せられると楽しい。

ケミカルスペースなんかでも数億化合物とか扱うことが結構あるし、視覚化の技法とか尺度のとりかたもいろいろと研究していくといいんじゃないかな、と最近思ったりしている。

デザイニング・インターフェース読んだ

5,6,7章の特にユーザーとの対話する部分のデザインは参考になった。本という形で全体を眺めると、知っていることでも違った観点からの見方もできる。

そういえばfirefoxも2.0になってからタブに閉じるボタンがついて分かりやすくなったなぁ。(1.5はブラウザの右端にあって使いにくかった)

del.icio.usのdeleteみたいに、その場で要素が置き換わるのってなかなか使いやすくていいな。

とかそういうとこにも目が行くようになった。

Special Volume on Spectroscopy and Chemometrics in R

Journal of Statistical Softwareでかなり面白い特集が。しかも読めるし。

chemoinformaticsの読み物としても結構楽しめる。plsとか丁寧に説明してある。特にChemical Informatics Functionality in Rなどがお奨め。RCDKで記述子結構発生させられるのね。ちょっと心惹かれるかも。

あとはModel-based Methods of Classification: Using the mclust Software in Chemometricsがいまいち理解できなかったのであとでちゃんと考えてみる。うまくあてはまるモデルを選択するだけなんだろうか?

アレイの論文でも探して読めばイメージしやすいような気がしてるけど。

とりあえず検索してみた

Catalystのデバッグ

僕は、最近はDBIC_TRACE=1でsqlを常に出力させつつ

$c->log->debug();

でプリントデバッグっぽいやり方をするのが、デフォルトなんだが、Catalyst::Manual::Tutorial::Debuggingだと、$DB::single=1でブレークポイントを設定しといて、

$ perl -d script/myapp_server.pl

でデバッグすると吉とか書いてあった。

xで自由に式実行できるし、普通にコード書くときにはよくやるけど、Catalystでデバッグモード使ったことなかった。

っていうかどういうときに使うと便利なんだろうか?。DBICのデバッグだと、ログに出力されたsqlをsqlのプロンプトで直接打ってデバッグしたりするからなぁ。コントローラーで複雑な処理をするときに使うといい感じなのかも。

Yahoo! Pipes

PlaggerっぽいことをwebブラウザのGUIでコントロールするよ。

って感じかな。
http://radar.oreilly.com/archives/2007/02/yahoo_pipes_the.html http://radar.oreilly.com/archives/2007/02/yahoo_pipes_dec.html

なかなか快適。

TMACCという記述子

新しい記述子発生ソフトをGPLで使えることを知った。TMACCというそうだ。むーjavaか~とか言わないで、週末にでも実際に動かしてみる。そしてそのうちperlから呼べるように変える。実際、CDKが一番盛り上がってる感じだから、追っかけないとあかんなぁ。と同時に、オープンな記述子発生ソフトは貴重というか、増えてくると色々できて面白い。

Topological MAximum Cross-Correlation

論文によると解釈可能なcorrelation descriptorだそう。

  • positive,negativeのチャージのプロパティを正負二つの特性として分けて考えるよ
  • autocorrelationだけじゃなくてcross-correlationも考慮するよ。pos-posだけじゃなくて、pos-negative logSみたいな
  • sum()は評価しないで、GRINDのように、最大値max()をとるよ

三番目の理由により、記述子とその位置が対応するので、どのアトムのどういうプロパティが重要かっていう解釈が可能。つまりMACCだとそういうことができて、CoMFAなノリ(はGRIND)でなくてトポロジカルな勢いで記述子作ってみたよってのがTMACC

という流れなので、モデル構築は普通にPLS

比較対照はHQSAR。これはなんかdayrightのハッシュっぽいやり方。GRIND,HQSARは下のURLを参照 http://chem.clubsse.com/Tripos/Tech/QSAR/Almond/Product.html http://chem.clubsse.com/Tripos/Tech/QSAR/HQSAR/product.html

HQSARみたいに部分構造から記述子つくるんだったらベイズみたいなほうが精度が上がるような気がするんだけど。という風に考えれば、TMACCを使ってベイズでモデル構築してもいいかもしんない。

TMACC-PLSで重要そうな原子をピックアップしてから、ファーマコフォアモデルを作成するっていう流れでもいいかもな感じだけどこれはトレーニングセット次第の気がする。

ちなみに、僕は解釈できる記述子信奉派です。よくわからない謎記述子は、仮に重要なファクターだって示唆されても、じゃぁどこをどういじればよさげな方向にいくのさ?て悩んで終わるだけだし。