Pythonによるバイオインフォマティクス 原著第2版の翻訳に関わりました。
バイオインフォマティクスの書籍というとだいたい3つに分類されるかと思いますが、本書は3のカテゴリに入るかなと思います。
- アルゴリズムに関して記述してある本、情報科学系の人向け
- ユーザーとして解析方法を知りたい人向け
- インフラ寄りの立ち位置で、生命科学データベースやウェブサーバーなどを扱いたい人向け
本書の初版に寄せての1文を借りると
本書の主目的は生 物学の問題と解かんとするこれら研究者を助け,プログラミングの初歩をてほどきすることにある.
つまり本書の特徴はBioPythonを通してPythonプログラミングの基本を覚えられるような構成になっています。目次を見ればわかりますが、8章までPythonの説明に当てられており、9章でBioPythonのいろいろな機能が紹介されます。二部ではDB操作(RDB, NoSQL)やWebアプリケーションの構築に触れられています。ただし、NGS解析については触れられていない ですし、機械学習(Scikit-learn)についても触れられていないので、そのあたりに興味のある方は他の書籍を選択したほうが良いでしょう(後ろに載せます)
本書の原著第2版はPythonの2/3について記述されていましたが、翻訳をしている間にPython2系が廃止されたという経緯もあって翻訳は完全にPython3での記述に変更しています。そのためにAuthorのSebastian BassiとSlackで何度もやり取りをして修正したり、ライブラリのバージョンアップで動かなくなったコードを直したりと結構手を入れました(かなり頑張ったのでまえがきに記載してます)
なお,今回の作業では,著者であるSebastian Bassiと頻繁にやりとりし,可能な限り正確な訳出を心がけた。現在では古くなっている情報については,該当箇所を書き換える,あるいは訳注として対応し,単なる原著第2版の邦訳以上のものとなっている。
ちなみにウェブアプリケーションフレームワークはBottleを採用しているのだけど、私はFlask派です。
PythonでNGS解析をしたい人は?
Bioinformatics with Python Cookbookを選択すればいいと思います(私は原著を読んだので翻訳はもってないです)。ただしCookbookと書いてあるように、前提としてある程度Pythonプログラミングができることを要求する本となっています。もしこの本のコードがわからんという人にとってはPythonによるバイオインフォマティクス 原著第2版は良い選択肢になるのではないでしょうか?
また本書はファイルフォーマットの説明があっさりだったので、Dr. Bonoの生命科学データ解析のフォーマットの説明の章を重宝しました。参考までに。
もう一点はシングルセル解析についての記述はありません。そのためScanpyなどに関する説明もありませんのでこのあたりを知りたい人はドキュメントを読んだりコードを追いかけたりする必要があるのではないでしょうか?
ユーザーとして解析方法を知りたい人には
このあたりが鉄板で、レビューもたくさんあるので調べてみてください。個人的にはRNA-Seqデータ解析が一番わかりやすかったです。