Mishima.syk #17 やりました

Mishima.syk #17に参加された皆様お疲れさまでした。

今回は2回目のオンライン開催だったので、準備に関してはちょっと慣れたしDiscordの使い方もうまくなったと思います。今回は前半はサイエンス寄りの話で後半はネタトークという構成になったのですが、今回も幅広い話題でかなり楽しめました。ただ、Discord使うとTwitterにログが残らないのはちょっとどうしようもないですね。

今回参加された方も次回は5分程度の短めのトークでよいのでなにか話すと良いかと思います。なにか得られるものがあるかもしれません。

  • einsum便利そう
  • gene2pubmedを使ってみないといけない
  • 高性能なマシンが欲しくなった(定期)

ちなみに自分の発表の元ネタとして採用した聖女の魔力は万能ですはだれも見てないのでは疑惑が浮上したので、次回はもう少し考えてチョイスしないといけないなぁというのが反省点かな。

それからもっと手を動かす時間を確保しないといけないなぁと。

LLPS and DDS

先週はCBIの「液-液相分離(LLPS)と創薬」というセミナーを聞いてました。

感想としては「創薬との距離感相当ありますなぁ」という感じでした。完全に'Key and Lock'のコンセプトから外れてるし、天然変性タンパク質にこのコンセプトで干渉しようとするのもかなりハードル高そうに感じました。

どちらかというと、DDSの手法を用いて治療コンセプトを証明していくような方が自然なのかなぁと。オルガネラターゲティングとかの細胞内の局在コントロールみたいな。

ProductName 相分離生物学
東京化学同人 / ¥3,520 (2019-08-02)

なんとなくこれから求められていく治療コンセプトが、もっと上手に生体をハックしていく方向にシフトしていくのかなぁと。そうなってくると、分子生物学の知識がますます求められていくのだけど、それを理解するためには物理化学、化学も精通してないといけないという(LLPSなんて化学だしねぇ、でも解いているのは生物の問題という)。

ハードモードに突入するんでしょうかね?

エンドサイトーシスがよくわからない

13章を再読していた。

ProductName 細胞の分子生物学
ニュートンプレス / ¥19,800 (2010-01T)

肉じゃがとモダリティと私

いつもの産直詣でをしたところ、ちょうど出始めの新じゃがいもが手に入ったので肉じゃがを作ってみた。

作り方は至って簡単で、

新じゃがと豚バラを塊のまま蒸し器に放り込んで1時間以上放置。その後適当にザクザク切って片栗粉でとろみをつけただし醤油餡を回しかける

この肉じゃがの作り方の気に入っているところはオーソドックスな煮るタイプの肉じゃがと異なり、蒸していることつまり単に具材でなく調理プロセスという枠組みを再解釈しているところだ。

で、モダリティの話。

昨今のモダリティの議論は低分子から高分子といった具材に限定しているように思う。要するに「牛肉を豚肉に変えてみた」とか「砂糖の代わりにスプライトを入れてみました(これはこれで美味いw)」とか。

本当のモダリティとか、イノベーションっていうのはやっぱり枠組みを再考することでしか生まれないんじゃないかなぁと思いつつ肉じゃがを頂いたのであった。

ProductName 小山裕久の日本料理で晩ごはん
朝日新聞社 / ¥51 (2001-10T)

getGEOで取得した後、不要なサンプルを除去する

とりあえず、ノーマライズされたデータをサクサク再解釈できればいいので、getGEOから。これでとってきたデータに不適切なサンプルが混じったりすることがあるので、最初にサクッと除きたい

gse <- getGEO("GSE138458")
removes <- c("GSM4109031", "GSM4109192", "GSM4109193", "GSM4109194", "GSM4109223", "GSM4109271")
gse <- gse[,-which (colnames(gse) %in% removes)]

とやれば綺麗なデータセットになり嬉しい。

独習 Pythonバイオ情報解析はPythonでシングルセル解析をやりたい人が読めば良いと思う

シングルセル解析をPythonでやりたい人には色々と役に立つことが書いてあると思います。私にとっては7, 10-12章が良かったです。1章から6章はPythonとかPandasの使い方なのでスキップしました。

scanpyの使い方が気になっていたのですが、付録Bに10ページくらいの解説だったけど、もう少しページを割いてもらえると嬉しかったかも。まぁオフィシャルドキュメント読めばいいんだろうけど。

全体的に満足な内容でしたが、

  1. リードのトリミング
  2. ゲノム配列のマッピング
  3. マッピングされたリード数の数え上げ

といった部分は割愛されているのでRNA-Seqデータ解析の内容くらいは理解してある必要があるかもしれません。

独習と銘打ってありますが、Pythonにある程度なれていないとハマるかもしれないなぁと思いました。本書で動作確認したPythonやCondaのバージョンとか各ライブラリのバージョンが明記されていないので、Pyhon3.9.4だとcondaでumap入らなかったりとかconda-forge指定しないといけなかったりとかちょいちょいありました。

それからjupyter notebookを勧めているのにサンプルコードがpyなのは初心者は戸惑うんじゃなかろうかなぁと。ipynb同梱しなかったのはなにか理由があったんですかね?

  • 出力7-24の出力結果間違ってる?
  • 8.1.2 joypy, matplotlib_vennのインストールには -c conda-forgeオプションが必要だった
  • 10.2.3 コンベンショナルな方法で正規化してたが実際はどうするのがいいのか?
  • 11.4 Python3.9.4ではumapをcondaでインストールできなかった。pip混ぜたくないのでスキップした
  • 12.5 SAUCIE後で論文読む

Dr.Bonoの生命科学データ解析 第2版

献本ありがとうございます。

初版のサイン入り(#11)本も持っているので変更箇所を見比べながら読んでました。

著者のサイトを見てもらえれば良いと思うが、色々と更新されていました。

個人的には第5章にCHIP-seqの事例が追加されていて参考になりました。

あとはコード書いてるときにフォーマットのスペシフィケーションをすぐに参照できると嬉しいことが多いので重宝しています。

リンパとTregと新しい免疫入門

最近ずっと免疫関連の本を読んでいて「リンパわからん」となっていたのだけど、まるまる一冊リンパの本があったので読んでみたらかなりわかりやすかった。

レビューにもあるように、ちょっと専門的かなと思ったので、前提としてこのあたりは読んで理解している必要があるように思う。

さらによくわからなかったTregについてもちょうどいい本があったので読んだ。こっちはちょっと、Treg発見ストーリーのような読み物色が強かったけど、それだけにわかりやすくTregが説明されていた。これは読んでおくべき本だと思う。 なんどもCD25が出てくるのでこれがIL2Rであることは覚えた。

最後に腸のふしぎも読んだ。これはざっと眺めただけ。

就職Hacks (製薬企業のDryポスト)

製薬企業でDryのポストを狙っている学生の方々は、おそらくバイオインフォマティクスやケモインフォマティクスの研究室に在籍しているか、ウェットの研究室の担当でDry解析も掛け持ちしているとかだと思います。なので、NGS解析用の既存のコードをモディファイするなり、研究室でメンテされているコードをちょいちょい書き換えたりして、研究成果を出しているのだと思います。就職活動で製薬企業でDryのポストを得るためには研究成果以外にも解析能力やコーディング能力をアピールできると良いと思いますので、損にはならない(と私が思っている)方法を2つほど紹介したいと思います。

GitHubは使えるようにしておこう

書いてあるとおりそのままです。アカウントがなくて成果物がアップロードされていないとしても、PRやイシューを送ったことがあるかといった経験はあったほうが良いかなと思います。

競技プログラミングにもちょっと手を出しておこう

プログラミングを楽しめるということもDryでやっていく研究者として重要な資質かなと思います。インフォマティクス系のポジションを狙っている場合、もしかしたらアルゴリズムに関して質問されるかもしれません。そういった場合にある程度基本的なアルゴリズムやデザインパターンなどに関する知識があったほうが良いかなと思います。

競技プログラミングは色さえついていれば良いと思います。無色透明よりは断然マシでしょう。あんまり聞かれることはないと思いますが、もし私が面接官をやれと言われたら間違いなくする質問だと思います。TOEICのスコアと同じくらいにわかりやすい参考値だしね。

Pythonによるバイオインフォマティクス 原著第2版

Pythonによるバイオインフォマティクス 原著第2版の翻訳に関わりました。

バイオインフォマティクスの書籍というとだいたい3つに分類されるかと思いますが、本書は3のカテゴリに入るかなと思います。

  1. アルゴリズムに関して記述してある本、情報科学系の人向け
  2. ユーザーとして解析方法を知りたい人向け
  3. インフラ寄りの立ち位置で、生命科学データベースやウェブサーバーなどを扱いたい人向け

本書の初版に寄せての1文を借りると

本書の主目的は生 物学の問題と解かんとするこれら研究者を助け,プログラミングの初歩をてほどきすることにある.

つまり本書の特徴はBioPythonを通してPythonプログラミングの基本を覚えられるような構成になっています。目次を見ればわかりますが、8章までPythonの説明に当てられており、9章でBioPythonのいろいろな機能が紹介されます。二部ではDB操作(RDB, NoSQL)やWebアプリケーションの構築に触れられています。ただし、NGS解析については触れられていない ですし、機械学習(Scikit-learn)についても触れられていないので、そのあたりに興味のある方は他の書籍を選択したほうが良いでしょう(後ろに載せます)

本書の原著第2版はPythonの2/3について記述されていましたが、翻訳をしている間にPython2系が廃止されたという経緯もあって翻訳は完全にPython3での記述に変更しています。そのためにAuthorのSebastian BassiとSlackで何度もやり取りをして修正したり、ライブラリのバージョンアップで動かなくなったコードを直したりと結構手を入れました(かなり頑張ったのでまえがきに記載してます)

なお,今回の作業では,著者であるSebastian Bassiと頻繁にやりとりし,可能な限り正確な訳出を心がけた。現在では古くなっている情報については,該当箇所を書き換える,あるいは訳注として対応し,単なる原著第2版の邦訳以上のものとなっている。

ちなみにウェブアプリケーションフレームワークはBottleを採用しているのだけど、私はFlask派です。

PythonでNGS解析をしたい人は?

Bioinformatics with Python Cookbookを選択すればいいと思います(私は原著を読んだので翻訳はもってないです)。ただしCookbookと書いてあるように、前提としてある程度Pythonプログラミングができることを要求する本となっています。もしこの本のコードがわからんという人にとってはPythonによるバイオインフォマティクス 原著第2版は良い選択肢になるのではないでしょうか?

また本書はファイルフォーマットの説明があっさりだったので、Dr. Bonoの生命科学データ解析のフォーマットの説明の章を重宝しました。参考までに。

ProductName Dr. Bonoの生命科学データ解析
メディカルサイエンスインターナショナル / ¥3,300 (2017-09-29)

もう一点はシングルセル解析についての記述はありません。そのためScanpyなどに関する説明もありませんのでこのあたりを知りたい人はドキュメントを読んだりコードを追いかけたりする必要があるのではないでしょうか?

ユーザーとして解析方法を知りたい人には

このあたりが鉄板で、レビューもたくさんあるので調べてみてください。個人的にはRNA-Seqデータ解析が一番わかりやすかったです。

ProductName 次世代シークエンサーDRY解析教本
学研メディカル秀潤社 / ¥6,160 (2019-12-12)