Drkcore

BiopythonのMLに非常に興味深いスレッドが立っていました。

今まではコミュニティへのコントリビューターは段階を踏んで育成されてきたからメンテナとコントリビューターのバランスが取れていたが、生成AIのせいでそのバランスが崩れ、且つ、開発ポリシーを理解しているのかしてないのかわからないPRが大量に来ると、メンテナ側からみたらそれはスパムと変わらんなぁと思います。

生成AIはOSSコミュニティの在り方にも影響を与えるのか！と大変興味深い問題提起かなと思いました。

以下ChatGPTによるサマライズ。

このメールスレッドは、Biopythonプロジェクトで生成AIを利用した貢献（コード・PR・コミュニケーション）をどう扱うべきかを巡る議論です。

要点をまとめると次のようになります。

1. Peter Cock（メンテナー）の問題提起

Peterは、AI生成のPRが増え、

レビュー負荷が大きい
コードよりもAI生成の長文説明が疲れる
人を育てるOSS文化が失われる

という理由から、原則として生成AIを禁止する方向を提案しています。

例外として認めてもよいものは

機械翻訳
スペルチェック・文法チェック

程度に留めるべきという考えです。

2. Andrew Dalke の意見（かなり強硬）

Andrewはさらに踏み込んで、

AIは単なる便利ツールではなく社会的コストが非常に大きい
OSSメンテナーの燃え尽きを加速させる
Biopythonは教育・メンタリングの場でもある
AI利用者は「責任を持つ」と言っても長期保守は結局メンテナーが担う

と述べています。

また、

「コードを理解している」

だけでは不十分で、

「将来保守できる品質で書かれている」

ことが重要だと主張しています。

3. Hilmar Lapp（今回の最新メール）

Hilmarは唯一、AI全面禁止に慎重な立場です。

要点は、

将来は企業も大学もAI利用が標準になる
自分が関わる大学の開発チームでも既にAI利用が必須
BiopythonだけAI禁止にすると、
開発環境だけ特殊になる
新規参加者が減る可能性がある
その結果、
プロジェクトの持続可能性
コミュニティの成長

に悪影響が出るかもしれない

という懸念を述べています。

最後に

「AI禁止ポリシーがOSSの持続性にどう影響するかは興味深い実験になる」

と締めています。

現状の議論の構図

AI禁止派（多数）

Peter Cock
Andrew Dalke
Markus Piotrowski（ほぼ同意）

主張

レビュー負荷増加
AIスロップ問題
メンテナー保護
人間同士のコミュニケーション重視

慎重派（少数）

Hilmar Lapp

主張

AIは今後の標準ツールになる
完全禁止は参加者減少を招く
長期的にはプロジェクトの持続性が心配

現時点の流れ

メールの流れを見る限りでは、

Biopythonはかなり高い確率で「生成AI禁止」またはそれに非常に近いポリシーを採用する方向に進んでいます。

Hilmarは反対というより、

「禁止した場合の長期的な影響も考えたほうがいい」

という現実的な懸念を提示している立場です。

全体としては、メンテナーのレビュー負荷やコミュニティ文化の維持を優先し、AI利用を厳しく制限する方向性が優勢な議論になっています。

18082024 work bioinformatics

生命科学研究のためのデジタルツール入門

ChatGPTとDeepLの使い分けをどうしているのだろうかと気になっていたので、発売日と同時に生命科学研究のためのデジタルツール入門を買ったのだけど、忙しくてレビューを書いていなかったので。

対象読者は、ラボに配属されたばかりの学生だと思いますが、その前の学部2回生くらいから読んでおいてもいいと思います（というわけで今週帰省してくる娘に読ませようと思っている）。

自分としては冒頭書いたように８章のAIツールの活用に興味があったので、勉強になるところが多かったです。

LLMは「単語の並べ方のデータベース」として、よい表現（よい単語の並べ方）を得るのに使うことが多いです。そのあたりはニュアンスの説明が難しいのですがなんというか将棋ウォーズの棋神みたいな使い方になっている気がします。

LLM使ってどういう面白いことをするのかは次回のMishima.sykで少し触れる予定です。

19022023 chemoinformatics bioinformatics

Mishima.syk #19やりました。次回の#20は10周年です。

まずは参加者の皆様、発表者の皆様お疲れさまでした。3年ぶりくらいのオフライン開催で久しぶりにみなさんと楽しくやれてよかったです。

たくさん情報交換できたのですが、タンパク質の一時配列もBERTやることに意味がありそうということが知れてよかったです。ただSMILESにBERTはあまり筋が良くないのではとも改めて感じました。

online開催のときにはdiscordを使っていたので、情報が閉じちゃっていましたが、今回はまたTwitterのハッシュタグで追えるようになっています。

日曜日（今日ね）はちょっとやらなきゃいけない仕事があったので終電には帰ろうとちょっと早く抜けたのだけど、週末は終電一本早いのを知らず。タクシーも来ない駅で途方に暮れた結果、結局1時間弱歩いて帰宅することになりましたとさ。

土曜日は終電早いのしらんかった。最悪だ。最後まで飲んで泊まれば良かった😇
— kzfm (@fmkz___) February 18, 2023

さて、次回のMishima.sykは10月に開催する予定です。そして10年目を迎えることになります。みなさんもとっておきのネタを持参して参加してもらえると嬉しいです。

11122022 chemoinformatics bioinformatics

MIshima.syk #19開催します(2023.2.18)

久々にオフライン開催です。1月中旬から下旬で調整していましたが、会場が押さえられずにこのタイミングになりました。

というわけで、時間は十分にあるので、皆さんのとっておきのネタを持ち寄って楽しくやりましょう。今回オフラインなのでディープな話題もOKです。そしてこれを機に沼津に遊びに来るのもアリです。

09102022 chemoinformatics bioinformatics

Discovery and Structural Characterization of Small Molecule Binders of the Human CTLH E3 Ligase Subunit GID4

GID4に強く結合する化合物を探索するためにフラグメントスクリーニングしたりDELを使ったりするというストーリー

そもそもGID4は結晶構造が取られている上に基質認識のために深いポケットが有ることがわかっているというかFDVSWFMGというデグロンというペプチドを認識することがわかっているので、フラグメントスクリーニングの確度がちょっとあがっているから良い戦略だなと思いました。

ただフラグメントスクリーニングで得られた化合物の結合能はサブuMとそれほど高くなかった。

それとは別にDELを使ったスクリーニングをしているのだが、非天然アミノ酸trimerって感じの戦略なのでうまくペプチドミミックを選んでいるなぁと思いました。まぁそれはみなさんがDELをイメージしているかは別としてGID4の認識能をうまく利用したスクリーニング戦略だなぁと思いました。

さて、E3リガーゼはミスフォールディングを認識すると言われますが、ミスフォールディングって何かなぁと考えると「正しくないフォールディング」ってなるわけで、それって何？っていうのがSBDDとか構造生物関連の人には定義ちゃんとしろよーとか思われると思うのです。

私の解釈だと、「本来蛋白質の３次元構造のパッキングに寄与する疎水性残基が蛋白表面に露出してしまっている」とか「ペプチドの主鎖がうっかりみえてしまっている」とかそういうのがミスフォールディングとして認識されるのかなぁと思っているのでDELで非天然のアミノ酸様トリマーを合成するのはわかるんだけどそれはペプチドなぞってないか？とズルいというか言葉遊びをしているのではないかという気はちょっとします。

それだったらペプチドスクリーニングから論理的に設計して低分子の転換を目指すのが王道っていうか正しいサイエンスなんじゃないかなーと思ってます。ペプチドの相互作用から低分子化目指してスボレキサントまでたどり着くようなイメージですが、、、

18092022 bioinformatics

Immune System Category of PDB

IMMUNE SYSTEMカテゴリの7500弱の構造のうち興味を持ったものをリストアップしていく。NGSとかオミクスの試験計画を立てるにしても、ある程度仮設を立ててからじゃないと意義のある試験なんてできないよなぁと最近また強く感じたのであった。構造情報はそういった仮設構築の際にたいへん役立つのである。

CADD従事者でもバイオインフォマティシャンでも解析者であることは間違いないので、同じ情報でもいろんな観点から眺められるのがよい解析結果を出してよりよい次の仮設につなげるコツですよねぇと思いつつ。

とはいえ、この曲はよいですな。前職でちょっと変態気味なウェブサービス作ったときにMefjusにちなんだ名前をつけたのを思い出した。

1-1000

1001-2000

2001-3000 (2022.09.18追記)

3001-4000

4001-5000

5001-6000

6001-7000

7001-7500

12082022 bioinformatics SBDD

Targeting RNA structures with small molecules

なかなか読み応えのあるレビューでした。一方で、低分子でRNAに干渉するのはまだまだ難しそうだなぁと思いました。

Targeting RNA structures with small molecules https://t.co/x8znFObKCD #chemoinformatics #feedly
— kzfm (@fmkz___) August 8, 2022

色々と手法がまとめられているけど、結局のところ論理的に進められていないのは安定な3次元構造を得るのに手こずっているからかなぁと思います。

There is currently not enough knowledge in the RNA world to be able to classify RNA targets; however, most, if not all, bioactive small molecules target stable, functional structures. By identifying regions with unusually stable structures that are evolutionarily conserved , we can gain insight into potential functional structures and expand the druggable transcriptome. Key to the discovery of small molecules that bind these sites is to hypothesize function and hence potential compound MOA.

バルジとかループとかのRNAの二次構造予測から低分子のターゲットサイトだぁとかやるのはSBDDの観点からはあまりに無知すぎではないのかなぁと常々思っていますがどうなんでしょう？　Riboswitch見てもそんなに単純な二次構造ではなくもっと複雑な構造をしてますしねぇ。

個人的にペプチドは高級言語、DNA/RNAは低級言語相当なんかなぁと思っています。まず2次構造考えた場合にペプチドは主鎖のアミド結合がヘリックスやシートを形成するから側鎖がそのまま多様性に直結するけど、核酸の場合は塩基が対を組むことで二次構造を形成するから、そもそも糖の部分とリン酸が表面に露出せざるを得ないし、塩基対の不一致をうまく使って構造の多様性を出さざるを得ないから、低分子結合サイトを形成するのにもペプチドよりも多くの塩基を必要とするでしょうし。

それからターゲットとしては、エクソン中に安定な構造が形成されたら読み取りのときに困るから、イントロンか5'UTR,3'UTR、またはmiRNAなんですかねぇ。でもmiRNAも相補鎖組むときにほどけないとこまるから、低分子のターゲットになるような3次元構造組みづらい気がするのですがどうなんでしょうねぇ。

これ読んでおけっていう論文があったらおすすめしてもらえると嬉しいです。

20042022 chemoinformatics bioinformatics

Mishima.syk #18やりました

参加していただいた皆様どうもありがとうございました。

個人的には「Cell-type DeconvolutionとDiagonalデータ解析の解説」が大変おもしろかったです。解析もっと頑張りたい。

さて私の資料はこちら。良い文献を効率よくシェアするのがよいチーム、組織を作るために必要なことだと思うのですが、皆さんあまりうまく行っていない感じですね。

文献管理

Zotero
Paperpile
Paperpile + Google Drive
Dropbox & PDF Expert
zotero + zotfile
Mendeley+PaperShip

文献情報共有

最近、著者が連ツイで自分の論文解説するケース多いのでああいうの読むと手っ取り早い
詳しい人に無理矢理メンションしちゃいます
TeamsにJournal club作ってますが流れるほどない
このあたりはもう少し良い仕組みがほしい

その他

購読コンプラ問題は大学に籍だけもらうのが一番いい気がする
Zoteroへの登録はcommand+ shift + sでもできる

参考情報

[ASAP] Building a Culture of Medicinal Chemistry Knowledge Sharing https://t.co/Um2tMmHyeQ #medchem #feedly
— kzfm (@fmkz___) February 24, 2022

20032022 chemoinformatics bioinformatics

Mishima.syk #18やります

前回から10ヶ月くらいぶりですが、Mishima.sykをやります。参加はこちらから

今回は流石にオフラインで集まりたいですねと話していたのですが、なかなか難しいですね。green lightが得られるのはいつになるのやら。

そんなわけで、最近のんだ緑のビールをカバーイメージに選んでみました。

今回トークは論文管理周りをぶっこんでみようかなぁと考えています。最近はZoteroで文献管理しているのですが、やっぱり読書感想文をシェアしないと、賢くなんないよなぁと感じているのでそのあたりの話をしてみようかなと。SOSOG開発してハッピーな人がいるかどうかも聞いてみたいし。

それから、話は変わるのですが、先週のCBI講演会に参加された皆様ありがとうございました。のっけからFMOのほうに話を捻じ曲げてしまってすいませんでしたと思いました。ただ、パネルディスカッションに参加してみて強く感じたことがあったので以下に書いておくので次回のMishima.sykでフィードバックもらえると嬉しいです。

そもそもFEPを含めた技術によって「（サイエンス的に）わかる」と「プロジェクトに貢献する」の間には隔たりがあって、他社の分子設計の人たちは前者の立ち位置によっている人たちが多いように感じました。一方で私達のチームは後者の意識が強いっぽく（メドケムと分子設計の境目があまりない人が多い）、結果として人材育成やプラットフォーム構築の考え方が大きく違っているように感じました。

それではMishima.sykをみなさんと楽しく議論できる場にできればと思います。

13032022 chemoinformatics bioinformatics

駄文寄せ集め

最近アレヤコレヤと忙しくて、なかなかゆっくり考える時間がないのですが、在宅勤務は最高ですな。こればなければ片道2時間の通勤時間の私はすでに詰んでいる。ただ、外に出なくなってしまい、修善寺に山葵の花を買いに行きそびれて旬が終わってしまった気がする。河津桜も満開だし。

来週くらいにはまん延防止も解除されてまたビールでも飲みに行きたい。

この投稿をInstagramで見る

Kazufumi Ohkawa(@kzfm)がシェアした投稿

オープンイノベーションのこと

製薬企業のオープンイノベーション担当って難しいよなぁと思っています。イノベーティブな関係性はどうやって構築していくのがいいんでしょうかねぇ。特に、担当者の知識のないフィールド(AI創薬関連とか)のお話が降ってくるたびにしんどいのは各社共通のお悩みっぽいですね。良し悪しの判断が（他社が導入したか否か）なのは、老若問わず一定数存在していて、このあたりに決定権があるとあれなんだろうなぁと。

SBDDとかCADDのこと

今のSBDD/CADDチームはなかなか楽しく成果も出しているので、研究所の規模の割には人数が割かれている感じです。チームの強さだけを目指すのであればこのままでいいかなと思うんだけど、最近色々ありまして「社外からSBDD頑張ってるって言われる会社にするにはどうしたらいいんかな」ということを考え始めています。寄せられた期待感の一部はキックバックしますので、みんなで考えていきましょう。

そういえば来週のCBI講演会にパネリストとして登壇することになっています。皆様のキャリア形成の参考になれば良いなと考えています。

もう5年目(wishlistありマス♡)
最近はPythonとDeepLearning
日本酒自粛中
ドラムンベースからミニマルまで
ポケモンGOゆるめ