おまたせしました。一年ぶりくらいにMishima.sykをやります。
今回は各方面からの強い要望を受けての新大阪開催となります。
美味しくて楽しい懇親会場を探すために、最近はKNIMEST+αと下見を頑張っております。
前回と比較すると、vibe codingとかpaper2codeなんかが一気に実用化された気がします。それによって何が変わりそうなのかとか、すでに変わっているのかとかそれを踏まえたキャリアプランなんかも変わってくると考えていて、そういった話は某学会の講演会で企画しているので、もっとディープな議論ができればいいなぁと思っています。
あとはこのあたり
私の質問:
inductive bioのopen ADMETのコンテストで一位を取ったfoundation modelやboltz-2は結局generarizeっていうよりは memorizeしているだけだと思うのだけど、汎用的なモデルであるという反証ってあるのでしょうか?
Claudeのお答え:
非常に鋭い指摘で、これは今まさに議論の的になっています。結論から言うと、memorizeしているという批判は実験的にも支持されており、generalizeの反証は現時点では弱いです。
Boltz-2のケース:memorization artifact
Shekharらのvirtual knockout実験が直接的な証拠です。
- Binding siteをAlanine scanning、Phe置換(立体障害)、電荷逆転などで意図的に破壊してもBoltz-2のenrichmentはほぼ変わらない
- 同条件でdockingなどの物理ベース手法はenrichmentが崩壊する
- つまりBoltz-2は「タンパク質-リガンド相互作用の物理的理解」ではなく「既知の結合サイトの記憶」に依存している可能性が高い
さらにdata leakageの問題:
- sequence similarity cutoffが高すぎてpocket levelでのtrain-test leakageが起きている可能性
- scaffold splitではなくTanimoto splitを使っている点も批判されている
- Recursionの社内targetではbenchmark性能より大幅に落ちた報告あり
Open ADMETのケース
Inductive BioのBeaconモデルは「blind challenge」に勝ったという主張だが:
- blind testでもtraining dataと化学空間が重なれば実質memorization
- scaffold/cluster splitでの評価が十分かは非公開部分が多く検証困難
generalizeの「反証」として出てくる主張と限界
| 主張 | 限界 |
|------|------|
| 少量データ(~50化合物)でfine-tuningが効く | novel scaffoldでの検証が不十分 |
| blind challengeで1位 | chemical spaceが訓練データと重複の可能性 |
| 複数のendpointで汎用的 | 各endpointでleakageが独立に起きうる |
結論
現状、「真にgeneralizeしている」という強い反証はなく、memorization寄りの解釈を否定できていないのが実態です。これはBoltz-2だけでなくADMET/物性予測のfoundation model全般に言える課題で、proper temporal splitやout-of-distribution化合物での厳密評価が求められています。
Sources: