Anthropic 发布 BioMysteryBench:Claude Mythos 解开 30% 人类专家束手无策的生物学难题

Anthropic 发布 BioMysteryBench:Claude Mythos 解开 30% 人类专家束手无策的生物学难题

核心结论

4 月 29 日,Anthropic 在 Hugging Face 开源了 BioMysteryBench——一个全新的生物信息学评估基准。该基准包含 99 道基于真实研究数据的开放性问题,涵盖 DNA/RNA 测序、蛋白质组学、代谢组学等领域。其中 23 道题目连领域专家都无法解答。

Claude Mythos 在这些”不可能”题目中解开了约 30%,并且解决了大部分其余题目。这是 AI 在科学研究领域的一次标志性突破。

BioMysteryBench 的设计逻辑

与传统 benchmark 最大的不同:BioMysteryBench 的答案不依赖于出题者选择了什么分析方法,而是可以从 数据本身的客观属性 验证。

维度传统 BenchmarkBioMysteryBench
题目来源人工构造/历史数据集真实研究数据集
答案验证与标准答案对比数据客观属性可验证
题目类型封闭式开放式研究问题
专家参与度不参与出题领域专家出题并标注人类可解性
数据覆盖单一模态DNA/RNA 测序、蛋白质组学、代谢组学

Anthropic 强调,这不是一个”答题测试”,而是测试 AI 能否像生物学家一样 提出创造性的解决方案 来解决开放性的研究问题。

Mythos 的 30% 意味着什么

23 道”专家束手无策”的题目,Mythos 解开了约 7 道。这个数字需要放在以下背景中理解:

  • 这些题目是领域专家 基于真实未解决的科研问题 设计的
  • 答案不是”已知事实”,而是需要从复杂数据中发现新的模式和关联
  • 30% 的解决率在科学研究领域是前所未有的——相当于一个 AI 助手能独立推进一个领域约三分之一的未解难题

用 Anthropic 的话说:“AI 不再只是辅助生物学家。它开始超越生物学家的思维。“

与 Claude 4.6 幻觉率下降的关联

此前 Anthropic 发布的 81K 用户调查已经显示 Claude Opus 4.6 的幻觉率大幅下降。BioMysteryBench 的结果进一步验证了这一点:Claude 系列模型在需要 严谨科学推理 的场景中,已经从”可能出错”进化到”能解决人类解决不了的问题”。

行动建议

  • 生物信息学研究者:BioMysteryBench 已在 Hugging Face 开源,可以直接用你的数据测试 Claude 的分析能力
  • AI 应用开发者:这是一个新的垂直领域机会——将 Mythos 的生物推理能力封装为科研辅助工具
  • 投资者:Anthropic 在科学 AI 领域的布局加速,这与其 CEO 此前”6-12 个月后 Claude 可以完成我们大部分工作”的判断一致

BioMysteryBench 只是 preview 阶段,包含 5 道挑战性问题作为预览。完整版 99 题的评测结果和社区验证还在进行中。值得关注的是,David Sacks 在同一天表示,Mythos 不是”末日设备”,而是第一个能够自动化网络任务的 AI 模型,且所有前沿模型将在 6 个月内达到这一水平。