核心结论
4 月 29 日,Anthropic 在 Hugging Face 开源了 BioMysteryBench——一个全新的生物信息学评估基准。该基准包含 99 道基于真实研究数据的开放性问题,涵盖 DNA/RNA 测序、蛋白质组学、代谢组学等领域。其中 23 道题目连领域专家都无法解答。
Claude Mythos 在这些”不可能”题目中解开了约 30%,并且解决了大部分其余题目。这是 AI 在科学研究领域的一次标志性突破。
BioMysteryBench 的设计逻辑
与传统 benchmark 最大的不同:BioMysteryBench 的答案不依赖于出题者选择了什么分析方法,而是可以从 数据本身的客观属性 验证。
| 维度 | 传统 Benchmark | BioMysteryBench |
|---|---|---|
| 题目来源 | 人工构造/历史数据集 | 真实研究数据集 |
| 答案验证 | 与标准答案对比 | 数据客观属性可验证 |
| 题目类型 | 封闭式 | 开放式研究问题 |
| 专家参与度 | 不参与出题 | 领域专家出题并标注人类可解性 |
| 数据覆盖 | 单一模态 | DNA/RNA 测序、蛋白质组学、代谢组学 |
Anthropic 强调,这不是一个”答题测试”,而是测试 AI 能否像生物学家一样 提出创造性的解决方案 来解决开放性的研究问题。
Mythos 的 30% 意味着什么
23 道”专家束手无策”的题目,Mythos 解开了约 7 道。这个数字需要放在以下背景中理解:
- 这些题目是领域专家 基于真实未解决的科研问题 设计的
- 答案不是”已知事实”,而是需要从复杂数据中发现新的模式和关联
- 30% 的解决率在科学研究领域是前所未有的——相当于一个 AI 助手能独立推进一个领域约三分之一的未解难题
用 Anthropic 的话说:“AI 不再只是辅助生物学家。它开始超越生物学家的思维。“
与 Claude 4.6 幻觉率下降的关联
此前 Anthropic 发布的 81K 用户调查已经显示 Claude Opus 4.6 的幻觉率大幅下降。BioMysteryBench 的结果进一步验证了这一点:Claude 系列模型在需要 严谨科学推理 的场景中,已经从”可能出错”进化到”能解决人类解决不了的问题”。
行动建议
- 生物信息学研究者:BioMysteryBench 已在 Hugging Face 开源,可以直接用你的数据测试 Claude 的分析能力
- AI 应用开发者:这是一个新的垂直领域机会——将 Mythos 的生物推理能力封装为科研辅助工具
- 投资者:Anthropic 在科学 AI 领域的布局加速,这与其 CEO 此前”6-12 个月后 Claude 可以完成我们大部分工作”的判断一致
BioMysteryBench 只是 preview 阶段,包含 5 道挑战性问题作为预览。完整版 99 题的评测结果和社区验证还在进行中。值得关注的是,David Sacks 在同一天表示,Mythos 不是”末日设备”,而是第一个能够自动化网络任务的 AI 模型,且所有前沿模型将在 6 个月内达到这一水平。