Anthropic 发布 BioMysteryBench：Claude Mythos 解开 30% 人类专家束手无策的生物学难题

核心结论

4 月 29 日，Anthropic 在 Hugging Face 开源了 BioMysteryBench——一个全新的生物信息学评估基准。该基准包含 99 道基于真实研究数据的开放性问题，涵盖 DNA/RNA 测序、蛋白质组学、代谢组学等领域。其中 23 道题目连领域专家都无法解答。

Claude Mythos 在这些”不可能”题目中解开了约 30%，并且解决了大部分其余题目。这是 AI 在科学研究领域的一次标志性突破。

BioMysteryBench 的设计逻辑

与传统 benchmark 最大的不同：BioMysteryBench 的答案不依赖于出题者选择了什么分析方法，而是可以从 数据本身的客观属性 验证。

维度	传统 Benchmark	BioMysteryBench
题目来源	人工构造/历史数据集	真实研究数据集
答案验证	与标准答案对比	数据客观属性可验证
题目类型	封闭式	开放式研究问题
专家参与度	不参与出题	领域专家出题并标注人类可解性
数据覆盖	单一模态	DNA/RNA 测序、蛋白质组学、代谢组学

Anthropic 强调，这不是一个”答题测试”，而是测试 AI 能否像生物学家一样 提出创造性的解决方案 来解决开放性的研究问题。

Mythos 的 30% 意味着什么

23 道”专家束手无策”的题目，Mythos 解开了约 7 道。这个数字需要放在以下背景中理解：

这些题目是领域专家 基于真实未解决的科研问题 设计的
答案不是”已知事实”，而是需要从复杂数据中发现新的模式和关联
30% 的解决率在科学研究领域是前所未有的——相当于一个 AI 助手能独立推进一个领域约三分之一的未解难题

用 Anthropic 的话说：“AI 不再只是辅助生物学家。它开始超越生物学家的思维。“

与 Claude 4.6 幻觉率下降的关联

此前 Anthropic 发布的 81K 用户调查已经显示 Claude Opus 4.6 的幻觉率大幅下降。BioMysteryBench 的结果进一步验证了这一点：Claude 系列模型在需要 严谨科学推理 的场景中，已经从”可能出错”进化到”能解决人类解决不了的问题”。

行动建议

生物信息学研究者：BioMysteryBench 已在 Hugging Face 开源，可以直接用你的数据测试 Claude 的分析能力
AI 应用开发者：这是一个新的垂直领域机会——将 Mythos 的生物推理能力封装为科研辅助工具
投资者：Anthropic 在科学 AI 领域的布局加速，这与其 CEO 此前”6-12 个月后 Claude 可以完成我们大部分工作”的判断一致

BioMysteryBench 只是 preview 阶段，包含 5 道挑战性问题作为预览。完整版 99 题的评测结果和社区验证还在进行中。值得关注的是，David Sacks 在同一天表示，Mythos 不是”末日设备”，而是第一个能够自动化网络任务的 AI 模型，且所有前沿模型将在 6 个月内达到这一水平。

核心结论

BioMysteryBench 的设计逻辑

Mythos 的 30% 意味着什么

与 Claude 4.6 幻觉率下降的关联

行动建议

相关内容

MiniMax M2.7 深度解析：模型自己训练自己的 Agent 进化路线

DeepSeek V4 Pro API 限时 75% 折扣，Claude Code / OpenClaw 解锁 1M 上下文

月之暗面官宣 Kimi K3：2.5 万亿参数，剑指全球顶级模型阵营