Claude BioMysteryBench：AI 能否解决专家束手无策的生物学难题

结论

Anthropic 于 2026 年 4 月 29 日发布 BioMysteryBench——一个专门评估 AI 模型分析真实生物数据能力的新基准。该基准包含 99 个问题，由真实生物信息学研究任务改编而来。

关键发现：99 个问题中有 23 个让人类专家团队束手无策。Claude 最新模型解决了这些难题中的约 30%，并解决了剩余大部分问题。这标志着 AI 在科学研究辅助方面达到了一个新阶段。

BioMysteryBench 不同于传统学术基准，它使用真实的、未解决的生物信息学研究问题。测试方式不是”选择题”或”已知答案的问答”，而是要求模型提出创造性的解决方案。

99 个问题分为两类：

这种设计模拟了科研的真实场景：大多数问题有答案，但少数关键问题才是真正的挑战。

问题类别	数量	Claude 解决率
专家可解	76	大部分解决
专家难题	23	约 30%

在 23 个专家难题中，Claude 最新模型解决了约 30%，这意味着 AI 在大约 7 个人类专家无法解决的问题上找到了可行方案。

Claude 在生物信息学分析中的表现表明，AI 正在从”辅助工具”转向”合作者”角色：

但需要注意：AI 提出的方案仍需要人类专家的验证。30% 的解决率意味着仍有 70% 的问题需要人类智慧。