结论
Anthropic 于 2026 年 4 月 29 日发布 BioMysteryBench——一个专门评估 AI 模型分析真实生物数据能力的新基准。该基准包含 99 个问题,由真实生物信息学研究任务改编而来。
关键发现:99 个问题中有 23 个让人类专家团队束手无策。Claude 最新模型解决了这些难题中的约 30%,并解决了剩余大部分问题。这标志着 AI 在科学研究辅助方面达到了一个新阶段。
测试维度
BioMysteryBench 设计逻辑
BioMysteryBench 不同于传统学术基准,它使用真实的、未解决的生物信息学研究问题。测试方式不是”选择题”或”已知答案的问答”,而是要求模型提出创造性的解决方案。
99 个问题分为两类:
- 专家可解问题(76 个):人类专家团队最终能够解决的问题
- 专家难题(23 个):人类专家团队无法解决的开放性问题
这种设计模拟了科研的真实场景:大多数问题有答案,但少数关键问题才是真正的挑战。
Claude 的表现
| 问题类别 | 数量 | Claude 解决率 |
|---|---|---|
| 专家可解 | 76 | 大部分解决 |
| 专家难题 | 23 | 约 30% |
在 23 个专家难题中,Claude 最新模型解决了约 30%,这意味着 AI 在大约 7 个人类专家无法解决的问题上找到了可行方案。
对科研流程的影响
Claude 在生物信息学分析中的表现表明,AI 正在从”辅助工具”转向”合作者”角色:
- 假设生成:Claude 能基于数据模式提出人类可能忽略的假设
- 跨领域联想:将不同生物学领域的知识整合,发现新的关联
- 代码生成:自动生成分析脚本,加速数据处理流程
但需要注意:AI 提出的方案仍需要人类专家的验证。30% 的解决率意味着仍有 70% 的问题需要人类智慧。
选择建议
- 生物信息学研究:Claude 在真实生物数据分析上展示了独特能力,适合作为研究辅助工具
- 假设探索阶段:用 Claude 生成初步假设和分析方向,再由专家验证
- 数据处理自动化:Claude 可自动生成分析脚本,减少重复性工作
- 需人类把关:AI 方案必须经过同行评审和实验验证,不可替代人类判断