METR 的时间跨度基准测到顶了。
不是"接近上限",是直接撞墙。Claude Mythos Preview 在 50% 成功率水平线上,能独立完成需要熟练人类 16 小时以上的任务——而 16 小时恰好是当前基准测试的设计上限。
换句话说,它可能还能干更久,只是尺子不够长了。
数字对比:从 30 秒到 16 小时
METR 追踪的核心指标很直观:一个 AI 系统能独立完成一项任务,在 50% 成功率水平线上,这项任务如果让熟练的人来做大概需要多长时间。
这条曲线这几年几乎是指数级上升的:
- 2022 年,GPT-3.5 的数字是 30 秒
- 2024 年,Claude 3.5 Sonnet 到了约 1 小时
- 2025 年底,Claude Opus 4.6 接近 7-8 小时
- 现在,Claude Mythos Preview 超过 16 小时,基准测试的天花板
18 个月,从 1 小时到 16 小时以上。翻了三倍以上的时间跨度。
16 小时意味着什么
16 小时的人类工作时间,大约是一个中等复杂度的软件工程 sprint:做一个完整的功能模块,包含需求分析、编码、测试和部署。或者写一份详细的商业计划书,包含市场调研、财务预测和竞争分析。
如果 AI 能在不需要人类干预的情况下,以 50% 的完成率做到这个程度——注意,是"独立完成",不是一问一答式的交互——那它已经不是助手了。它是个不需要午休的同事。
当然,50% 成功率意味着另一半时间它会搞砸。但这个数字本身也在快速逼近实用阈值。
Anthropic 联创的预判
在这个背景下,Anthropic 联创 Dario Amodei 最近的表态显得很有意思。他不认为 AGI 会发生在 2026 年,但预判一两年内可能在非前沿模型上出现一个概念验证:一个模型,端到端训练出自己的继任者。
"AI 自己造 AI"——这不是科幻,是 Amodei 认为可能在 2027-2028 年发生的事。
METR 的数据给了这个判断一个量化锚点。如果自主任务时间继续以当前速度翻倍,16 小时之后是 32 小时,32 小时之后是 64 小时……到某个时间点,AI 确实可以在无人干预的情况下完成"训练下一代模型"这种超长链路任务。
但别太当真
几点保留意见:
METR 的基准有局限。它衡量的是任务时间跨度,不是任务质量。16 小时的代码产出可能质量堪忧,16 小时的研究可能漏洞百出。时间长 ≠ 做得好。
50% 成功率在工程上不够用。如果你的 CI/CD 流水线有 50% 的成功率,没人会用它。自主任务要从"偶尔能用"变成"可靠工具",成功率至少要到 90% 以上。
Anthropic 自己的 Mythos 还是 Preview 阶段。官方还没正式发布,所有数据来自早期预览版本。正式版的能力可能更强,也可能因为安全对齐而被削弱。
主要来源: