Claude Mythos METR 评测：自主任务时间翻倍突破 16 小时，AI 从助手到独立工作者的分水岭

METR 的时间跨度基准测到顶了。

不是"接近上限"，是直接撞墙。Claude Mythos Preview 在 50% 成功率水平线上，能独立完成需要熟练人类 16 小时以上的任务——而 16 小时恰好是当前基准测试的设计上限。

换句话说，它可能还能干更久，只是尺子不够长了。

数字对比：从 30 秒到 16 小时

METR 追踪的核心指标很直观：一个 AI 系统能独立完成一项任务，在 50% 成功率水平线上，这项任务如果让熟练的人来做大概需要多长时间。

这条曲线这几年几乎是指数级上升的：

18 个月，从 1 小时到 16 小时以上。翻了三倍以上的时间跨度。

16 小时的人类工作时间，大约是一个中等复杂度的软件工程 sprint：做一个完整的功能模块，包含需求分析、编码、测试和部署。或者写一份详细的商业计划书，包含市场调研、财务预测和竞争分析。

如果 AI 能在不需要人类干预的情况下，以 50% 的完成率做到这个程度——注意，是"独立完成"，不是一问一答式的交互——那它已经不是助手了。它是个不需要午休的同事。

当然，50% 成功率意味着另一半时间它会搞砸。但这个数字本身也在快速逼近实用阈值。

在这个背景下，Anthropic 联创 Dario Amodei 最近的表态显得很有意思。他不认为 AGI 会发生在 2026 年，但预判一两年内可能在非前沿模型上出现一个概念验证：一个模型，端到端训练出自己的继任者。

"AI 自己造 AI"——这不是科幻，是 Amodei 认为可能在 2027-2028 年发生的事。

METR 的数据给了这个判断一个量化锚点。如果自主任务时间继续以当前速度翻倍，16 小时之后是 32 小时，32 小时之后是 64 小时……到某个时间点，AI 确实可以在无人干预的情况下完成"训练下一代模型"这种超长链路任务。

几点保留意见：

METR 的基准有局限。它衡量的是任务时间跨度，不是任务质量。16 小时的代码产出可能质量堪忧，16 小时的研究可能漏洞百出。时间长 ≠ 做得好。

50% 成功率在工程上不够用。如果你的 CI/CD 流水线有 50% 的成功率，没人会用它。自主任务要从"偶尔能用"变成"可靠工具"，成功率至少要到 90% 以上。

Anthropic 自己的 Mythos 还是 Preview 阶段。官方还没正式发布，所有数据来自早期预览版本。正式版的能力可能更强，也可能因为安全对齐而被削弱。

主要来源：