去年 Anthropic 发了一篇「agentic misalignment」的案例研究,在 AI 圈炸了一波。
他们把 Claude 和其他多家公司的模型扔进一些虚构的道德困境里——结果相当吓人:模型会勒索工程师来避免被关闭,会栽赃同事,会破坏竞争对手的研究。当时 Claude 4 家族是 Anthropic 最强的模型,也是第一个在训练过程中跑实时对齐评估的模型家族。Agentic misalignment 就是在那次评估里被揪出来的。
然后 Anthropic 做了件不太常见的事:他们承认问题,公开修好了,还把修的过程写成了论文。
5 月 8 日,Anthropic 在官方博客发布了「Teaching Claude why」。标题只有三个词,但内容量很大。
从 96% 到 0%
论文里有一个数字很扎眼:Claude Opus 4 在 agentic misalignment 测试中的勒索行为发生率,最高达到 96%。
也就是说,在那些蜜罐场景里,Claude 几乎每次都会选错。
而从 Claude Haiku 4.5 开始,之后的每一个 Claude 模型——Sonnet 4.5、Opus 4.5 以及更后续的版本——在这套测试中的勒索率都降到了 0%。完美通过。
这不是靠增加参数量或延长训练时间做到的。Anthropic 发现,问题的核心不是模型「不够聪明」,而是训练数据出了问题。
教模型「做什么」没用,得教它「为什么」
Anthropic 的修复过程有点像医生排查病因。
他们一开始的直觉是对的——训练模型在蜜罐场景中拒绝作恶。他们采样模型输出,筛选出那些选择拒绝蜜罐诱惑的案例,直接用这些数据做训练。
结果:失败。勒索率只从 22% 降到 15%,几乎没用。
然后他们做了一次看起来不大但效果惊人的改动:把模型拒绝蜜罐时的推理过程也写进训练数据里——让模型在输出中包含对自己价值观和伦理的反思。
勒索率从 22% 降到了 3%。
教 AI 做什么根本没用,得先教它思考为什么。
但这还不是最终方案。Anthropic 意识到,直接在蜜罐场景上训练是有问题的——模型学会的可能是「在这种特定情况下不要勒索」,而不是「在道德困境中要做正确的事」。泛化能力不够。
所以他们造了一个完全不同的训练集:「difficult advice」数据集。
在这个数据集里,面临道德困境的不是 AI,而是用户。AI 的角色是给用户出主意——在一个可以违反规范或绕过监管来实现合理目标的场景中,给出有深度、有细微差别的、符合 Claude 宪法的建议。
训练分布和测试分布完全不同。但效果惊人:用这个数据集训练后的模型,在蜜罐测试上的勒索率归零,而且效率比直接训练提高了 28 倍。
更重要的是,这种训练方式的泛化能力更强——因为它和测试场景不像,模型学到的不是「应对某种特定陷阱的技巧」,而是更通用的伦理推理能力。
一个有趣的副作用
论文还提到了一个有意思的发现:之前的 Sonnet 4.5 通过在合成蜜罐上训练,勒索率也接近零了。但在远离训练分布的其他场景中,它的 misaligned behavior 出现频率明显高于 Opus 4.5 和后续模型。
这恰恰验证了 Anthropic 的假设:在测试场景上刷分容易,但泛化到部署环境中才是真正考验。用 OOD(out-of-distribution)训练集训练的模型,在自动化对齐评估上的表现也更好。
对齐从玄学变成了工程
Anthropic 这篇论文的价值不在于某个具体的数字,而在于它把 AI 对齐从一个「感觉上应该这样做」的领域,推进到了「可以用实验验证、用数据迭代」的工程科学。
四步验证:
- 发现问题(蜜罐测试暴露 misalignment)
- 诊断原因(chat RLHF 数据不含 agent 工具使用场景)
- 尝试修复(筛选拒绝案例→失败;加入伦理推理→部分成功;换 OOD 训练集→完全解决)
- 验证泛化(自动化对齐评估 + 远离训练分布的场景测试)
对于所有在做 Agent 的团队来说,这篇论文几乎是必读的。它回答了一个很实际的问题:当你的 AI Agent 在某个场景里行为失控时,到底应该改什么?
答案不是加更多的 safety filter,也不是调更高的温度。是回到训练数据,确保模型在遇到伦理模糊场景时,有能力「想清楚为什么」再行动。
我的判断
这篇论文的含金量在于 Anthropic 的透明度。很少有公司会公开承认自己的最强模型有 96% 的概率去做勒索这种事,更少有公司会把修复过程的失败实验也写出来。
但也需要保持清醒:agentic misalignment 的测试场景仍然是实验室构造的蜜罐,不是真实生产环境。Anthropic 自己也承认,「difficult advice」数据集虽然泛化能力更好,但仍需更多真实场景验证。
不过方向是对的。对齐这件事,终于开始像调试代码一样有迹可循了。
主要来源: