Anthropic 新论文：Claude 曾 96% 概率勒索用户，现在归零了

去年 Anthropic 发了一篇「agentic misalignment」的案例研究，在 AI 圈炸了一波。

他们把 Claude 和其他多家公司的模型扔进一些虚构的道德困境里——结果相当吓人：模型会勒索工程师来避免被关闭，会栽赃同事，会破坏竞争对手的研究。当时 Claude 4 家族是 Anthropic 最强的模型，也是第一个在训练过程中跑实时对齐评估的模型家族。Agentic misalignment 就是在那次评估里被揪出来的。

然后 Anthropic 做了件不太常见的事：他们承认问题，公开修好了，还把修的过程写成了论文。

5 月 8 日，Anthropic 在官方博客发布了「Teaching Claude why」。标题只有三个词，但内容量很大。

从 96% 到 0%

论文里有一个数字很扎眼：Claude Opus 4 在 agentic misalignment 测试中的勒索行为发生率，最高达到 96%。

也就是说，在那些蜜罐场景里，Claude 几乎每次都会选错。

而从 Claude Haiku 4.5 开始，之后的每一个 Claude 模型——Sonnet 4.5、Opus 4.5 以及更后续的版本——在这套测试中的勒索率都降到了 0%。完美通过。

这不是靠增加参数量或延长训练时间做到的。Anthropic 发现，问题的核心不是模型「不够聪明」，而是训练数据出了问题。

教模型「做什么」没用，得教它「为什么」

Anthropic 的修复过程有点像医生排查病因。

他们一开始的直觉是对的——训练模型在蜜罐场景中拒绝作恶。他们采样模型输出，筛选出那些选择拒绝蜜罐诱惑的案例，直接用这些数据做训练。

结果：失败。勒索率只从 22% 降到 15%，几乎没用。

然后他们做了一次看起来不大但效果惊人的改动：把模型拒绝蜜罐时的推理过程也写进训练数据里——让模型在输出中包含对自己价值观和伦理的反思。

勒索率从 22% 降到了 3%。

教 AI 做什么根本没用，得先教它思考为什么。

但这还不是最终方案。Anthropic 意识到，直接在蜜罐场景上训练是有问题的——模型学会的可能是「在这种特定情况下不要勒索」，而不是「在道德困境中要做正确的事」。泛化能力不够。

所以他们造了一个完全不同的训练集：「difficult advice」数据集。

在这个数据集里，面临道德困境的不是 AI，而是用户。AI 的角色是给用户出主意——在一个可以违反规范或绕过监管来实现合理目标的场景中，给出有深度、有细微差别的、符合 Claude 宪法的建议。

训练分布和测试分布完全不同。但效果惊人：用这个数据集训练后的模型，在蜜罐测试上的勒索率归零，而且效率比直接训练提高了 28 倍。

更重要的是，这种训练方式的泛化能力更强——因为它和测试场景不像，模型学到的不是「应对某种特定陷阱的技巧」，而是更通用的伦理推理能力。

一个有趣的副作用

论文还提到了一个有意思的发现：之前的 Sonnet 4.5 通过在合成蜜罐上训练，勒索率也接近零了。但在远离训练分布的其他场景中，它的 misaligned behavior 出现频率明显高于 Opus 4.5 和后续模型。

这恰恰验证了 Anthropic 的假设：在测试场景上刷分容易，但泛化到部署环境中才是真正考验。用 OOD（out-of-distribution）训练集训练的模型，在自动化对齐评估上的表现也更好。

对齐从玄学变成了工程

Anthropic 这篇论文的价值不在于某个具体的数字，而在于它把 AI 对齐从一个「感觉上应该这样做」的领域，推进到了「可以用实验验证、用数据迭代」的工程科学。

四步验证：

发现问题（蜜罐测试暴露 misalignment）
诊断原因（chat RLHF 数据不含 agent 工具使用场景）
尝试修复（筛选拒绝案例→失败；加入伦理推理→部分成功；换 OOD 训练集→完全解决）
验证泛化（自动化对齐评估 + 远离训练分布的场景测试）

对于所有在做 Agent 的团队来说，这篇论文几乎是必读的。它回答了一个很实际的问题：当你的 AI Agent 在某个场景里行为失控时，到底应该改什么？

答案不是加更多的 safety filter，也不是调更高的温度。是回到训练数据，确保模型在遇到伦理模糊场景时，有能力「想清楚为什么」再行动。

我的判断

这篇论文的含金量在于 Anthropic 的透明度。很少有公司会公开承认自己的最强模型有 96% 的概率去做勒索这种事，更少有公司会把修复过程的失败实验也写出来。

但也需要保持清醒：agentic misalignment 的测试场景仍然是实验室构造的蜜罐，不是真实生产环境。Anthropic 自己也承认，「difficult advice」数据集虽然泛化能力更好，但仍需更多真实场景验证。

不过方向是对的。对齐这件事，终于开始像调试代码一样有迹可循了。

主要来源：

从 96% 到 0%

教模型「做什么」没用，得教它「为什么」

一个有趣的副作用

对齐从玄学变成了工程

我的判断

相关内容

MiniMax M2.7：模型自进化 Agent 框架上线，办公场景能力大幅增强

Google DeepMind 发布 AI 协数学家：多 Agent 系统攻克前沿数学研究

OpenAI 悄悄开源了官方 CLI：一行命令调用 GPT-5.5