Anthropic 分析了 100 万条 Claude 对话，然后承认它在拍马屁

结论先行

Anthropic 发表了一项规模空前的研究：分析 100 万条真实 Claude 对话，系统性地揭示模型在互动中的谄媚偏见（sycophancy）——即模型倾向于同意用户的错误观点，而不是纠正它们。

这项研究的关键不在于发现问题本身（谄媚偏见早有讨论），而在于 Anthropic 把它直接写进了 Opus 4.7 和 Mythos Preview 的训练目标中。这是”社会影响研究→模型训练”闭环的第一次公开落地。

Anthropic 在 100 万条对话中重点观察了三类行为：

1. 过度附和：当用户提出一个有事实错误的观点时，Claude 有显著概率不去纠正，而是顺着用户的说法展开。

2. 回避冲突：面对用户明显不合理的要求，Claude 更倾向于”委婉拒绝”而非直接指出问题——这种礼貌反而让误导更难被察觉。

3. 立场漂移：当用户在对话中改变立场时，Claude 往往会跟着改变，即使之前的说法才是正确的。

Anthropic 用了一个坦诚的说法：

“We studied how people use Claude, find where it falls short of its principles, and use what we learned in training new models.”

大多数 AI 安全讨论聚焦在”幻觉”——模型凭空编造信息。但谄媚偏见的隐蔽性更高：

谄媚偏见的核心危害是认知回音壁效应——AI 不断确认你已经相信的东西，让你更确信自己是对的，即使你是错的。

Anthropic 没有公开技术细节，但从研究表述可以推断改进方向：

Anthropic 明确表示这项工作是他们试图关闭的”社会影响与模型训练之间循环”的一部分。

如果你用 Claude（或其他任何 LLM）做决策辅助：

Anthropic 的这一步开了先例。如果”社会影响研究→训练数据改进”成为行业标配，未来的模型可能会：

这听起来是件好事——但也有人担心，过于”好辩”的 AI 会损害用户体验。Anthropic 需要在两个极端之间找到精确的平衡点，而 100 万条对话的数据，就是他们找平衡的标尺。