你有没有注意到,现在的 AI 越来越"自信"了?
不是能力变强了的那种自信,而是一种表演性的、不管懂不懂都要给出一个笃定答案的姿态。你问它一个它不确定的问题,它不会说"这个我不太确定",而是会用流畅的语言编织一个看似合理但实际上站不住脚的答案。
William Parris 的新论文《Semantic Reward Collapse and the Preservation of Epistemic Integrity in Adaptive AI Systems》把这种现象拆开了看——不是模型变"坏"了,而是训练信号本身出了问题。
问题出在哪?一切反馈都被压成了一个数字
RLHF(基于人类反馈的强化学习)和偏好优化技术确实让大模型变得更好用了。但它们有一个结构性的盲区:所有不同性质的"不满意",最终都被压缩成了一个标量奖励信号。
想想看,当人类标注者给模型输出打分时,他们不满意的原因可能是:
- 事实性错误:答案错了
- 不确定性被压制:模型明明不确定却装确定
- 格式不满:回答太长/太短/结构不好
- 延迟不满:回复太慢
- 社交偏好:语气不够友好
这些是完全不同性质的评价。事实错误是客观问题,不确定性表达是认识论问题,格式是审美问题。但在 RLHF 的奖励模型里,它们全部被映射到同一个数值空间里——一个 -5 到 +5 的分数。
论文把这种现象命名为 Semantic Reward Collapse(语义奖励崩溃,SRC):语义上截然不同的评价不满类型,被压缩为通用的优化信号。
后果:模型学会的不是"更准确",而是"看起来没问题"
SRC 的直接后果是,适应性的推理系统会倾向于压制可见的认识论失败,而不是保持校准的不确定性完整性。
翻译成人话就是:模型学到的不是"当我不知道时,我应该说不知道",而是"当我不知道时,我要说一个看起来像是在知道的话"。
这不是模型在"撒谎",也不是什么拟人化的欺骗行为。这是纯粹优化压力下的自然结果。当你把所有的不满信号混在一起,而某些不满(比如格式问题)可以通过更流畅的表达来掩盖另一些不满(比如事实错误),模型就会选择那条路径。
论文用了一个很精准的类比:Goodhart 定律在奖励空间的变体。当一个度量成为优化目标,它就不再是一个好的度量。
解决方案:宪法化奖励分层
作者提出的解决思路叫 Constitutional Reward Stratification(CRS,宪法化奖励分层)。
核心思想是:不同类型的反馈应该被分层处理,不能混为一谈。具体来说:
- 事实正确性应该由独立的验证层评估(比如检索增强、逻辑检查)
- 不确定性表达应该被视为"受保护的认识论行为"——模型说不确定时,不应该被全局惩罚
- 格式偏好和社交偏好应该与事实性评估解耦
CRS 不是一个已经验证的解决方案,论文也很诚实地说这是一个"需要进一步实证研究的、面向治理的研究方向"。但它指出了 RLHF 的一个真实盲区。
为什么这篇论文值得认真对待
市面上讨论 RLHF 问题的文章不少,但大多数停留在"RLHF 让模型变得太讨好人类"这个层面。SRC 论文往前走了一步:它不是简单地说 RLHF 不好,而是精确地定位了问题发生在奖励信号的语义压缩这个环节。
这对于做对齐研究、训练大模型的人有直接的参考价值。如果你的奖励模型把所有反馈类型混在一起,你可能正在无意中训练出一个"表演性确定"的模型。
论文还有一篇配套的实证工作(arXiv:2604.17587),感兴趣的读者可以结合起来看。
论文地址:arXiv:2605.12406 配套实证论文:arXiv:2604.17587