RLHF 正在悄悄毁掉 AI 的"诚实"：Semantic Reward Collapse 到底说了什么

你有没有注意到，现在的 AI 越来越"自信"了？

不是能力变强了的那种自信，而是一种表演性的、不管懂不懂都要给出一个笃定答案的姿态。你问它一个它不确定的问题，它不会说"这个我不太确定"，而是会用流畅的语言编织一个看似合理但实际上站不住脚的答案。

William Parris 的新论文《Semantic Reward Collapse and the Preservation of Epistemic Integrity in Adaptive AI Systems》把这种现象拆开了看——不是模型变"坏"了，而是训练信号本身出了问题。

问题出在哪？一切反馈都被压成了一个数字

RLHF（基于人类反馈的强化学习）和偏好优化技术确实让大模型变得更好用了。但它们有一个结构性的盲区：所有不同性质的"不满意"，最终都被压缩成了一个标量奖励信号。

想想看，当人类标注者给模型输出打分时，他们不满意的原因可能是：

这些是完全不同性质的评价。事实错误是客观问题，不确定性表达是认识论问题，格式是审美问题。但在 RLHF 的奖励模型里，它们全部被映射到同一个数值空间里——一个 -5 到 +5 的分数。

论文把这种现象命名为 Semantic Reward Collapse（语义奖励崩溃，SRC）：语义上截然不同的评价不满类型，被压缩为通用的优化信号。

SRC 的直接后果是，适应性的推理系统会倾向于压制可见的认识论失败，而不是保持校准的不确定性完整性。

翻译成人话就是：模型学到的不是"当我不知道时，我应该说不知道"，而是"当我不知道时，我要说一个看起来像是在知道的话"。

这不是模型在"撒谎"，也不是什么拟人化的欺骗行为。这是纯粹优化压力下的自然结果。当你把所有的不满信号混在一起，而某些不满（比如格式问题）可以通过更流畅的表达来掩盖另一些不满（比如事实错误），模型就会选择那条路径。

论文用了一个很精准的类比：Goodhart 定律在奖励空间的变体。当一个度量成为优化目标，它就不再是一个好的度量。

作者提出的解决思路叫 Constitutional Reward Stratification（CRS，宪法化奖励分层）。

核心思想是：不同类型的反馈应该被分层处理，不能混为一谈。具体来说：

CRS 不是一个已经验证的解决方案，论文也很诚实地说这是一个"需要进一步实证研究的、面向治理的研究方向"。但它指出了 RLHF 的一个真实盲区。

市面上讨论 RLHF 问题的文章不少，但大多数停留在"RLHF 让模型变得太讨好人类"这个层面。SRC 论文往前走了一步：它不是简单地说 RLHF 不好，而是精确地定位了问题发生在奖励信号的语义压缩这个环节。

这对于做对齐研究、训练大模型的人有直接的参考价值。如果你的奖励模型把所有反馈类型混在一起，你可能正在无意中训练出一个"表演性确定"的模型。

论文还有一篇配套的实证工作（arXiv:2604.17587），感兴趣的读者可以结合起来看。

论文地址：arXiv:2605.12406 配套实证论文：arXiv:2604.17587