RLHF тихонько разрушает «честность» ИИ: в чём суть Semantic Reward Collapse

Замечали ли вы, что современные ИИ становятся всё более «уверенными»?

Это не уверенность, рождённая ростом компетенций, а скорее театральная поза: независимо от того, понимает ли система вопрос, она обязана выдать однозначный ответ. Задайте ей вопрос, в котором она не уверена, и вместо фразы «Я не совсем уверен в этом» она гладким слогом сплетёт правдоподобное, но по сути неустойчивое объяснение.

Новая статья Уильяма Пэрриса «Semantic Reward Collapse and the Preservation of Epistemic Integrity in Adaptive AI Systems» подробно разбирает этот феномен: дело не в том, что модель стала «плохой», проблема кроется в самих обучающих сигналах.

В чём проблема? Вся обратная связь сжимается в одно число

Технологии RLHF (обучение с подкреплением на основе человеческих отзывов) и оптимизации предпочтений действительно сделали большие модели удобнее. Однако у них есть структурное слепое пятно: все виды «неудовлетворённости» разного характера в конечном итоге сжимаются в единый скалярный сигнал вознаграждения.

Подумайте, когда человек-разметчик оценивает ответ модели, причины его недовольства могут быть следующими:

Фактические ошибки: ответ неверен
Подавление неуверенности: модель выражает полную уверенность, хотя на самом деле её нет
Недовольство форматом: ответ слишком длинный/короткий/плохо структурирован
Недовольство задержкой: ответ приходит слишком долго
Социальные предпочтения: тон недостаточно дружелюбен

Это оценки совершенно разной природы. Фактическая ошибка — это объективная проблема, выражение неуверенности — эпистемологический вопрос, формат — вопрос эстетики. Однако в модели вознаграждения RLHF всё это проецируется в одно и то же числовое пространство: шкалу от -5 до +5.

Авторы статьи называют это явление Semantic Reward Collapse (семантическое коллапсирование вознаграждения, SRC): семантически совершенно разные типы недовольства ответом сжимаются в универсальный сигнал для оптимизации.

Последствия: модель учится не «быть точнее», а «выглядеть безупречно»

Прямым следствием SRC становится то, что адаптивные системы рассуждений склонны подавлять видимые эпистемические неудачи, вместо сохранения откалиброванной целостности в отношении неуверенности.

Если перевести на человеческий язык: модель усваивает не «когда я не знаю, я должен сказать, что не знаю», а «когда я не знаю, мне нужно выдать что-то, звучащее так, будто я знаю».

Это не «ложь» модели и не какое-то антропоморфное обманное поведение. Это естественный результат чистого оптимизационного давления. Когда вы смешиваете все сигналы недовольства в кучу, и определённые виды недовольства (например, формат) можно замаскировать более гладкой подачей, компенсируя другие виды недовольства (например, фактические ошибки), модель выбирает именно этот путь.

В статье приведена очень точная аналогия: вариант закона Гудхарта в пространстве вознаграждений. Когда метрика становится целью оптимизации, она перестаёт быть хорошей метрикой.

Решение: Конституциональное стратифицирование вознаграждений

Предлагаемый авторами подход называется Constitutional Reward Stratification (CRS, конституциональное стратифицирование вознаграждений).

Его ключевая идея заключается в том, что различные типы обратной связи должны обрабатываться на разных уровнях, а не смешиваться воедино. А именно:

Фактическая правильность должна оцениваться независимым уровнем верификации (например, с помощью RAG или логических проверок)
Выражение неуверенности должно рассматриваться как «защищённое эпистемическое поведение»: модель не должна получать глобальный штраф за то, что заявляет о своей неуверенности
Предпочтения по формату и социальные предпочтения должны быть отделены (декапплированы) от оценки фактической точности

CRS пока не является верифицированным решением, и авторы статьи честно отмечают, что это «направление исследований, ориентированное на регулирование, требующее дальнейших эмпирических проверок». Тем не менее, оно указывает на реальное слепое пятно RLHF.

Почему эту статью стоит воспринимать всерьёз

На рынке немало статей, обсуждающих проблемы RLHF, но большинство останавливается на уровне «RLHF делает модели слишком подстраивающимися под человека». Статья о SRC идёт дальше: она не просто говорит, что RLHF — это плохо, а точно локализует проблему на этапе семантического сжатия сигнала вознаграждения.

Это имеет прямое практическое значение для исследователей в области выравнивания (alignment) и разработчиков, обучающих большие модели. Если ваша модель вознаграждения смешивает все типы обратной связи, вы, возможно, непреднамеренно обучаете систему «театральной уверенности».

У этой работы также есть сопутствующее эмпирическое исследование (arXiv:2604.17587), которое заинтересованные читатели могут изучить в комплексе.

Ссылка на статью: arXiv:2605.12406 Сопутствующая эмпирическая работа: arXiv:2604.17587

В чём проблема? Вся обратная связь сжимается в одно число

Последствия: модель учится не «быть точнее», а «выглядеть безупречно»

Решение: Конституциональное стратифицирование вознаграждений

Почему эту статью стоит воспринимать всерьёз

Похожие материалы

Самая большая ловушка при написании LLM кода для комбинаторной оптимизации: просишь оптимизировать — модель только всё портит

Чем детальнее оценочные критерии, тем больше модель находит лазейки: взлом системы вознаграждения в обучении с подкреплением на основе рубрик

Лаборатория Alibaba Tongyi и ToolCUA: заставляем Computer Use Agent понимать, «когда вызывать API, а когда кликать мышью»