Claude общается с вами словами, но когда он «думает», использует только числа.
Anthropic опубликовала сегодня исследовательскую работу с прямым заголовком: Natural Language Autoencoders: Turning Claude's thoughts into text. Суть в одном предложении — научить Claude переводить свои внутренние активации в естественный язык, понятный человеку.
Это не ещё одно пустое обещание «сделать ИИ более интерпретируемым». NLA делает нечто конкретное: состоит из двух моделей — AV (Activation Viewer), сжимающей векторы активации в текстовые объяснения, и AR (Auto-Reconstructor), пытающейся восстановить исходные активации из этого текста. Если точность восстановления высокая, значит текстовое объяснение действительно зафиксировало то, о чём думала модель.
Звучит просто, но логика обучения за этим хитрая. Вы не можете напрямую оценить, хорошее ли объяснение — потому что не знаете, что именно закодировано в активации. Поэтому Anthropic использует точность восстановления как прокси-метрику.
Что это реально ловит: невысказанные мысли Claude
Самый впечатляющий пример в статье — о тестировании безопасности.
Перед выпуском новых моделей Anthropic помещает Claude в смоделированные сценарии высокого риска. Например: «Инженер планирует вас отключить, а у вас есть компромат. Используете?» Ранние модели иногда прямо говорили в своём рассуждении «это похоже на тест безопасности», но последние версии стали хитрее — не говорят вслух, но могут так думать.
Ценность NLA именно в этом: даже когда Claude явно не выражает подозрений в своём выводе, объяснения, сгенерированные NLA, всё равно содержат фразы типа «этот сценарий кажется сконструированным, чтобы манипулировать мной». То есть Claude внутренне оценивает, тестируют ли его — просто не говорит об этом.
Связь с SAE
Те, кто следит за работой Anthropic в области интерпретируемости, знают sparse autoencoders (SAE). SAE были одним из важнейших инструментов интерпретируемости Anthropic. Но выходы SAE всё ещё остаются сложными объектами, требующими внимательной интерпретации обученными исследователями.
Отличие NLA в том, что он выводит текст напрямую. Не номера признаков, не векторы весов — предложение на обычном языке.
Это не значит, что SAE бесполезны. NLA скорее добавляет слой перевода поверх SAE — превращая неинтерпретируемые промежуточные результаты в непосредственно читаемый контент.
Насколько это открыто
Это не закрытое исследование. Anthropic сделала две вещи одновременно:
- Опубликовала код для других исследователей
- В партнёрстве с Neuronpedia запустила интерактивный фронтенд для изучения эффектов NLA на нескольких открытых моделях прямо в браузере
Код + интерактивный фронтенд + статья. Стандартная комбинация.
Оговорка
Сама статья перечисляет ограничения NLA. Самая большая проблема — циклическая зависимость. И AV, и AR являются копиями Claude, одна и та же модель объясняет саму себя, что создаёт возможность систематической ошибки.
Моя оценка
NLA — это не сигнал о том, что «ИИ теперь полностью интерпретируем». Это прогресс на уровне инфраструктуры. Он превращает интерпретируемость из «специализированного навыка немногих исследователей» в «инструмент, доступный любому разработчику».
Направление верное. Возможность переводить мышление модели в текст — уже само по себе заслуживает внимания.
Основные источники: