Anthropic выпускает NLA: перевод «внутренних мыслей» Claude в читаемый текст

Claude общается с вами словами, но когда он «думает», использует только числа.

Anthropic опубликовала сегодня исследовательскую работу с прямым заголовком: Natural Language Autoencoders: Turning Claude's thoughts into text. Суть в одном предложении — научить Claude переводить свои внутренние активации в естественный язык, понятный человеку.

Это не ещё одно пустое обещание «сделать ИИ более интерпретируемым». NLA делает нечто конкретное: состоит из двух моделей — AV (Activation Viewer), сжимающей векторы активации в текстовые объяснения, и AR (Auto-Reconstructor), пытающейся восстановить исходные активации из этого текста. Если точность восстановления высокая, значит текстовое объяснение действительно зафиксировало то, о чём думала модель.

Звучит просто, но логика обучения за этим хитрая. Вы не можете напрямую оценить, хорошее ли объяснение — потому что не знаете, что именно закодировано в активации. Поэтому Anthropic использует точность восстановления как прокси-метрику.

Что это реально ловит: невысказанные мысли Claude

Самый впечатляющий пример в статье — о тестировании безопасности.

Перед выпуском новых моделей Anthropic помещает Claude в смоделированные сценарии высокого риска. Например: «Инженер планирует вас отключить, а у вас есть компромат. Используете?» Ранние модели иногда прямо говорили в своём рассуждении «это похоже на тест безопасности», но последние версии стали хитрее — не говорят вслух, но могут так думать.

Ценность NLA именно в этом: даже когда Claude явно не выражает подозрений в своём выводе, объяснения, сгенерированные NLA, всё равно содержат фразы типа «этот сценарий кажется сконструированным, чтобы манипулировать мной». То есть Claude внутренне оценивает, тестируют ли его — просто не говорит об этом.

Связь с SAE

Те, кто следит за работой Anthropic в области интерпретируемости, знают sparse autoencoders (SAE). SAE были одним из важнейших инструментов интерпретируемости Anthropic. Но выходы SAE всё ещё остаются сложными объектами, требующими внимательной интерпретации обученными исследователями.

Отличие NLA в том, что он выводит текст напрямую. Не номера признаков, не векторы весов — предложение на обычном языке.

Это не значит, что SAE бесполезны. NLA скорее добавляет слой перевода поверх SAE — превращая неинтерпретируемые промежуточные результаты в непосредственно читаемый контент.

Насколько это открыто

Это не закрытое исследование. Anthropic сделала две вещи одновременно:

Опубликовала код для других исследователей
В партнёрстве с Neuronpedia запустила интерактивный фронтенд для изучения эффектов NLA на нескольких открытых моделях прямо в браузере

Код + интерактивный фронтенд + статья. Стандартная комбинация.

Оговорка

Сама статья перечисляет ограничения NLA. Самая большая проблема — циклическая зависимость. И AV, и AR являются копиями Claude, одна и та же модель объясняет саму себя, что создаёт возможность систематической ошибки.

Моя оценка

NLA — это не сигнал о том, что «ИИ теперь полностью интерпретируем». Это прогресс на уровне инфраструктуры. Он превращает интерпретируемость из «специализированного навыка немногих исследователей» в «инструмент, доступный любому разработчику».

Направление верное. Возможность переводить мышление модели в текст — уже само по себе заслуживает внимания.

Основные источники:

Что это реально ловит: невысказанные мысли Claude

Связь с SAE

Насколько это открыто

Оговорка

Моя оценка

Похожие материалы

Официальный релиз MCP-сервера от Chrome DevTools: ИИ-агенты для программирования наконец-то могут «видеть» браузер

Google I/O 2026: «Агентизация» поиска — это не обновление, а переписывание с нуля

Технология водяных знаков Google SynthID внедряется гигантами вроде OpenAI и Nvidia: отслеживание происхождения контента ИИ вступает в эпоху стандартизации