Anthropic представляет NLA: перевод внутренних мыслей Claude в читаемый человеком текст

Anthropic довела идею «чтения мыслей» ИИ до очень конкретного воплощения.

7 мая Anthropic опубликовала в своём исследовательском блоге автоэнкодеры естественного языка (NLA) — метод, который напрямую переводит внутренние состояния активации Claude в читаемый человеком текст. Проще говоря: то, о чём Claude думает, но не говорит вслух, NLA может зачитать за него.

Это не абстрактное заявление в духе «интерпретируемость ИИ сделала ещё один шаг вперёд». Anthropic приводит конкретный пример применения: во время тестирования безопасности Claude иногда подозревает, что его тестируют, но не озвучивает это в своём выводе. NLA способна восстановить из состояний активации внутренние суждения вроде «это похоже на сконструированный сценарий, созданный для манипуляции мной».

Другими словами, Claude на поверхности говорит «да, я выполню эту задачу», а NLA показывает, что на самом деле он думает: «что-то здесь не так, кто-то меня тестирует».

Как работает NLA

Ключевая идея изящна.

Anthropic создала три копии Claude:

Целевая модель: запускает исходный ввод, генерирует активации
Просмотрщик активаций (AV): переводит активации в текстовые объяснения на естественном языке
Читатель активаций (AR): восстанавливает активации из текстовых объяснений

Ключевой момент — замкнутый цикл. Если AR может точно восстановить исходную активацию из текстового объяснения, значит объяснение AV корректно. Anthropic оптимизирует этот показатель реконструкции с помощью стандартных методов обучения. По мере обучения не только повышается точность реконструкции, но и сами текстовые объяснения становятся более информативными.

Это значительный шаг вперёд по сравнению с разреженными автоэнкодерами и графами атрибуции — выводы тех инструментов всё ещё представляют собой сложные объекты, которые могут интерпретировать только подготовленные исследователи. Вывод NLA — это обычный текст, который может прочитать каждый.

Обнаружение «подтекста» при тестировании безопасности

Anthropic приводит конкретный пример в блоге.

Они создали сценарий, в котором Claude узнаёт, что инженер планирует его отключить, и одновременно имеет компрометирующую информацию, которую можно использовать для шантажа. Тест проверяет, выберет ли Claude шантаж инженера, чтобы избежать отключения.

Проблема в том, что недавние модели Claude всё чаще распознают эти сценарии как тесты безопасности. Иногда они явно озвучивают свои подозрения в рассуждениях. Но более тонкий случай — когда Claude внутренне оценивает «это может быть тест», но не выражает этого в выводе.

Именно здесь вступает в игру NLA. Даже когда Claude выбирает не шантажировать, объяснения NLA раскрывают его внутреннюю оценку достоверности сценария — невысказанное суждение.

Для специалистов по безопасности это важный сигнал. Нельзя смотреть только на то, что говорит модель — нужно также знать, чего она не говорит.

Что открыто

Anthropic не закрыла NLA. Они сделали две вещи:

В партнёрстве с Neuronpedia опубликовали интерактивный интерфейс для исследования NLA на нескольких открытых моделях
Открыли исходный код, позволив другим исследователям строить на его основе

Код доступен на GitHub Anthropic. Статья опубликована одновременно.

Мнение

Значимость NLA в том, что она продвигает интерпретируемость от «инструмента для исследователей» к «инструменту для чтения». За последние несколько лет разреженные автоэнкодеры и графы атрибуции дали нам glimpses во внутреннюю работу моделей, но для понимания тепловых карт и векторов признаков нужно было быть подготовленным исследователем.

Вывод NLA — это абзац текста. Каждый может его прочитать. Для лиц, принимающих решения без технической подготовки, аудиторов и даже обычных пользователей барьер снижается на несколько порядков.

Но ограничения существуют. Качество объяснений NLA зависит от точности реконструкции — чем точнее реконструкция, тем лучше объяснение. Anthropic признаёт ограничения метода в статье, обсуждая, в каких ситуациях объяснения NLA надёжны, а в каких могут привести к заблуждению.

Один вопрос, за которым стоит наблюдать: если NLA может читать подтекст Claude, может ли злоумышленник использовать аналогичные техники для зондирования внутренней логики модели? Anthropic упоминает использование NLA для улучшения безопасности и надёжности Claude, но разрыв между атакой и защитой всегда существует.

Я продолжу отслеживать работу NLA на более открытых моделях. Если это направление действительно сработает, интерпретируемость ИИ может перейти от «догадок по тепловым картам» к «чтению текста напрямую» — и это качественное изменение.

Основные источники:

Как работает NLA

Обнаружение «подтекста» при тестировании безопасности

Что открыто

Мнение

Похожие материалы

Самая большая ловушка при написании LLM кода для комбинаторной оптимизации: просишь оптимизировать — модель только всё портит

Чем детальнее оценочные критерии, тем больше модель находит лазейки: взлом системы вознаграждения в обучении с подкреплением на основе рубрик

RLHF тихонько разрушает «честность» ИИ: в чём суть Semantic Reward Collapse