C
ChaoBro

Команда Qwen выпустила Qwen-Scope: «Рентген» для интерпретации LLM

Команда Qwen выпустила Qwen-Scope: «Рентген» для интерпретации LLM

Главный вывод

Команда Qwen 30 апреля открыла исходный код Qwen-Scope — инструментария интерпретируемости на основе разреженных автоэнкодеров (SAE). Он разбивает «кашу из чисел» внутри моделей Qwen3 и Qwen3.5 на независимые семантические переключатели, позволяя исследователям впервые «увидеть», на каком языке говорит модель, какая сущность упомянута и каким тоном она выражается.

Это имеет существенное значение для аудита безопасности моделей, отслеживания галлюцинаций и контролируемой генерации.

Технический разбор: как SAE делает модели «рентгеновскими»

Проблема

Внутренние механизмы больших моделей долгое время оставались чёрным ящиком. Модели Qwen3-Next, Qwen3.5 и Qwen3.6 используют слои линейного внимания GDN, которые генерируют огромное количество промежуточных активаций — чисел, совершенно нечитаемых для человека.

Подход Qwen-Scope

КомпонентФункцияАналогия
Разреженный автоэнкодер (SAE)Сжимает высокоразмерные активации в разреженные низкоразмерные представленияРаспутывание клубка ниток
Семантические переключателиКаждое направление соответствует интерпретируемому семантическому признакуВыключатель — вкл/выкл
ВизуализацияСопоставляет состояния переключателей с читаемыми меткамиАнатомические пометки на рентгене

Известные возможности (7 измерений в первом выпуске)

  1. Язык вывода — какой язык использует модель
  2. Распознавание сущностей — упомянутые конкретные лица, места, организации
  3. Стиль речи — формальный/неформальный/технический/разговорный
  4. Тип задачи — программирование/письмо/перевод/рассуждение
  5. Эмоциональная окраска — позитивная/нейтральная/негативная
  6. Область знаний — наука/история/финансы/право
  7. Безопасность — затрагиваются ли чувствительные темы

Почему это важно

1. «Инструмент аудита» для безопасности моделей

В условиях ужесточения регулирования (ЕС AI Act, китайские правила управления глубоким синтезом) разработчикам моделей нужно отвечать на вопрос: «Почему ваша модель выдала именно такой результат?» Qwen-Scope обеспечивает аудируемый путь — не угадывая, а «видя», какие переключатели были активированы.

2. Отслеживание галлюцинаций

Когда модель галлюцинирует, разработчики могут использовать Qwen-Scope для отслеживания: какое семантическое направление было ошибочно активировано?

3. Новая парадигма контролируемой генерации

Вместо промпт-инжиниринга для «направления» модели можно напрямую вмешиваться через признаки SAE.


Открытый исходный код Qwen-Scope знаменует существенный шаг китайских моделей в области интерпретируемости.