Главный вывод
Команда Qwen 30 апреля открыла исходный код Qwen-Scope — инструментария интерпретируемости на основе разреженных автоэнкодеров (SAE). Он разбивает «кашу из чисел» внутри моделей Qwen3 и Qwen3.5 на независимые семантические переключатели, позволяя исследователям впервые «увидеть», на каком языке говорит модель, какая сущность упомянута и каким тоном она выражается.
Это имеет существенное значение для аудита безопасности моделей, отслеживания галлюцинаций и контролируемой генерации.
Технический разбор: как SAE делает модели «рентгеновскими»
Проблема
Внутренние механизмы больших моделей долгое время оставались чёрным ящиком. Модели Qwen3-Next, Qwen3.5 и Qwen3.6 используют слои линейного внимания GDN, которые генерируют огромное количество промежуточных активаций — чисел, совершенно нечитаемых для человека.
Подход Qwen-Scope
| Компонент | Функция | Аналогия |
|---|---|---|
| Разреженный автоэнкодер (SAE) | Сжимает высокоразмерные активации в разреженные низкоразмерные представления | Распутывание клубка ниток |
| Семантические переключатели | Каждое направление соответствует интерпретируемому семантическому признаку | Выключатель — вкл/выкл |
| Визуализация | Сопоставляет состояния переключателей с читаемыми метками | Анатомические пометки на рентгене |
Известные возможности (7 измерений в первом выпуске)
- Язык вывода — какой язык использует модель
- Распознавание сущностей — упомянутые конкретные лица, места, организации
- Стиль речи — формальный/неформальный/технический/разговорный
- Тип задачи — программирование/письмо/перевод/рассуждение
- Эмоциональная окраска — позитивная/нейтральная/негативная
- Область знаний — наука/история/финансы/право
- Безопасность — затрагиваются ли чувствительные темы
Почему это важно
1. «Инструмент аудита» для безопасности моделей
В условиях ужесточения регулирования (ЕС AI Act, китайские правила управления глубоким синтезом) разработчикам моделей нужно отвечать на вопрос: «Почему ваша модель выдала именно такой результат?» Qwen-Scope обеспечивает аудируемый путь — не угадывая, а «видя», какие переключатели были активированы.
2. Отслеживание галлюцинаций
Когда модель галлюцинирует, разработчики могут использовать Qwen-Scope для отслеживания: какое семантическое направление было ошибочно активировано?
3. Новая парадигма контролируемой генерации
Вместо промпт-инжиниринга для «направления» модели можно напрямую вмешиваться через признаки SAE.
Открытый исходный код Qwen-Scope знаменует существенный шаг китайских моделей в области интерпретируемости.