Команда Qwen выпустила Qwen-Scope: «Рентген» для интерпретации LLM

Главный вывод

Команда Qwen 30 апреля открыла исходный код Qwen-Scope — инструментария интерпретируемости на основе разреженных автоэнкодеров (SAE). Он разбивает «кашу из чисел» внутри моделей Qwen3 и Qwen3.5 на независимые семантические переключатели, позволяя исследователям впервые «увидеть», на каком языке говорит модель, какая сущность упомянута и каким тоном она выражается.

Это имеет существенное значение для аудита безопасности моделей, отслеживания галлюцинаций и контролируемой генерации.

Технический разбор: как SAE делает модели «рентгеновскими»

Проблема

Внутренние механизмы больших моделей долгое время оставались чёрным ящиком. Модели Qwen3-Next, Qwen3.5 и Qwen3.6 используют слои линейного внимания GDN, которые генерируют огромное количество промежуточных активаций — чисел, совершенно нечитаемых для человека.

Подход Qwen-Scope

Компонент	Функция	Аналогия
Разреженный автоэнкодер (SAE)	Сжимает высокоразмерные активации в разреженные низкоразмерные представления	Распутывание клубка ниток
Семантические переключатели	Каждое направление соответствует интерпретируемому семантическому признаку	Выключатель — вкл/выкл
Визуализация	Сопоставляет состояния переключателей с читаемыми метками	Анатомические пометки на рентгене

Известные возможности (7 измерений в первом выпуске)

Язык вывода — какой язык использует модель
Распознавание сущностей — упомянутые конкретные лица, места, организации
Стиль речи — формальный/неформальный/технический/разговорный
Тип задачи — программирование/письмо/перевод/рассуждение
Эмоциональная окраска — позитивная/нейтральная/негативная
Область знаний — наука/история/финансы/право
Безопасность — затрагиваются ли чувствительные темы

Почему это важно

1. «Инструмент аудита» для безопасности моделей

В условиях ужесточения регулирования (ЕС AI Act, китайские правила управления глубоким синтезом) разработчикам моделей нужно отвечать на вопрос: «Почему ваша модель выдала именно такой результат?» Qwen-Scope обеспечивает аудируемый путь — не угадывая, а «видя», какие переключатели были активированы.

2. Отслеживание галлюцинаций

Когда модель галлюцинирует, разработчики могут использовать Qwen-Scope для отслеживания: какое семантическое направление было ошибочно активировано?

3. Новая парадигма контролируемой генерации

Вместо промпт-инжиниринга для «направления» модели можно напрямую вмешиваться через признаки SAE.

Открытый исходный код Qwen-Scope знаменует существенный шаг китайских моделей в области интерпретируемости.

Главный вывод

Технический разбор: как SAE делает модели «рентгеновскими»

Проблема

Подход Qwen-Scope

Известные возможности (7 измерений в первом выпуске)

Почему это важно

1. «Инструмент аудита» для безопасности моделей

2. Отслеживание галлюцинаций

3. Новая парадигма контролируемой генерации

Похожие материалы

ViMax: Универсальный инструмент для генерации видео с открытым исходным кодом — один промпт заменяет Runway + ChatGPT + Midjourney + HeyGen

OpenGeoAgent: Открытый многомодальный ИИ-агент для автоматизированного геопространственного анализа, 831 звезда вызывает потрясение в GIS-сообществе

QwenPaw: Персональный ИИ-ассистент с открытым исходным кодом на базе экосистемы Qwen с поддержкой локального развёртывания и мультиплатформенной интеграции