Qwen Open-Source Qwen-Scope: 81K SAE Features Make LLM Thinking Transparent

Qwen Open-Source Qwen-Scope: 81K SAE Features Make LLM Thinking Transparent

Основной вывод

Команда Qwen 30 апреля выпустила Qwen-Scope 🔭 — набор инструментов с открытым исходным кодом на основе разреженных автоэнкодеров (SAE) для семейства моделей Qwen. Извлечено 81 000 признаков по всем 64 слоям Qwen3.5-27B, что впервые позволяет сообществу напрямую управлять внутренними представлениями модели.

Что делает Qwen-Scope

ПараметрДанные
Целевая модельQwen3.5-27B
Признаков SAE81 000
Покрытие слоёвВсе 64 слоя
Основные возможностиУправление выводом + Классификация данных + Механистический анализ
РаспространениеОткрытый код, загрузка с Hugging Face

Три практических сценария:

  1. Управление выводом: Направление вывода путём прямого изменения внутренних векторов признаков.
  2. Классификация данных: Использование признаков SAE для классификации данных.
  3. Механистический анализ: Отслеживание представлений конкретных концепций внутри модели.

Почему это важно

Интерпретируемость моделей остаётся ключевым узким местом в безопасности ИИ. Anthropic продвигает исследования SAE, но в основном в формате научных статей. Qwen выпустила полный инструментарий с 81k признаков — масштаб превышает любой предыдущий проект с открытым кодом.

Рекомендации

  • Исследователи: Загрузите веса Qwen-Scope с Hugging Face.
  • Инженеры безопасности: Используйте признаки SAE для анализа «границ безопасности» модели.
  • Разработчики: Следите за возможностями управления выводом.