Архитектура MoE (Mixture of Experts) стала стандартом для больших языковых моделей. Однако у MoE есть одна проблема: после обучения модель «застывает» — количество экспертов фиксировано, и число экспертов, активируемых для каждого токена, также задано заранее.
Это означает, что даже если пользователь задаёт простой вопрос вроде «сколько будет 1+1», модель всё равно активирует то же количество экспертов и тратит те же вычислительные ресурсы.
Новая работа команды из Цинхуа — ZEDA (Zero-Expert Self-Distillation Adaptation) — призвана решить эту проблему неэффективного использования ресурсов.
От статики к динамике: учим модель «лениться»
Основная идея элегантна: в уже обученную MoE-модель внедряются «эксперты с нулевым выводом» (zero-output experts) — они ничего не вычисляют и всегда возвращают ноль. Затем с помощью самодистилляции модель учится распределять задачи: простые обрабатываются нулевыми экспертами, а сложные передаются настоящим экспертам.
Звучит просто, но на практике возникает три сложности:
1. Стабильность при изменении архитектуры
Если внезапно добавить в обученную модель множество нулевых экспертов, она «растеряется». Исходные веса маршрутизатора обучались на фиксированном количестве экспертов, и после изменения архитектуры процесс маршрутизации полностью нарушится.
Решение ZEDA — двухэтапная самодистилляция:
- Первый этап: исходная MoE-модель используется как замороженный учитель (teacher), чтобы новая модель научилась сохранять исходное поведение
- Второй этап: внедряется функция потерь для балансировки на уровне групп (group-level balancing loss), обеспечивающая равномерную нагрузку между экспертами и предотвращающая ситуацию, когда все токены направляются к нулевым экспертам
2. Проектирование нулевых экспертов
Нулевые эксперты — это не просто константный вывод. ZEDA внедряет параметризованные нулевые эксперты: они инициализируются нулевым выводом, но в процессе обучения могут постепенно «просыпаться». Это позволяет модели динамически определять необходимый объём вычислений в зависимости от сложности задачи.
3. Адаптивность стратегии маршрутизации
Маршрутизатор динамической MoE должен научиться выбирать разное количество экспертов для разных входных данных. Благодаря сигналам вознаграждения в процессе самодистилляции ZEDA позволяет маршрутизатору автоматически освоить эту способность без необходимости в дополнительных размеченных данных.
Результаты тестов: вдвое меньше вычислений, почти без потери точности
Тесты на моделях Qwen3-30B-A3B и GLM-4.7-Flash показали:
- Устранение более 50% FLOPs экспертов — для простых задач большинство токенов активирует минимальное количество экспертов
- Минимальная потеря точности — на 11 бенчмарках (математика, программирование, следование инструкциям и др.) снижение производительности остаётся в допустимых пределах
- Ускорение сквозного инференса примерно в 1,2 раза — учитывая, что это лишь постобученная адаптация, такой прирост скорости весьма значителен
- Превосходит лучшие динамические MoE-базлайны на 6,1 и 4,0 балла — соответственно для каждой из двух моделей
Почему это важнее, чем кажется
Оптимизация затрат на инференс MoE-моделей остаётся одной из ключевых проблем коммерциализации больших языковых моделей. Ведущие игроки, такие как Anthropic и OpenAI, в своих MoE-моделях стремятся к принципу «делать больше с меньшим количеством активных параметров».
Уникальная ценность ZEDA заключается в том, что она не требует обучения с нуля. Существующие открытые MoE-модели, такие как Qwen3 и GLM-4.7, теоретически можно сразу адаптировать с помощью ZEDA для «похудения», мгновенно получив ускорение инференса.
Это особенно привлекательно для провайдеров инференса малого и среднего масштаба: не нужно вкладывать миллионы в обучение, достаточно нескольких дней самодистилляции для получения значительной оптимизации затрат.
Трезвый взгляд
Конечно, есть и ограничения, которые стоит учитывать:
- Устранение 50% FLOPs — это «более», а не «ровно» — фактическая доля зависит от распределения входных данных: при преобладании простых задач эффект выше, при сложных — ниже
- Ускорение сквозного инференса в 1,2 раза в абсолютных значениях не выглядит грандиозным, но для постобученного решения это уже хороший результат
- На GitHub пока 5 звёзд, код, вероятно, ещё находится в процессе оформления
Основные источники:
- Post-Trained MoE Can Skip Half Experts via Self-Distillation (ZEDA)
- https://github.com/TsinghuaC3I/ZEDA