C
ChaoBro

ZEDA от Цинхуа: готовые MoE-модели пропускают половину экспертов благодаря самодистилляции, ускоряя инференс в 1,2 раза

Архитектура MoE (Mixture of Experts) стала стандартом для больших языковых моделей. Однако у MoE есть одна проблема: после обучения модель «застывает» — количество экспертов фиксировано, и число экспертов, активируемых для каждого токена, также задано заранее.

Это означает, что даже если пользователь задаёт простой вопрос вроде «сколько будет 1+1», модель всё равно активирует то же количество экспертов и тратит те же вычислительные ресурсы.

Новая работа команды из Цинхуа — ZEDA (Zero-Expert Self-Distillation Adaptation) — призвана решить эту проблему неэффективного использования ресурсов.

От статики к динамике: учим модель «лениться»

Основная идея элегантна: в уже обученную MoE-модель внедряются «эксперты с нулевым выводом» (zero-output experts) — они ничего не вычисляют и всегда возвращают ноль. Затем с помощью самодистилляции модель учится распределять задачи: простые обрабатываются нулевыми экспертами, а сложные передаются настоящим экспертам.

Звучит просто, но на практике возникает три сложности:

1. Стабильность при изменении архитектуры

Если внезапно добавить в обученную модель множество нулевых экспертов, она «растеряется». Исходные веса маршрутизатора обучались на фиксированном количестве экспертов, и после изменения архитектуры процесс маршрутизации полностью нарушится.

Решение ZEDA — двухэтапная самодистилляция:

  • Первый этап: исходная MoE-модель используется как замороженный учитель (teacher), чтобы новая модель научилась сохранять исходное поведение
  • Второй этап: внедряется функция потерь для балансировки на уровне групп (group-level balancing loss), обеспечивающая равномерную нагрузку между экспертами и предотвращающая ситуацию, когда все токены направляются к нулевым экспертам

2. Проектирование нулевых экспертов

Нулевые эксперты — это не просто константный вывод. ZEDA внедряет параметризованные нулевые эксперты: они инициализируются нулевым выводом, но в процессе обучения могут постепенно «просыпаться». Это позволяет модели динамически определять необходимый объём вычислений в зависимости от сложности задачи.

3. Адаптивность стратегии маршрутизации

Маршрутизатор динамической MoE должен научиться выбирать разное количество экспертов для разных входных данных. Благодаря сигналам вознаграждения в процессе самодистилляции ZEDA позволяет маршрутизатору автоматически освоить эту способность без необходимости в дополнительных размеченных данных.

Результаты тестов: вдвое меньше вычислений, почти без потери точности

Тесты на моделях Qwen3-30B-A3B и GLM-4.7-Flash показали:

  • Устранение более 50% FLOPs экспертов — для простых задач большинство токенов активирует минимальное количество экспертов
  • Минимальная потеря точности — на 11 бенчмарках (математика, программирование, следование инструкциям и др.) снижение производительности остаётся в допустимых пределах
  • Ускорение сквозного инференса примерно в 1,2 раза — учитывая, что это лишь постобученная адаптация, такой прирост скорости весьма значителен
  • Превосходит лучшие динамические MoE-базлайны на 6,1 и 4,0 балла — соответственно для каждой из двух моделей

Почему это важнее, чем кажется

Оптимизация затрат на инференс MoE-моделей остаётся одной из ключевых проблем коммерциализации больших языковых моделей. Ведущие игроки, такие как Anthropic и OpenAI, в своих MoE-моделях стремятся к принципу «делать больше с меньшим количеством активных параметров».

Уникальная ценность ZEDA заключается в том, что она не требует обучения с нуля. Существующие открытые MoE-модели, такие как Qwen3 и GLM-4.7, теоретически можно сразу адаптировать с помощью ZEDA для «похудения», мгновенно получив ускорение инференса.

Это особенно привлекательно для провайдеров инференса малого и среднего масштаба: не нужно вкладывать миллионы в обучение, достаточно нескольких дней самодистилляции для получения значительной оптимизации затрат.

Трезвый взгляд

Конечно, есть и ограничения, которые стоит учитывать:

  • Устранение 50% FLOPs — это «более», а не «ровно» — фактическая доля зависит от распределения входных данных: при преобладании простых задач эффект выше, при сложных — ниже
  • Ускорение сквозного инференса в 1,2 раза в абсолютных значениях не выглядит грандиозным, но для постобученного решения это уже хороший результат
  • На GitHub пока 5 звёзд, код, вероятно, ещё находится в процессе оформления

Основные источники: