C
ChaoBro

ByteDance Lance: не наращивая параметры, а через синергию многозадачности — к единой мультимодальной модели

ByteDance Lance: не наращивая параметры, а через синергию многозадачности — к единой мультимодальной модели

Все, кто работает над едиными мультимодальными моделями, знают неудобную реальность: понимание и генерация, помещённые в одну модель, тянут друг друга вниз. Задачи понимания требуют точной идентификации, задачи генерации — креативного вывода. Во время обучения оба направления по сути конкурируют за один и тот же канал признаков.

Исследовательская команда ByteDance 18 мая опубликовала статью с другим подходом. Никакого накопления параметров, никакого наследования пути «текст-изображение доминирует». Вместо этого — разделение путей понимания и генерации: общий контекст, раздельная работа.

Проект называется Lance.

Общий мозг, раздельный вывод

Архитектура Lance имеет интуитивную аналогию: как человек, который одновременно слушает и говорит. Слух и речь используют один мозг (совместное моделирование контекста), но нейронные пути обработки звука и языкового вывода разделены (разделённые пути способностей).

Конкретнее, Lance обучается с нуля на архитектуре двухпотоковой смеси экспертов (dual-stream MoE), работающей на общих чередующихся мультимодальных последовательностях. Токены всех модальностей поступают в модель вместе для совместного обучения контексту, но задачи понимания и генерации проходят по разным экспертным путям.

Это не каскад «сначала понять, потом сгенерировать». Понимание и генерация продвигаются одновременно во время обучения, а маршрутизация MoE направляет разные подсети на разные способности.

Два ключевых решения

Первое — позиционное кодирование с учётом модальности (modality-aware RoPE). Когда токены разных модальностей — патчи изображений, кадры видео, текстовые токены — смешиваются, стандартное позиционное кодирование вызывает взаимные помехи. Lance добавляет идентификаторы позиционного кодирования для разных модальностей, позволяя модели различать «это визуальный сигнал» и «это текстовый сигнал», уменьшая помехи между разнородными токенами.

Второе — многозадачное обучение по этапам. Не бросать сразу понимание, генерацию и редактирование в одну кучу, а продвигаться поэтапно, каждый этап с чёткой целью,配合 адаптивным планированием данных. Сначала фундамент, затем усиление.

Как результаты

По данным статьи, Lance значительно превосходит существующие open-source единые модели в генерации изображений и видео, сохраняя при этом сильные способности мультимодального понимания.

69 upvotes на Hugging Face Daily Papers. Не взрывной рост, но весомая работа в этом направлении.

На что обратить внимание

На домашней странице Lance должны быть конкретные примеры генерации и сравнения. Если качество генерации видео действительно значительно превосходит существующие open-source решения, ByteDance проложила свой собственный путь в едином мультимодальном моделировании.

Но статье меньше недели. Реальная валидация сообществом ещё впереди. Стабильность архитектуры MoE на этапе обучения, эффективность маршрутизации при инференсе — всё это проявляется только при реальном развёртывании.


Основные источники:

  • Статья Lance (ByteDance Research, 18 мая 2026)
  • Hugging Face Daily Papers (69 upvotes)
  • Страница проекта: https://lance-project.github.io/