ByteDance Lance: отказ от наращивания параметров в пользу «синергии многозадачности» для объединения мультимодального понимания, генерации и редактирования

На рынке мультимодальных моделей сейчас параллельно развиваются два совершенно разных направления.

С одной стороны — подход «грубой силы»: увеличение размера модели, объема данных и времени обучения в надежде, что масштаб параметров естественным образом приведет к появлению кросс-модальных способностей. С другой стороны — недавно представленная ByteDance модель Lance, которая сознательно отказывается от стратегии «масштабирования емкости» (capacity scaling), пытаясь решить задачу унифицированной мультимодальности за счет архитектурных инноваций и новых парадигм обучения.

Унификация ≠ сборка конструктора

Для начала проясним, что подразумевается под «унифицированной мультимодальностью»: одна модель, способная одновременно понимать (анализировать изображения и видео), генерировать (создавать изображения и видео по текстовому описанию) и редактировать (вносить изменения в существующие изображения и видео).

Ранее использовались два подхода: либо обучение трех независимых моделей, либо использование одной сверхбольшой модели, где разные способности активируются через различные форматы промптов. Первый вариант дорог, второй подвержен интерференции способностей — задачи понимания и генерации по своей природе предъявляют конфликтующие требования к параметрам модели.

Подход Lance весьма изящен:

Двухпотоковая архитектура MoE (Mixture of Experts). В рамках одной модели используется общее нижнеуровневое мультимодальное последовательное представление, но на верхнем уровне оно разделяется на два независимых пути экспертов: один специализируется на задачах понимания, другой — на задачах генерации/редактирования. Оба пути получают выгоду от «обучения в контексте» (например, понимания соответствия между текстом и изображением), но их параметры не мешают друг другу.

Такая конструкция решает фундаментальное противоречие: для понимания требуется точный дискриминативный анализ, а для генерации — творческая выразительность. Попытка впихнуть оба процесса в один набор параметров обычно приводит к посредственным результатам в обоих направлениях.

Секреты обучения с синергией многозадачности

Одной архитектуры недостаточно: именно метод обучения является главным дифференцирующим фактором Lance.

В статье предлагается поэтапная парадигма многозадачного обучения, основанная на принципе «ориентации на способности»:

Начальный этап: модель сначала обучается базовому кросс-модальному выравниванию — сопоставлению текста и изображений, взаимосвязям между кадрами видео.
Средний этап: вводятся задачи генерации и редактирования, но с использованием адаптивного планирования данных, чтобы способности понимания и генерации развивались синхронно.
Поздний этап: проводится сфокусированное обучение (focused training) для слабых мест модели.

Эта стратегия обучения позволяет избежать распространенной в традиционных унифицированных моделях проблемы «катастрофического забывания» — когда, научившись генерировать, модель забывает, как понимать, или наоборот.

Кроме того, в работе представлено модально-зависимое вращающееся позиционное кодирование (modality-aware RoPE) — весьма практичная инновация. Токены разных модальностей (текстовые токены, патчи изображений, кадры видео) имеют разные требования к позиционному кодированию. Использование единого RoPE приводит к кросс-модальной интерференции. Позиционное кодирование в Lance автоматически распознает тип модальности токена и применяет соответствующую стратегию кодирования.

Показатели производительности

В задачах генерации изображений и видео Lance «существенно превосходит существующие открытые унифицированные модели» (substantially outperforms existing open-source unified models) — цитата из статьи. При этом модель сохраняет сильные способности к мультимодальному пониманию.

Конкретнее: будучи «легковесной» моделью, Lance превосходит конкурентов с большим количеством параметров в качестве генерации видео. Это стало возможным благодаря двухпотоковой архитектуре, исключающей бесполезный расход параметров, и синергетическому эффекту от многозадачного обучения.

Мультимодальные амбиции ByteDance

Учитывая масштабы бизнеса ByteDance в сфере коротких видео и генерации контента, выпуск Lance — это не просто академический жест. Унифицированная легковесная мультимодальная модель может напрямую интегрироваться в цепочки инструментов для создания контента в таких продуктах, как Douyin (TikTok) и CapCut (Jianying): понимание намерений пользователей, автоматическая генерация материалов, интеллектуальное редактирование видео — всё в одном пакете.

Открытие исходного кода под лицензией Apache-2.0 (GitHub: bytedance/Lance, 134 Stars) также свидетельствует о желании привлечь сообщество для быстрой итерации и проверки.

На что стоит обратить внимание

Насколько легковесна модель? В статье подчеркивается «lightweight», но точное количество параметров не указано; потребуется независимое тестирование сообществом.
Работа с длинными видео: Lance поддерживает генерацию и редактирование видео, но в статье нет подробных бенчмарков по максимальной продолжительности (в секундах) и разрешению.
Развитие open-source: пока 134 Stars, проект на ранней стадии; необходимо оценить полноту кода и удобство использования.

Основные источники:

Lance: Unified Multimodal Modeling by Multi-Task Synergy
https://lance-project.github.io/
https://github.com/bytedance/Lance

Унификация ≠ сборка конструктора

Секреты обучения с синергией многозадачности

Показатели производительности

Мультимодальные амбиции ByteDance

На что стоит обратить внимание

Похожие материалы

CiteVQA: бенчмарк для интеллектуальной обработки документов от OpenDataLab, делающий каждую ссылку ИИ проверяемой

CLI-Anything набирает 1000 звёзд за неделю: как сделать всё ПО «Agent-Native» — новый подход команды из Гонконгского университета

MMSkills: Шанхайский университет Цзяотун разделил возможности визуального агента на «набор навыков» — новая парадигма мультимодальных ИИ-агентов