Унифицированные мультимодальные модели (от «унимодальных» к «унифицированным») стали одной из самых обсуждаемых тем в 2026 году. Однако большинство существующих подходов по-прежнему опираются на устаревшие стратегии: либо «наращивание параметров», либо расширение модели, изначально ориентированной на текст и изображения. Исследовательская команда ByteDance сегодня представила Lance, выбравшую иной путь: не за счёт масштаба параметров, а за счёт совместного обучения нескольких задач.
Статья объёмом 34 страницы содержит 14 рисунков и 10 таблиц; исходный код уже открыт, а главная страница проекта доступна по адресу lance-project.github.io.
Два ключевых принципа проектирования
Философия разработки Lance базируется на двух фундаментальных столпах:
1. Унифицированное моделирование контекста (Unified Context Modeling)
Lance обучается с нуля на общем чередующемся мультимодальном последовательном представлении с использованием двухпотоковой архитектуры смеси экспертов (Mixture-of-Experts, MoE). Способности к пониманию и к генерации используют общее нижележащее представление, но имеют отдельные пути экспертов. Это означает, что модель одновременно учится «понимать» и «рисовать», а не сначала осваивает одну функцию, а затем адаптирует её для другой.
2. Разделённые пути реализации возможностей (Decoupled Capability Pathways)
Требования к задачам понимания и генерации принципиально различны: понимание требует тонкого семантического анализа, тогда как генерация — высококачественного вывода пикселей или кадров. В Lance эти два пути явно разделены внутри рамок MoE, чтобы каждый мог сосредоточиться на своей специализации, при этом семантическое выравнивание между задачами достигается за счёт совместного обучения контекста.
Технические детали
Модальностно-ориентированное вращающееся позиционное кодирование (Modality-aware RoPE): для устранения помех между визуальными токенами разных модальностей Lance внедряет модальностно-ориентированную схему позиционного кодирования, что значительно повышает качество межзадачного выравнивания.
Многоэтапное многозадачное обучение: используется многоэтапная парадигма обучения, где каждый этап имеет целевые задачи, ориентированные на конкретные способности, и адаптивную стратегию планирования данных, одновременно укрепляя как семантическое понимание, так и визуальную генерацию.
Показатели производительности
Согласно заявленным в статье результатам, Lance значительно превосходит существующие открытые унифицированные модели в задачах генерации изображений и видео, сохраняя при этом высокий уровень мультимодального понимания. Конкретные количественные данные потребуют подтверждения независимыми воспроизведениями сообществом, однако, учитывая богатый опыт ByteDance в области генерации видео (например, проект «Meng»), такие результаты выглядят вполне ожидаемо.
Почему стоит обратить внимание
Ключевая проблема унифицированных мультимодальных моделей — взаимное влияние различных способностей: многие модели теряют точность понимания при улучшении генеративных возможностей и наоборот. Двухпотоковая архитектура MoE в Lance предлагает структурированное решение этой проблемы, а не просто «загрузку» всех задач в одну и ту же модель.
Если независимые воспроизведения подтвердят заявленные в статье показатели производительности, Lance может стать новым эталоном среди открытых унифицированных мультимодальных моделей.
Основные источники:
- arXiv:2605.18678 — научная статья о Lance
- Страница проекта: https://lance-project.github.io