字节跳动 Lance：从 scratch 训练的统一多模态模型，理解、生成、编辑三合一

多模态统一模型（Unimodal → Unified）是 2026 年的热门赛道。但大部分路线都走的是"堆参数"或"以图文为主导再扩展"的老路。字节跳动研究团队今天发布的 Lance 走了另一条路：不靠参数规模，靠多任务协同。

论文 34 页、14 张图、10 张表，代码已开源，主页在 lance-project.github.io。

两个核心设计原则

Lance 的设计哲学建立在两个支柱上：

Lance 从零开始训练，在共享的交错多模态序列上使用双流混合专家（Mixture-of-Experts）架构。理解能力和生成能力共享底层表示，但各自有独立的专家路径。这意味着模型可以同时学习"看懂"和"画出"，而不是先学一个再适配另一个。

理解任务和生成任务的需求差异巨大——理解需要细粒度的语义分析，生成需要高质量的像素/帧输出。Lance 的做法是在 MoE 框架内解耦这两条路径，让它们各自专注于擅长的领域，同时通过共享的上下文学习实现跨任务的语义对齐。

模态感知旋转位置编码（Modality-aware RoPE）：为了解决不同模态的视觉 token 之间的干扰问题，Lance 引入了模态感知的位置编码方案，显著提升了跨任务的对齐质量。

分阶段多任务训练：采用分阶段的训练范式，每个阶段有面向能力的目标和自适应数据调度策略，同时强化语义理解和视觉生成能力。

论文声称 Lance 在图像和视频生成任务上大幅超越现有的开源统一模型，同时保持了强大的多模态理解能力。具体数据需要等社区复现，但考虑到字节跳动在视频生成领域（即梦等）的积累，这个成绩并不意外。

统一多模态模型的核心挑战是能力互不干扰——很多模型在提升生成能力后会损失理解能力，或者反过来。Lance 的双流 MoE 架构提供了一种结构化的解决方案，而不是简单地把所有任务塞进同一个模型。

如果社区复现确认了论文的性能声明，Lance 可能会成为开源统一多模态模型的新基准。

主要来源：