C
ChaoBro

字节跳动 Lance:从 scratch 训练的统一多模态模型,理解、生成、编辑三合一

字节跳动 Lance:从 scratch 训练的统一多模态模型,理解、生成、编辑三合一

多模态统一模型(Unimodal → Unified)是 2026 年的热门赛道。但大部分路线都走的是"堆参数"或"以图文为主导再扩展"的老路。字节跳动研究团队今天发布的 Lance 走了另一条路:不靠参数规模,靠多任务协同

论文 34 页、14 张图、10 张表,代码已开源,主页在 lance-project.github.io

两个核心设计原则

Lance 的设计哲学建立在两个支柱上:

1. 统一上下文建模(Unified Context Modeling)

Lance 从零开始训练,在共享的交错多模态序列上使用双流混合专家(Mixture-of-Experts)架构。理解能力和生成能力共享底层表示,但各自有独立的专家路径。这意味着模型可以同时学习"看懂"和"画出",而不是先学一个再适配另一个。

2. 解耦能力路径(Decoupled Capability Pathways)

理解任务和生成任务的需求差异巨大——理解需要细粒度的语义分析,生成需要高质量的像素/帧输出。Lance 的做法是在 MoE 框架内解耦这两条路径,让它们各自专注于擅长的领域,同时通过共享的上下文学习实现跨任务的语义对齐。

技术细节

模态感知旋转位置编码(Modality-aware RoPE):为了解决不同模态的视觉 token 之间的干扰问题,Lance 引入了模态感知的位置编码方案,显著提升了跨任务的对齐质量。

分阶段多任务训练:采用分阶段的训练范式,每个阶段有面向能力的目标和自适应数据调度策略,同时强化语义理解和视觉生成能力。

性能表现

论文声称 Lance 在图像和视频生成任务上大幅超越现有的开源统一模型,同时保持了强大的多模态理解能力。具体数据需要等社区复现,但考虑到字节跳动在视频生成领域(即梦等)的积累,这个成绩并不意外。

为什么值得关注

统一多模态模型的核心挑战是能力互不干扰——很多模型在提升生成能力后会损失理解能力,或者反过来。Lance 的双流 MoE 架构提供了一种结构化的解决方案,而不是简单地把所有任务塞进同一个模型。

如果社区复现确认了论文的性能声明,Lance 可能会成为开源统一多模态模型的新基准。

主要来源: