C
ChaoBro

ByteDance Lance:不靠堆参数,用"多任务协同"统一多模态理解、生成和编辑

多模态模型这条赛道,现在有两个截然不同的方向在并行推进。

一边是"大力出奇迹":把模型做大、数据做多、训练做久,指望参数规模能自然涌现出跨模态能力。另一边则像 ByteDance 新发布的 Lance——明确拒绝"capacity scaling"路线,试图用架构创新和训练范式来解决统一多模态的问题。

统一 ≠ 拼凑

先说清楚"统一多模态"指的是什么:一个模型,同时能理解(看懂图像视频)、生成(从文本生成图像视频)、编辑(对已有图像视频进行修改)。

此前的做法要么是训练三个独立模型,要么是在一个超大模型上通过不同的 prompt 格式来触发不同能力。前者成本高,后者容易能力干扰——理解任务和生成任务对模型的参数需求本质上是冲突的。

Lance 的做法很巧妙:

双流 MoE(Mixture of Experts)架构。同一个模型共享底层的多模态序列表示,但在上层分成两条独立的专家路径——一条专门处理理解任务,一条专门处理生成/编辑任务。两条路径共享"上下文学习"的收益(比如对图文对应关系的理解),但各自的参数不会互相干扰。

这种设计解决了一个根本矛盾:理解需要判别式的精细分析,生成需要创造性的表达能力。硬塞到同一组参数里,结果往往是两头都不精。

多任务协同训练的玄机

光有架构不够,训练方法才是 Lance 的真正差异化所在。

论文提出了分阶段多任务训练范式,核心思想是"能力导向":

  1. 早期阶段:先让模型学会基本的跨模态对齐——图文匹配、视频帧间关系
  2. 中期阶段:引入生成和编辑任务,但使用自适应数据调度,确保理解和生成能力同步增长
  3. 后期阶段:针对弱项任务做 focused training

这种训练策略避免了传统统一模型中常见的"遗忘"问题——学会生成后忘了理解,或者反过来。

论文还引入了模态感知的旋转位置编码(modality-aware RoPE),这是一个很实用的创新。不同模态的 token(文本 token、图像 patch token、视频帧 token)在位置编码上有不同的需求,统一的 RoPE 会导致跨模态干扰。Lance 的位置编码能自动识别 token 的模态类型,施加不同的位置编码策略。

性能表现

Lance 在图像和视频生成任务上"substantially outperforms existing open-source unified models"——这是论文的原话。同时保持了 strong 的多模态理解能力。

具体来说,作为"轻量级"模型,Lance 在视频生成质量上超越了参数量更大的竞品,这归功于双流架构避免了参数浪费,以及多任务训练带来的能力协同效应。

字节跳动的多模态野心

考虑到 ByteDance 在短视频和内容生成领域的业务体量,Lance 的发布并非纯学术动作。一个统一的、轻量级的多模态模型,可以直接服务于抖音/剪映等产品的内容创作工具链——理解用户意图、自动生成素材、智能编辑视频,一条龙搞定。

Apache-2.0 开源(GitHub: bytedance/Lance,134 Stars)也说明他们希望社区参与进来,快速迭代和验证。

值得关注的点

  • 轻量级到底多轻? 论文强调"lightweight"但没给具体参数量,需要等社区实测
  • 长视频能力:Lance 支持视频生成和编辑,但最长能处理多少秒、什么分辨率,论文没有详细 benchmark
  • 开源进展:目前 134 Stars,还在早期,代码完整性和易用性需要观察

主要来源: