多模态模型这条赛道,现在有两个截然不同的方向在并行推进。
一边是"大力出奇迹":把模型做大、数据做多、训练做久,指望参数规模能自然涌现出跨模态能力。另一边则像 ByteDance 新发布的 Lance——明确拒绝"capacity scaling"路线,试图用架构创新和训练范式来解决统一多模态的问题。
统一 ≠ 拼凑
先说清楚"统一多模态"指的是什么:一个模型,同时能理解(看懂图像视频)、生成(从文本生成图像视频)、编辑(对已有图像视频进行修改)。
此前的做法要么是训练三个独立模型,要么是在一个超大模型上通过不同的 prompt 格式来触发不同能力。前者成本高,后者容易能力干扰——理解任务和生成任务对模型的参数需求本质上是冲突的。
Lance 的做法很巧妙:
双流 MoE(Mixture of Experts)架构。同一个模型共享底层的多模态序列表示,但在上层分成两条独立的专家路径——一条专门处理理解任务,一条专门处理生成/编辑任务。两条路径共享"上下文学习"的收益(比如对图文对应关系的理解),但各自的参数不会互相干扰。
这种设计解决了一个根本矛盾:理解需要判别式的精细分析,生成需要创造性的表达能力。硬塞到同一组参数里,结果往往是两头都不精。
多任务协同训练的玄机
光有架构不够,训练方法才是 Lance 的真正差异化所在。
论文提出了分阶段多任务训练范式,核心思想是"能力导向":
- 早期阶段:先让模型学会基本的跨模态对齐——图文匹配、视频帧间关系
- 中期阶段:引入生成和编辑任务,但使用自适应数据调度,确保理解和生成能力同步增长
- 后期阶段:针对弱项任务做 focused training
这种训练策略避免了传统统一模型中常见的"遗忘"问题——学会生成后忘了理解,或者反过来。
论文还引入了模态感知的旋转位置编码(modality-aware RoPE),这是一个很实用的创新。不同模态的 token(文本 token、图像 patch token、视频帧 token)在位置编码上有不同的需求,统一的 RoPE 会导致跨模态干扰。Lance 的位置编码能自动识别 token 的模态类型,施加不同的位置编码策略。
性能表现
Lance 在图像和视频生成任务上"substantially outperforms existing open-source unified models"——这是论文的原话。同时保持了 strong 的多模态理解能力。
具体来说,作为"轻量级"模型,Lance 在视频生成质量上超越了参数量更大的竞品,这归功于双流架构避免了参数浪费,以及多任务训练带来的能力协同效应。
字节跳动的多模态野心
考虑到 ByteDance 在短视频和内容生成领域的业务体量,Lance 的发布并非纯学术动作。一个统一的、轻量级的多模态模型,可以直接服务于抖音/剪映等产品的内容创作工具链——理解用户意图、自动生成素材、智能编辑视频,一条龙搞定。
Apache-2.0 开源(GitHub: bytedance/Lance,134 Stars)也说明他们希望社区参与进来,快速迭代和验证。
值得关注的点
- 轻量级到底多轻? 论文强调"lightweight"但没给具体参数量,需要等社区实测
- 长视频能力:Lance 支持视频生成和编辑,但最长能处理多少秒、什么分辨率,论文没有详细 benchmark
- 开源进展:目前 134 Stars,还在早期,代码完整性和易用性需要观察
主要来源:
- Lance: Unified Multimodal Modeling by Multi-Task Synergy
- https://lance-project.github.io/
- https://github.com/bytedance/Lance