C
ChaoBro

何恺明团队发布 ELF:在连续嵌入空间跑扩散语言模型

何恺明团队发布 ELF:在连续嵌入空间跑扩散语言模型

扩散模型在图像和视频领域已经站稳了脚跟,但在语言建模上一直有点水土不服。

原因不复杂——图像和视频的数据天然是连续的,像素值可以平滑变化;但语言是离散的,一个字就是一个 token,不存在"半个字"。所以之前的扩散语言模型基本都在离散 token 空间里做文章,效果打了折扣。

Meta FAIR 的何恺明团队上周交了一篇论文,思路很直接:既然离散空间不好做,那就别在离散空间做。

ELF 的核心想法

论文叫 ELF(Embedded Language Flows),核心操作是:

  1. 把文本映射到连续嵌入空间
  2. 在嵌入空间里跑 Flow Matching(连续时间流匹配)
  3. 直到最后一步,才把结果映射回离散 token

这个"直到最后一步才映射回去"是关键。之前的方法在扩散过程中反复在连续和离散之间跳转,相当于一直在水陆两栖切换,效率不高。ELF 干脆在连续空间里待着,只在输出时做一次离散化。

这样做还有一个好处:图像扩散模型里成熟的技术可以直接搬过来用,比如 classifier-free guidance(CFG)。在离散空间里做 CFG 需要各种 hack,在连续嵌入空间里几乎不需要改动。

实验结果

论文给出的结论很干脆:ELF 在生成质量上大幅超越了现有的离散和连续 DLM,而且采样步数更少。

具体来说,ELF 在标准语言建模基准上比之前最好的扩散语言模型有明显优势。采样步数减少意味着推理成本降低——扩散模型本来就被诟病推理慢,少几步采样就是实打实的提速。

作者阵容

这篇论文的作者包括 Keya Hu、Linlu Qiu、Yiyang Lu、Hanhong Zhao、Tianhong Li、Yoon Kim、Jacob Andreas 和 Kaiming He。来自 Meta FAIR、MIT 等机构。

何恺明从 CV 领域转到通用 AI 研究后,团队一直在探索非自回归的语言建模路径。ELF 是这个方向上的又一个尝试。

扩散语言模型还有机会吗

自回归模型(Transformer + next-token prediction)统治语言建模已经很多年了。扩散语言模型一直被当作一个"理论上可行但实践中打不过"的替代方案。

ELF 的结果至少在证明:扩散语言模型不是路走错了,可能只是在错误的空间里走。连续嵌入空间可能才是它该待的地方。

不过,要拿这个跟 GPT-5.5、Claude Opus 4.7 这样的前沿模型比,还有很长的路要走。论文里的实验规模跟前沿模型的训练数据量完全不是一个量级。

但方向感很重要。如果连续嵌入空间的扩散语言模型这条路能走通,它带来的不只是另一个生成方式——扩散模型天生的多模态统一性和可控采样能力,是自回归模型不具备的。


主要来源: