何恺明团队发布 ELF：在连续嵌入空间跑扩散语言模型

扩散模型在图像和视频领域已经站稳了脚跟，但在语言建模上一直有点水土不服。

原因不复杂——图像和视频的数据天然是连续的，像素值可以平滑变化；但语言是离散的，一个字就是一个 token，不存在"半个字"。所以之前的扩散语言模型基本都在离散 token 空间里做文章，效果打了折扣。

Meta FAIR 的何恺明团队上周交了一篇论文，思路很直接：既然离散空间不好做，那就别在离散空间做。

ELF 的核心想法

论文叫 ELF（Embedded Language Flows），核心操作是：

这个"直到最后一步才映射回去"是关键。之前的方法在扩散过程中反复在连续和离散之间跳转，相当于一直在水陆两栖切换，效率不高。ELF 干脆在连续空间里待着，只在输出时做一次离散化。

这样做还有一个好处：图像扩散模型里成熟的技术可以直接搬过来用，比如 classifier-free guidance（CFG）。在离散空间里做 CFG 需要各种 hack，在连续嵌入空间里几乎不需要改动。

论文给出的结论很干脆：ELF 在生成质量上大幅超越了现有的离散和连续 DLM，而且采样步数更少。

具体来说，ELF 在标准语言建模基准上比之前最好的扩散语言模型有明显优势。采样步数减少意味着推理成本降低——扩散模型本来就被诟病推理慢，少几步采样就是实打实的提速。

这篇论文的作者包括 Keya Hu、Linlu Qiu、Yiyang Lu、Hanhong Zhao、Tianhong Li、Yoon Kim、Jacob Andreas 和 Kaiming He。来自 Meta FAIR、MIT 等机构。

何恺明从 CV 领域转到通用 AI 研究后，团队一直在探索非自回归的语言建模路径。ELF 是这个方向上的又一个尝试。

自回归模型（Transformer + next-token prediction）统治语言建模已经很多年了。扩散语言模型一直被当作一个"理论上可行但实践中打不过"的替代方案。

ELF 的结果至少在证明：扩散语言模型不是路走错了，可能只是在错误的空间里走。连续嵌入空间可能才是它该待的地方。

不过，要拿这个跟 GPT-5.5、Claude Opus 4.7 这样的前沿模型比，还有很长的路要走。论文里的实验规模跟前沿模型的训练数据量完全不是一个量级。

但方向感很重要。如果连续嵌入空间的扩散语言模型这条路能走通，它带来的不只是另一个生成方式——扩散模型天生的多模态统一性和可控采样能力，是自回归模型不具备的。

主要来源：