扩散模型杀入文本生成：吴恩达和Karpathy押注的，可能是LLM的终结者

一条消息在AI圈悄悄传开：一家用扩散模型做文本生成的初创公司，拿到了吴恩达和Karpathy的天使轮投资，微软和SpaceX也在抢着投。

扩散模型做文本生成？这不是GPT们的事吗？

先别急着下结论。这件事之所以值得认真对待，不是因为又一家初创公司拿到了融资——2026年了，AI公司融资已经不是新闻——而是因为扩散模型在文本生成领域展现出了可能颠覆LLM统治地位的信号。

扩散模型凭什么挑战LLM？

过去三年，LLM几乎垄断了文本生成。从ChatGPT到Claude，从Gemini到文心一言，所有人都在这条赛道上卷。

但LLM有一个根本性的局限：它是自回归的。也就是说，它每次只能生成一个token，然后根据已生成的内容预测下一个。这个过程是线性的、串行的，无法并行。

扩散模型不同。它的工作方式是先制造一堆噪声，然后一步步去噪，直到变成有意义的文本。这个过程有一个LLM做不到的优势：每一步都可以并行计算。

这意味着什么？理论上，扩散模型在推理速度上有数量级的优势。而且，因为它不是逐token生成的，所以在生成质量的一致性和全局连贯性上，也可能比LLM做得更好。

扩散模型不是新概念。Stable Diffusion在图像生成领域已经证明了它的实力。但文本和图像是两码事——文本是离散的、符号化的，而图像是连续的、像素化的。把扩散模型从图像搬到文本，中间隔着巨大的技术鸿沟。

能在这个时间点做出让吴恩达和Karpathy愿意掏钱的产品，说明至少有两件事已经成熟了：

第一，离散扩散模型的技术突破了。可能是在token空间的连续化表示上找到了新的方法，或者是在去噪过程中引入了更有效的语言建模策略。

第二，算力成本的倒逼。LLM的推理成本高得离谱，尤其是面对大规模并发场景时。扩散模型的并行推理能力，恰好能解决这个问题。

微软和SpaceX抢着投，这本身就说明了一个问题：巨头们害怕错过下一个技术范式。

回顾一下历史：OpenAI在LLM上的先发优势，让所有后来者都感受到了巨大的竞争压力。当一个新的技术路线出现时，巨头的本能反应是——不管它最终能不能成，先占个位置再说。

这是一种"防御性投资"。投了，最坏的结果是损失一笔钱。不投，万一它成了，你就彻底出局了。

但反过来想，这也说明了扩散模型文本生成确实有一些值得关注的东西。否则，以微软和SpaceX的投资团队的专业水准，不会为纯粹的噱头买单。

尽管扩散模型有理论上的优势，但要真正撼动LLM的统治地位，还有很长的路要走。

首先，生态壁垒。LLM已经建立了庞大的开发者生态、工具链和应用场景。扩散模型需要从零开始建设这一切。

其次，训练数据和方法论。LLM的训练方法论已经非常成熟——预训练、SFT、RLHF，每一步都有大量的研究和实践积累。扩散模型在文本领域的训练方法还需要时间验证。

最后，用户体验。LLM的流式输出体验非常好——用户可以看到文字一个字一个字地蹦出来。扩散模型的去噪过程能否提供类似的体验，还是个问题。

扩散模型文本生成最大的意义，可能不在于取代LLM，而在于打破LLM的垄断，推动技术路线的多元化。

过去三年，整个行业都押注在自回归语言模型这一条路上。这带来了快速的技术进步，但也造成了思维定式和技术路径依赖。

扩散模型的入局，至少在提醒所有人：文本生成的方法不止一种。也许未来的最佳方案，既不是纯粹的LLM，也不是纯粹的扩散模型，而是两者的融合。

吴恩达和Karpathy的投资，押注的不是"扩散模型杀死LLM"这个戏剧性的叙事，而是"技术路线应该有更多可能性"这个朴素的信念。

这比任何单一的融资新闻都更有价值。