C
ChaoBro

扩散模型杀入文本生成:吴恩达和Karpathy押注的,可能是LLM的终结者

扩散模型杀入文本生成:吴恩达和Karpathy押注的,可能是LLM的终结者

一条消息在AI圈悄悄传开:一家用扩散模型做文本生成的初创公司,拿到了吴恩达和Karpathy的天使轮投资,微软和SpaceX也在抢着投。

扩散模型做文本生成?这不是GPT们的事吗?

先别急着下结论。这件事之所以值得认真对待,不是因为又一家初创公司拿到了融资——2026年了,AI公司融资已经不是新闻——而是因为扩散模型在文本生成领域展现出了可能颠覆LLM统治地位的信号

扩散模型凭什么挑战LLM?

过去三年,LLM几乎垄断了文本生成。从ChatGPT到Claude,从Gemini到文心一言,所有人都在这条赛道上卷。

但LLM有一个根本性的局限:它是自回归的。也就是说,它每次只能生成一个token,然后根据已生成的内容预测下一个。这个过程是线性的、串行的,无法并行。

扩散模型不同。它的工作方式是先制造一堆噪声,然后一步步去噪,直到变成有意义的文本。这个过程有一个LLM做不到的优势:每一步都可以并行计算

这意味着什么?理论上,扩散模型在推理速度上有数量级的优势。而且,因为它不是逐token生成的,所以在生成质量的一致性和全局连贯性上,也可能比LLM做得更好。

为什么是现在?

扩散模型不是新概念。Stable Diffusion在图像生成领域已经证明了它的实力。但文本和图像是两码事——文本是离散的、符号化的,而图像是连续的、像素化的。把扩散模型从图像搬到文本,中间隔着巨大的技术鸿沟。

能在这个时间点做出让吴恩达和Karpathy愿意掏钱的产品,说明至少有两件事已经成熟了:

第一,离散扩散模型的技术突破了。可能是在token空间的连续化表示上找到了新的方法,或者是在去噪过程中引入了更有效的语言建模策略。

第二,算力成本的倒逼。LLM的推理成本高得离谱,尤其是面对大规模并发场景时。扩散模型的并行推理能力,恰好能解决这个问题。

巨头的焦虑:怕错过下一个范式

微软和SpaceX抢着投,这本身就说明了一个问题:巨头们害怕错过下一个技术范式

回顾一下历史:OpenAI在LLM上的先发优势,让所有后来者都感受到了巨大的竞争压力。当一个新的技术路线出现时,巨头的本能反应是——不管它最终能不能成,先占个位置再说。

这是一种"防御性投资"。投了,最坏的结果是损失一笔钱。不投,万一它成了,你就彻底出局了。

但反过来想,这也说明了扩散模型文本生成确实有一些值得关注的东西。否则,以微软和SpaceX的投资团队的专业水准,不会为纯粹的噱头买单。

冷静一下:LLM不会那么快被取代

尽管扩散模型有理论上的优势,但要真正撼动LLM的统治地位,还有很长的路要走。

首先,生态壁垒。LLM已经建立了庞大的开发者生态、工具链和应用场景。扩散模型需要从零开始建设这一切。

其次,训练数据和方法论。LLM的训练方法论已经非常成熟——预训练、SFT、RLHF,每一步都有大量的研究和实践积累。扩散模型在文本领域的训练方法还需要时间验证。

最后,用户体验。LLM的流式输出体验非常好——用户可以看到文字一个字一个字地蹦出来。扩散模型的去噪过程能否提供类似的体验,还是个问题。

真正的看点:技术路线的多元化

扩散模型文本生成最大的意义,可能不在于取代LLM,而在于打破LLM的垄断,推动技术路线的多元化

过去三年,整个行业都押注在自回归语言模型这一条路上。这带来了快速的技术进步,但也造成了思维定式和技术路径依赖。

扩散模型的入局,至少在提醒所有人:文本生成的方法不止一种。也许未来的最佳方案,既不是纯粹的LLM,也不是纯粹的扩散模型,而是两者的融合。

吴恩达和Karpathy的投资,押注的不是"扩散模型杀死LLM"这个戏剧性的叙事,而是"技术路线应该有更多可能性"这个朴素的信念。

这比任何单一的融资新闻都更有价值。