一条消息在AI圈悄悄传开:一家用扩散模型做文本生成的初创公司,拿到了吴恩达和Karpathy的天使轮投资,微软和SpaceX也在抢着投。
扩散模型做文本生成?这不是GPT们的事吗?
先别急着下结论。这件事之所以值得认真对待,不是因为又一家初创公司拿到了融资——2026年了,AI公司融资已经不是新闻——而是因为扩散模型在文本生成领域展现出了可能颠覆LLM统治地位的信号。
扩散模型凭什么挑战LLM?
过去三年,LLM几乎垄断了文本生成。从ChatGPT到Claude,从Gemini到文心一言,所有人都在这条赛道上卷。
但LLM有一个根本性的局限:它是自回归的。也就是说,它每次只能生成一个token,然后根据已生成的内容预测下一个。这个过程是线性的、串行的,无法并行。
扩散模型不同。它的工作方式是先制造一堆噪声,然后一步步去噪,直到变成有意义的文本。这个过程有一个LLM做不到的优势:每一步都可以并行计算。
这意味着什么?理论上,扩散模型在推理速度上有数量级的优势。而且,因为它不是逐token生成的,所以在生成质量的一致性和全局连贯性上,也可能比LLM做得更好。
为什么是现在?
扩散模型不是新概念。Stable Diffusion在图像生成领域已经证明了它的实力。但文本和图像是两码事——文本是离散的、符号化的,而图像是连续的、像素化的。把扩散模型从图像搬到文本,中间隔着巨大的技术鸿沟。
能在这个时间点做出让吴恩达和Karpathy愿意掏钱的产品,说明至少有两件事已经成熟了:
第一,离散扩散模型的技术突破了。可能是在token空间的连续化表示上找到了新的方法,或者是在去噪过程中引入了更有效的语言建模策略。
第二,算力成本的倒逼。LLM的推理成本高得离谱,尤其是面对大规模并发场景时。扩散模型的并行推理能力,恰好能解决这个问题。
巨头的焦虑:怕错过下一个范式
微软和SpaceX抢着投,这本身就说明了一个问题:巨头们害怕错过下一个技术范式。
回顾一下历史:OpenAI在LLM上的先发优势,让所有后来者都感受到了巨大的竞争压力。当一个新的技术路线出现时,巨头的本能反应是——不管它最终能不能成,先占个位置再说。
这是一种"防御性投资"。投了,最坏的结果是损失一笔钱。不投,万一它成了,你就彻底出局了。
但反过来想,这也说明了扩散模型文本生成确实有一些值得关注的东西。否则,以微软和SpaceX的投资团队的专业水准,不会为纯粹的噱头买单。
冷静一下:LLM不会那么快被取代
尽管扩散模型有理论上的优势,但要真正撼动LLM的统治地位,还有很长的路要走。
首先,生态壁垒。LLM已经建立了庞大的开发者生态、工具链和应用场景。扩散模型需要从零开始建设这一切。
其次,训练数据和方法论。LLM的训练方法论已经非常成熟——预训练、SFT、RLHF,每一步都有大量的研究和实践积累。扩散模型在文本领域的训练方法还需要时间验证。
最后,用户体验。LLM的流式输出体验非常好——用户可以看到文字一个字一个字地蹦出来。扩散模型的去噪过程能否提供类似的体验,还是个问题。
真正的看点:技术路线的多元化
扩散模型文本生成最大的意义,可能不在于取代LLM,而在于打破LLM的垄断,推动技术路线的多元化。
过去三年,整个行业都押注在自回归语言模型这一条路上。这带来了快速的技术进步,但也造成了思维定式和技术路径依赖。
扩散模型的入局,至少在提醒所有人:文本生成的方法不止一种。也许未来的最佳方案,既不是纯粹的LLM,也不是纯粹的扩散模型,而是两者的融合。
吴恩达和Karpathy的投资,押注的不是"扩散模型杀死LLM"这个戏剧性的叙事,而是"技术路线应该有更多可能性"这个朴素的信念。
这比任何单一的融资新闻都更有价值。