LeCun 赌注 JEPA:万亿资金押错方向?世界模型与 LLM 的终极路线之争

LeCun 赌注 JEPA:万亿资金押错方向?世界模型与 LLM 的终极路线之争

核心结论

AI行业正在面临一个根本性的路线分歧:

维度LLM路线(主流)JEPA路线(LeCun)
核心架构Transformer + Next-Token PredictionJoint Embedding Predictive Architecture
训练方式海量文本生成预测联合嵌入空间中的世界状态预测
生成方式自回归逐token生成非生成式,在嵌入空间推理
物理理解隐含学习(可能学会)显式编码(设计保证)
计算效率推理成本高(逐个生成)规划速度快(嵌入空间操作)
典型玩家OpenAI, Anthropic, Google, 国产模型Meta (LeCun团队)

LeCun的最新实验中,极小参数+单张GPU就实现了天然编码物理规律+超快规划。这与当前动辄千亿参数、万张GPU的LLM训练形成了鲜明对比。

LeCun的核心论点

LeCun从LLM热潮初期就反复强调一个问题:

“如果让模型足够大,它最终会理解世界是如何运行的——这个假设从未被证明。”

他的批评可以归纳为三点:

1. 自回归生成的根本缺陷

LLM通过”预测下一个词”来学习,这种方式:

  • 只能学到文本的统计规律,无法真正理解物理世界
  • 每一步生成都依赖前一步,推理速度线性增长
  • 幻觉问题根植于”下一个token概率”的不确定性

2. 嵌入空间推理的优势

JEPA的核心思想是:

  • 将世界状态编码为高维嵌入向量
  • 在嵌入空间中进行预测和规划
  • 不需要逐个生成token,而是直接操作抽象表征

这类似于人类思考的方式——我们不是在脑中”逐字默念”来规划行动,而是在一个抽象的空间中”想象”结果。

3. 计算效率的碾压级优势

LeCun实验中,小参数+单张GPU就实现了:

  • 超快规划:嵌入空间操作比逐token生成快几个数量级
  • 物理规律天然编码:不需要额外训练,架构本身就倾向于学习物理规律
  • 低能耗:不依赖海量算力和数据

为什么现在突然被关注

过去三年,LLM路线一骑绝尘,JEPA的声音被淹没在Scaling Law的狂欢中。但2026年出现了一些转折点:

转折信号含义
GPT-5.5/Claude Opus 4.7 训练成本指数增长Scaling Law可能正在触及天花板
四大巨头2026年AI支出$7250亿算力竞赛的财务可持续性存疑
LeCun实验用小参数实现物理编码另一条路可能确实走得通
社区”LLM够用但不够好”的共识90%场景LLM够用,但关键场景仍有差距

技术对比:JEPA vs LLM

LLM路线:
输入文本 → 分词 → Transformer层层计算 → 逐token生成输出 → 解码为文本
        ↑ 计算密集,每一步都昂贵

JEPA路线:
输入感知 → 编码器提取嵌入 → 在嵌入空间预测/规划 → 解码器输出
        ↑ 在抽象空间操作,计算量大幅降低
能力LLMJEPA
文本生成★★★★★★★
代码生成★★★★★★★
物理推理★★★★★★★
规划速度★★★★★★★
训练效率★★★★★★
泛化能力★★★★★★★★★

对行业的影响

如果JEPA被证明可行

  • AI成本结构将彻底改写:不需要万张GPU训练,中小公司也能做出强模型
  • Agent能力的质变:规划和推理速度提升几个数量级,真正的自主Agent成为可能
  • Meta的战略优势:如果JEPA路线走通,Meta将拥有与OpenAI/Google不同的技术壁垒

但现实是

  • JEPA目前只在特定任务上展示了优势(物理推理、规划)
  • 文本生成、代码、创意写作等LLM的核心优势领域,JEPA远未成熟
  • 从实验室到产品,JEPA可能还需要3-5年的验证期

行动建议

  • 研究者:JEPA是一个值得跟踪的方向,但不应该放弃LLM路线——短期内LLM仍是主力
  • 投资者:关注Meta在JEPA方向的投入节奏,以及是否出现开源实现
  • 开发者:现阶段继续深耕LLM生态,但可以在规划/物理推理场景尝试JEPA的实验性应用
  • 企业决策者:LLM已经可以落地,不需要等JEPA——但可以在技术雷达上标记这个方向

LeCun赌的是**“全行业在一条路上卷到头,而另一条路可能更好”**。这个赌注是否正确,2026-2027年会有更多答案。但有一点可以肯定:AI路线之争远未结束