C
ChaoBro

黄仁勋 CNBC 最新表态:从生成式 AI 到 Agentic AI,计算需求暴涨 1000%

黄仁勋 CNBC 最新表态:从生成式 AI 到 Agentic AI,计算需求暴涨 1000%

发生了什么

2026 年 5 月 5 日,NVIDIA CEO 黄仁勋在接受 CNBC 采访时抛出一个重磅判断:“从生成式 AI 到 Agentic AI,所需的计算量增长了 1000%。”

这一判断出现在 NVIDIA Q1 2026 财报发布后不久。财报显示 NVIDIA 单季度净利润达到 $423 亿,全年预计接近 $2000 亿——从 2021 年至今的增长曲线堪称半导体行业史上最为陡峭。

与此同时,NVIDIA 技术团队在 X 平台披露了 Vera Rubin 平台面向 Agent 工作负载的具体性能数据:单用户 400+ tokens/sec,通过极端协同设计应对 Agent 场景下 token 消耗、上下文长度和延迟的极端需求。

1000% 增长从何而来

黄仁勋的 1000% 判断并非空穴来风。从生成式 AI 到 Agentic AI 的范式转换,带来了计算需求的结构性变化:

维度生成式 AIAgentic AI变化倍数
单次交互 token 消耗单次问答 ~1K-5K tokensAgent 多步推理 ~100K-1M tokens20-200x
会话长度单次会话 <30 轮Agent 可连续运行数小时至数天10-100x
上下文窗口8K-128K tokens1M+ tokens(Agent 状态持久化)8-125x
工具调用开销每次工具调用需额外推理 + 解析新增
多 Agent 协作不适用多个 Agent 并行推理,互相通信新增

当 Agent 需要”思考-行动-观察-再思考”的循环执行时,单次任务的 token 消耗可以轻易超过传统生成式 AI 会话的数百倍。这就是 1000% 增长的数学基础。

Vera Rubin:专为 Agent 设计的计算平台

NVIDIA 披露的 Vera Rubin 平台性能数据揭示了应对这一挑战的工程思路:

  • 400+ tokens/sec/user:这个指标针对的是 Agent 场景下的单用户体验,而非传统的 batch 吞吐
  • 极端协同设计(extreme co-design):CPU、GPU、内存、网络全链路优化,而非简单的 GPU 堆叠
  • 面向复杂工作负载:Agent 场景下的计算模式与传统训练/推理不同——更多的条件分支、更长的状态保持、更频繁的工具调用

这与 UBS 此前发布的分析报告形成呼应:UBS 预计到 2030 年,Agentic AI 将推动服务器 CPU 总可寻址市场从 $300 亿增长到 $1,700 亿(约 5 倍增长)。AI 不再只是 GPU 的故事。

GPU 供应链持续紧张

黄仁勋发言的同一天,另一条 X 推文揭示了 GPU 供应的另一面:

“没有一家 Neocloud 能想到,他们今天出租 H100 的价格竟然比 3 年前还高。”

即便有钱也难以买到 GPU——前沿实验室和 Neolabs 已经锁定了 2026 年的大部分 GPU 供应。这与超大规模厂商 2026 年 $725B 资本支出(同比增长 77%)的数据一致:

支出项金额(每 $1M)占比
GPU 和加速器$520K52%
网络和光通信$150K15%
数据中心基建$200K20%
内存和其他$130K13%

超过一半的 AI 基础设施投资流向 GPU 和加速器——这解释了为什么 H100 租金价格不降反升。

格局判断

三个信号叠加,勾勒出 AI 基础设施的下一幕:

  1. Agentic AI 不是”更好的聊天机器人”,而是计算模式的根本转变。1000% 的增长意味着现有基础设施需要重新设计,而非简单扩容。

  2. Vera Rubin 平台标志着 NVIDIA 从”GPU 公司”向”Agent 计算平台公司”转型。CPU、内存、网络协同设计的权重正在上升。

  3. GPU 供应紧张将持续。即便资本支出创纪录,前沿厂商的提前锁定意味着中小玩家的 GPU 获取成本不降反升。

行动建议

  • 基础设施投资者:关注 NVIDIA Vera Rubin 平台的出货节奏和采用率。400+ tokens/sec/user 是 Agent 场景的关键性能指标,将成为评估 AI 基础设施竞争力的新基准。
  • AI 应用开发者:Agent 工作负载的计算模式与传统推理不同——更长的上下文、更多的工具调用、更频繁的中间状态保存。在架构设计时需考虑这些因素,而非简单套用生成式 AI 的推理模式。
  • 中小企业:GPU 供应紧张意味着自建 Agent 基础设施的成本短期内不会下降。评估云端 Agent 服务(如各大模型厂商的 Agent API)可能比自建更具性价比。
  • 芯片行业从业者:CPU 在 Agent 场景下的角色正在回归。UBS 预测的 5x TAM 增长不是空谈——Agent 编排、状态管理、工具路由都是 CPU 密集型工作。