发生了什么
2026 年 5 月 5 日,NVIDIA CEO 黄仁勋在接受 CNBC 采访时抛出一个重磅判断:“从生成式 AI 到 Agentic AI,所需的计算量增长了 1000%。”
这一判断出现在 NVIDIA Q1 2026 财报发布后不久。财报显示 NVIDIA 单季度净利润达到 $423 亿,全年预计接近 $2000 亿——从 2021 年至今的增长曲线堪称半导体行业史上最为陡峭。
与此同时,NVIDIA 技术团队在 X 平台披露了 Vera Rubin 平台面向 Agent 工作负载的具体性能数据:单用户 400+ tokens/sec,通过极端协同设计应对 Agent 场景下 token 消耗、上下文长度和延迟的极端需求。
1000% 增长从何而来
黄仁勋的 1000% 判断并非空穴来风。从生成式 AI 到 Agentic AI 的范式转换,带来了计算需求的结构性变化:
| 维度 | 生成式 AI | Agentic AI | 变化倍数 |
|---|---|---|---|
| 单次交互 token 消耗 | 单次问答 ~1K-5K tokens | Agent 多步推理 ~100K-1M tokens | 20-200x |
| 会话长度 | 单次会话 <30 轮 | Agent 可连续运行数小时至数天 | 10-100x |
| 上下文窗口 | 8K-128K tokens | 1M+ tokens(Agent 状态持久化) | 8-125x |
| 工具调用开销 | 无 | 每次工具调用需额外推理 + 解析 | 新增 |
| 多 Agent 协作 | 不适用 | 多个 Agent 并行推理,互相通信 | 新增 |
当 Agent 需要”思考-行动-观察-再思考”的循环执行时,单次任务的 token 消耗可以轻易超过传统生成式 AI 会话的数百倍。这就是 1000% 增长的数学基础。
Vera Rubin:专为 Agent 设计的计算平台
NVIDIA 披露的 Vera Rubin 平台性能数据揭示了应对这一挑战的工程思路:
- 400+ tokens/sec/user:这个指标针对的是 Agent 场景下的单用户体验,而非传统的 batch 吞吐
- 极端协同设计(extreme co-design):CPU、GPU、内存、网络全链路优化,而非简单的 GPU 堆叠
- 面向复杂工作负载:Agent 场景下的计算模式与传统训练/推理不同——更多的条件分支、更长的状态保持、更频繁的工具调用
这与 UBS 此前发布的分析报告形成呼应:UBS 预计到 2030 年,Agentic AI 将推动服务器 CPU 总可寻址市场从 $300 亿增长到 $1,700 亿(约 5 倍增长)。AI 不再只是 GPU 的故事。
GPU 供应链持续紧张
黄仁勋发言的同一天,另一条 X 推文揭示了 GPU 供应的另一面:
“没有一家 Neocloud 能想到,他们今天出租 H100 的价格竟然比 3 年前还高。”
即便有钱也难以买到 GPU——前沿实验室和 Neolabs 已经锁定了 2026 年的大部分 GPU 供应。这与超大规模厂商 2026 年 $725B 资本支出(同比增长 77%)的数据一致:
| 支出项 | 金额(每 $1M) | 占比 |
|---|---|---|
| GPU 和加速器 | $520K | 52% |
| 网络和光通信 | $150K | 15% |
| 数据中心基建 | $200K | 20% |
| 内存和其他 | $130K | 13% |
超过一半的 AI 基础设施投资流向 GPU 和加速器——这解释了为什么 H100 租金价格不降反升。
格局判断
三个信号叠加,勾勒出 AI 基础设施的下一幕:
-
Agentic AI 不是”更好的聊天机器人”,而是计算模式的根本转变。1000% 的增长意味着现有基础设施需要重新设计,而非简单扩容。
-
Vera Rubin 平台标志着 NVIDIA 从”GPU 公司”向”Agent 计算平台公司”转型。CPU、内存、网络协同设计的权重正在上升。
-
GPU 供应紧张将持续。即便资本支出创纪录,前沿厂商的提前锁定意味着中小玩家的 GPU 获取成本不降反升。
行动建议
- 基础设施投资者:关注 NVIDIA Vera Rubin 平台的出货节奏和采用率。400+ tokens/sec/user 是 Agent 场景的关键性能指标,将成为评估 AI 基础设施竞争力的新基准。
- AI 应用开发者:Agent 工作负载的计算模式与传统推理不同——更长的上下文、更多的工具调用、更频繁的中间状态保存。在架构设计时需考虑这些因素,而非简单套用生成式 AI 的推理模式。
- 中小企业:GPU 供应紧张意味着自建 Agent 基础设施的成本短期内不会下降。评估云端 Agent 服务(如各大模型厂商的 Agent API)可能比自建更具性价比。
- 芯片行业从业者:CPU 在 Agent 场景下的角色正在回归。UBS 预测的 5x TAM 增长不是空谈——Agent 编排、状态管理、工具路由都是 CPU 密集型工作。