黄仁勋 CNBC 最新表态：从生成式 AI 到 Agentic AI，计算需求暴涨 1000%

发生了什么

2026 年 5 月 5 日，NVIDIA CEO 黄仁勋在接受 CNBC 采访时抛出一个重磅判断：“从生成式 AI 到 Agentic AI，所需的计算量增长了 1000%。”

这一判断出现在 NVIDIA Q1 2026 财报发布后不久。财报显示 NVIDIA 单季度净利润达到 $423 亿，全年预计接近 $2000 亿——从 2021 年至今的增长曲线堪称半导体行业史上最为陡峭。

与此同时，NVIDIA 技术团队在 X 平台披露了 Vera Rubin 平台面向 Agent 工作负载的具体性能数据：单用户 400+ tokens/sec，通过极端协同设计应对 Agent 场景下 token 消耗、上下文长度和延迟的极端需求。

黄仁勋的 1000% 判断并非空穴来风。从生成式 AI 到 Agentic AI 的范式转换，带来了计算需求的结构性变化：

维度	生成式 AI	Agentic AI	变化倍数
单次交互 token 消耗	单次问答 ~1K-5K tokens	Agent 多步推理 ~100K-1M tokens	20-200x
会话长度	单次会话 <30 轮	Agent 可连续运行数小时至数天	10-100x
上下文窗口	8K-128K tokens	1M+ tokens（Agent 状态持久化）	8-125x
工具调用开销	无	每次工具调用需额外推理 + 解析	新增
多 Agent 协作	不适用	多个 Agent 并行推理，互相通信	新增

当 Agent 需要”思考-行动-观察-再思考”的循环执行时，单次任务的 token 消耗可以轻易超过传统生成式 AI 会话的数百倍。这就是 1000% 增长的数学基础。

NVIDIA 披露的 Vera Rubin 平台性能数据揭示了应对这一挑战的工程思路：

这与 UBS 此前发布的分析报告形成呼应：UBS 预计到 2030 年，Agentic AI 将推动服务器 CPU 总可寻址市场从 $300 亿增长到 $1,700 亿（约 5 倍增长）。AI 不再只是 GPU 的故事。

黄仁勋发言的同一天，另一条 X 推文揭示了 GPU 供应的另一面：

“没有一家 Neocloud 能想到，他们今天出租 H100 的价格竟然比 3 年前还高。”

即便有钱也难以买到 GPU——前沿实验室和 Neolabs 已经锁定了 2026 年的大部分 GPU 供应。这与超大规模厂商 2026 年 $725B 资本支出（同比增长 77%）的数据一致：

超过一半的 AI 基础设施投资流向 GPU 和加速器——这解释了为什么 H100 租金价格不降反升。

三个信号叠加，勾勒出 AI 基础设施的下一幕：

基础设施投资者：关注 NVIDIA Vera Rubin 平台的出货节奏和采用率。400+ tokens/sec/user 是 Agent 场景的关键性能指标，将成为评估 AI 基础设施竞争力的新基准。
AI 应用开发者：Agent 工作负载的计算模式与传统推理不同——更长的上下文、更多的工具调用、更频繁的中间状态保存。在架构设计时需考虑这些因素，而非简单套用生成式 AI 的推理模式。
中小企业：GPU 供应紧张意味着自建 Agent 基础设施的成本短期内不会下降。评估云端 Agent 服务（如各大模型厂商的 Agent API）可能比自建更具性价比。
芯片行业从业者：CPU 在 Agent 场景下的角色正在回归。UBS 预测的 5x TAM 增长不是空谈——Agent 编排、状态管理、工具路由都是 CPU 密集型工作。