核心结论
NVIDIA 在 GTC 2026 上发布了两条重要信息:Vera CPU 正式亮相,以及Blackwell + Vera Rubin 芯片订单突破 $1 万亿。Vera 是首款专为 Agentic AI 工作负载设计的 CPU,搭载 88 颗自研 Olympus 核心,内存带宽 1.2 TB/s,CPU-GPU 相干带宽 1.8 TB/s(通过 NVLink)。$1 万亿的订单规模则确认了一个事实:AI 基础设施投资已经从”探索性试验”进入”押注未来”阶段。
Vera CPU:为 Agent 而生的处理器
为什么 Agent 需要专用 CPU
传统 AI 服务器的典型配置是 1 颗 CPU 配 4 颗 GPU——这个比例在训练时代是合理的,因为 GPU 负责大部分计算,CPU 主要做数据搬运和任务调度。
但 Agentic AI 改变了这个假设。Agent 工作负载的特征是:
- 频繁的工具调用(Tool Call):Agent 每一步都可能需要调用外部工具,这些调用由 CPU 编排
- 逻辑门控(Logic Gating):决定何时调用哪个工具、如何分支、何时终止——这些是 CPU 密集的逻辑判断
- 数据搬移:在 GPU、内存、外部 API 之间搬运上下文数据
- 多 Agent 编排:多个 Agent 实例的调度和协调
从 2026 Q1 开始,Agentic AI 需求爆发导致负责发号施令的 CPU 配置严重不足。现有的 1:4 CPU-GPU 比例无法支撑 Agent 工作负载的并发需求。
Vera CPU 核心规格
| 指标 | 数值 | 意义 |
|---|---|---|
| 核心数 | 88 颗自研 Olympus 核心 | 远超传统服务器 CPU 的核心密度 |
| 内存带宽 | 1.2 TB/s | 支撑大规模上下文数据搬移 |
| CPU-GPU 相干带宽 | 1.8 TB/s(NVLink) | 消除 CPU-GPU 数据传输瓶颈 |
| 独立运行 | 支持 standalone inference | 不依赖 GPU 即可执行推理和编排 |
| 配对运行 | 与 Rubin GPU 协同 | 完整的训练+推理+Agent 编排方案 |
关键洞察:Vera 可以独立运行做 inference 和 orchestration——这意味着对于不需要 GPU 加速的 Agent 任务(工具调用编排、逻辑判断、API 路由),可以单独部署 Vera CPU,大幅降低成本。
$1 万亿订单:数字背后的信号
订单规模对比
黄仁勋在 GTC 2026 上披露,Blackwell 和 Vera Rubin 芯片截至 2027 年的采购订单已达 $1 万亿。作为参照:
- 2024 年全球 AI 芯片市场规模约 $500 亿
- $1 万亿相当于全球 AI 芯片市场 20 倍的年规模
- 这不是”试用”,而是企业对 AI 基础设施的确定性押注
订单结构的变化
| 时期 | 主要购买方 | 购买目的 |
|---|---|---|
| 2023-2024 | 科技巨头(Meta、Google、Microsoft) | 训练自有大模型 |
| 2025 | 云厂商(AWS、Azure、GCP) | 提供 AI 云服务 |
| 2026 | 全行业(金融、医疗、制造、零售) | 推理+Agent 部署 |
转变:AI 芯片的购买方从”几家科技巨头”扩散到”全行业”,用途从”训练”转向”推理和 Agent 部署”。这是 AI 基础设施投资大众化的标志。
格局判断
对 AI 服务器架构的影响
NVIDIA 和 AMD 正在重新评估 AI 服务器的 CPU-GPU 配比。分析师认为,随着 Agentic AI 需求增长,未来的 AI 服务器可能会采用更高的 CPU 配置比例(如 2:4 甚至 4:4),甚至出现纯 CPU Agent 服务器(用 Vera 做轻量 Agent 编排)。
对开发者的意义
- 本地 Agent 部署成本下降:Vera 可以独立运行 inference,意味着不需要 GPU 就能部署轻量 Agent
- Agent 编排层专业化:专用 CPU 的出现意味着 Agent 编排将不再是”附带动作”,而是一个独立的硬件优化领域
- 混合部署成为常态:GPU 做重推理 + CPU 做轻编排的混合架构将成为 Agent 部署的标准模式
行动建议
基础设施规划
- 评估当前 CPU-GPU 配比:如果你的 Agent 工作负载出现 CPU 瓶颈(工具调用延迟高、调度排队),考虑增加 CPU 配置
- 关注 Vera CPU 的独立部署能力:对于不需要 GPU 的 Agent 任务(API 编排、规则判断、轻量推理),Vera 可能是比 GPU 更经济的选择
- 规划混合架构:GPU 负责模型推理,CPU 负责 Agent 编排的分离式架构将成为主流
开发者准备
- 优化工具调用效率:减少不必要的工具调用次数,降低 CPU 编排压力
- Agent 逻辑轻量化:将可以在 CPU 上完成的逻辑判断与需要 GPU 的模型推理分离
- 关注 NVIDIA 物理 AI 开源栈:NVIDIA 同时开源了整个 Physical AI 技术栈,机器人和具身智能领域的开发者应优先克隆仓库
风险提示
- $1 万亿是”采购订单”而非”已交付”,实际出货和部署节奏存在不确定性
- Vera CPU 的具体定价和供货时间尚未完全披露,开发者需持续关注
- 如果 AMD 或其他厂商推出竞争性的 Agent 专用 CPU,市场格局可能快速变化