NVIDIA Vera CPU 发布:88 核自研芯片专为 Agentic AI 打造,1 万亿订单背后的硬件范式转移

NVIDIA Vera CPU 发布:88 核自研芯片专为 Agentic AI 打造,1 万亿订单背后的硬件范式转移

核心结论

NVIDIA 在 GTC 2026 上发布了两条重要信息:Vera CPU 正式亮相,以及Blackwell + Vera Rubin 芯片订单突破 $1 万亿。Vera 是首款专为 Agentic AI 工作负载设计的 CPU,搭载 88 颗自研 Olympus 核心,内存带宽 1.2 TB/s,CPU-GPU 相干带宽 1.8 TB/s(通过 NVLink)。$1 万亿的订单规模则确认了一个事实:AI 基础设施投资已经从”探索性试验”进入”押注未来”阶段。

Vera CPU:为 Agent 而生的处理器

为什么 Agent 需要专用 CPU

传统 AI 服务器的典型配置是 1 颗 CPU 配 4 颗 GPU——这个比例在训练时代是合理的,因为 GPU 负责大部分计算,CPU 主要做数据搬运和任务调度。

但 Agentic AI 改变了这个假设。Agent 工作负载的特征是:

  • 频繁的工具调用(Tool Call):Agent 每一步都可能需要调用外部工具,这些调用由 CPU 编排
  • 逻辑门控(Logic Gating):决定何时调用哪个工具、如何分支、何时终止——这些是 CPU 密集的逻辑判断
  • 数据搬移:在 GPU、内存、外部 API 之间搬运上下文数据
  • 多 Agent 编排:多个 Agent 实例的调度和协调

从 2026 Q1 开始,Agentic AI 需求爆发导致负责发号施令的 CPU 配置严重不足。现有的 1:4 CPU-GPU 比例无法支撑 Agent 工作负载的并发需求。

Vera CPU 核心规格

指标数值意义
核心数88 颗自研 Olympus 核心远超传统服务器 CPU 的核心密度
内存带宽1.2 TB/s支撑大规模上下文数据搬移
CPU-GPU 相干带宽1.8 TB/s(NVLink)消除 CPU-GPU 数据传输瓶颈
独立运行支持 standalone inference不依赖 GPU 即可执行推理和编排
配对运行与 Rubin GPU 协同完整的训练+推理+Agent 编排方案

关键洞察:Vera 可以独立运行做 inference 和 orchestration——这意味着对于不需要 GPU 加速的 Agent 任务(工具调用编排、逻辑判断、API 路由),可以单独部署 Vera CPU,大幅降低成本。

$1 万亿订单:数字背后的信号

订单规模对比

黄仁勋在 GTC 2026 上披露,Blackwell 和 Vera Rubin 芯片截至 2027 年的采购订单已达 $1 万亿。作为参照:

  • 2024 年全球 AI 芯片市场规模约 $500 亿
  • $1 万亿相当于全球 AI 芯片市场 20 倍的年规模
  • 这不是”试用”,而是企业对 AI 基础设施的确定性押注

订单结构的变化

时期主要购买方购买目的
2023-2024科技巨头(Meta、Google、Microsoft)训练自有大模型
2025云厂商(AWS、Azure、GCP)提供 AI 云服务
2026全行业(金融、医疗、制造、零售)推理+Agent 部署

转变:AI 芯片的购买方从”几家科技巨头”扩散到”全行业”,用途从”训练”转向”推理和 Agent 部署”。这是 AI 基础设施投资大众化的标志。

格局判断

对 AI 服务器架构的影响

NVIDIA 和 AMD 正在重新评估 AI 服务器的 CPU-GPU 配比。分析师认为,随着 Agentic AI 需求增长,未来的 AI 服务器可能会采用更高的 CPU 配置比例(如 2:4 甚至 4:4),甚至出现纯 CPU Agent 服务器(用 Vera 做轻量 Agent 编排)。

对开发者的意义

  1. 本地 Agent 部署成本下降:Vera 可以独立运行 inference,意味着不需要 GPU 就能部署轻量 Agent
  2. Agent 编排层专业化:专用 CPU 的出现意味着 Agent 编排将不再是”附带动作”,而是一个独立的硬件优化领域
  3. 混合部署成为常态:GPU 做重推理 + CPU 做轻编排的混合架构将成为 Agent 部署的标准模式

行动建议

基础设施规划

  • 评估当前 CPU-GPU 配比:如果你的 Agent 工作负载出现 CPU 瓶颈(工具调用延迟高、调度排队),考虑增加 CPU 配置
  • 关注 Vera CPU 的独立部署能力:对于不需要 GPU 的 Agent 任务(API 编排、规则判断、轻量推理),Vera 可能是比 GPU 更经济的选择
  • 规划混合架构:GPU 负责模型推理,CPU 负责 Agent 编排的分离式架构将成为主流

开发者准备

  • 优化工具调用效率:减少不必要的工具调用次数,降低 CPU 编排压力
  • Agent 逻辑轻量化:将可以在 CPU 上完成的逻辑判断与需要 GPU 的模型推理分离
  • 关注 NVIDIA 物理 AI 开源栈:NVIDIA 同时开源了整个 Physical AI 技术栈,机器人和具身智能领域的开发者应优先克隆仓库

风险提示

  • $1 万亿是”采购订单”而非”已交付”,实际出货和部署节奏存在不确定性
  • Vera CPU 的具体定价和供货时间尚未完全披露,开发者需持续关注
  • 如果 AMD 或其他厂商推出竞争性的 Agent 专用 CPU,市场格局可能快速变化