核心结论
AI 芯片市场正在经历结构性转变:从训练时代的 NVIDIA 一家独大,到推理时代的多芯片竞争。NVIDIA Vera Rubin 架构承诺 35 倍推理吞吐提升,但 AMD、Groq、Cerebras 等竞争对手正在各个细分市场蚕食份额。超算巨头每年 $600B+ 的 AI Capex,正在从”买 GPU 做训练”转向”买推理芯片做服务”。
NVIDIA Rubin:35x 推理跃迁的技术细节
NVIDIA 于 2026 年 4 月底披露了下一代推理架构的关键信息:
| 指标 | Hopper (H200) | Blackwell (B200) | Vera Rubin (GB300) |
|---|---|---|---|
| 推理吞吐 | 基准 | ~5x | ~35x |
| 能效比 | 基准 | ~3x | ~10x |
| 内存带宽 | 3.35 TB/s | 8 TB/s | 12+ TB/s |
| 出货时间 | 2024 Q1 | 2025 Q2 | 2026 Q3(提前) |
| 主要场景 | 训练+推理 | 训练为主 | 推理优化 |
关键信息:Rubin 比原计划提前出货,表明 NVIDIA 已经感受到来自 AMD 和定制 ASIC 的竞争压力。
超算 Capex:$600B 正在流向哪里
根据分析师最新预测(2026 年 4 月 29 日),超大规模云厂商的 AI Capex 趋势如下:
| 年份 | Amazon | Microsoft | Meta | 合计 | |
|---|---|---|---|---|---|
| 2024 | $52B | $75B | $48B | $38B | ~$213B |
| 2025 | $75B | $100B | $65B | $55B | ~$295B |
| 2026E | $90B+ | $130B+ | $80B+ | $65B+ | $365B+ |
| 未来 4-5 年年均 | $600B+ |
Capex 的结构性转变:
- 从训练到推理:2025 年训练占 AI Capex 60%,2026 年推理占比预计超过 50%
- 从通用到专用:定制推理芯片(ASIC)采购比例上升
- 从 GPU 到多元:AMD MI 系列、Groq LPU、Cerebras Wafer-Scale 获得更多订单
AMD 的推理反击战
AMD 正在从”训练追随者”转变为”推理领导者”:
AMD Halo Box:边缘推理新物种
- 硬件:Ryzen AI MAX+ 395(16 Zen 5 核心 + 40 RDNA 3.5 CU + XDNA 2 NPU)
- 内存:128GB 统一内存
- 定位:个人/边缘 AI 推理设备
- 出货:2026 年 6 月
- 价格:预计 $1,500-$2,000
AMD MI 系列:数据中心推理
- 超大规模云厂商确认加大 AMD MI350/MI400 采购
- 推理场景下 MI350 性价比优于 NVIDIA H200
- 预计 2026 年 AMD 数据中心 GPU 收入增长 80%+
推理芯片竞争格局
| 玩家 | 方案 | 优势场景 | 市场份额趋势 |
|---|---|---|---|
| NVIDIA | Vera Rubin / GB300 | 高性能推理 | 主导但份额下降 |
| AMD | MI350 / Halo Box | 性价比 + 边缘 | 快速上升 |
| Groq | LPU | 超低延迟推理 | 利基增长 |
| Cerebras | Wafer-Scale | 大模型推理 | 利基 |
| TPU v5p/v6 | 内部使用 | 稳定 | |
| Amazon | Trainium/Inferentia | AWS 内部 | 增长 |
| 华为 | Ascend 910C | 中国市场 | 快速增长 |
投资逻辑
利好方向
- AI 半导体全栈:不仅是 GPU,还包括 EDA 软件、定制 ASIC、先进封装、光互联、HBM 内存
- 边缘推理:AMD Halo Box 代表了个人 AI 推理的新赛道
- 推理优化软件:vLLM、TensorRT-LLM 等推理框架将随硬件增长
风险提示
- NVIDIA 估值已反映大部分增长预期
- 推理芯片竞争加剧可能导致价格战
- 模型压缩技术进步可能降低推理硬件需求
行动建议
对于技术决策者:
- 2026 H2 的推理硬件采购应多供应商评估,不再默认 NVIDIA
- 评估 AMD Halo Box 用于边缘推理场景的可行性
- 关注推理优化软件栈的成熟度
对于投资者:
- AI 半导体不再是”买 NVIDIA 就行”,需要关注全栈机会
- 边缘推理、HBM 内存、先进封装是确定性增长方向
- 关注 AMD 在数据中心和边缘两个市场的增长兑现
对于开发者:
- 学习多平台推理部署(NVIDIA + AMD + 其他)
- 关注推理优化技术(量化、KV Cache 优化、投机解码)
- 边缘推理场景的落地机会增多