两个重要信号
本周 AI 硬件领域出现了两个紧密相关的事件:
- AMD 宣布 Advancing AI 2026 大会将于 7 月 23 日在旧金山举行,Lisa Su 表示「我们可能处于 AI 技术 10 年周期的第二年」
- SemiAnalysis 发布 DeepSeek V4 Pro 实测数据:不同 GPU 的推理吞吐量差异达到 40 倍以上
这两个信号放在一起看,揭示了一个正在发生的趋势:AI 算力竞赛正在从「有没有」转向「好不好用」。
DeepSeek V4 Pro 各芯片实测数据
SemiAnalysis 在相同交互性(interactivity)条件下测试了 DeepSeek V4 Pro 在不同 GPU 上的表现:
| GPU 架构 | 型号 | 吞吐量 (tok/s/GPU) | 相对性能 | 适用场景 |
|---|---|---|---|---|
| Blackwell | B300 | 8,075 | 1.0x | 大规模生产部署 |
| AMD CDNA4 | MI355X | 6.99 | 0.02x | 推理部署(性价比路线) |
| Hopper | H200 | 186 | 0.023x | 已有集群继续用 |
关键发现
Blackwell B300 的优势不只是数字上的。8,075 tok/s/GPU 意味着:
- 单卡即可服务数千并发用户
- 交互延迟极低,适合实时应用
- 总体拥有成本(TCO)在大规模部署中显著优于其他方案
AMD MI355X 的定位需要重新审视。6.99 tok/s/GPU 的吞吐量在相同交互性条件下与 Blackwell 差距巨大。这意味着:
- AMD 的策略可能不是拼绝对性能,而是拼单位算力成本
- MI355X 更适合对延迟不敏感的批处理场景
- 需要在 Advancing AI 2026 大会上看到 MI400 的表现才能判断 AMD 能否缩小差距
H200 仍然有用武之地。186 tok/s/GPU 虽然远低于 B300,但对于已有 H200 集群的企业来说,继续运行比立即迁移更经济。
AMD Advancing AI 2026 前瞻
已知信息
- 时间:2026 年 7 月 23 日
- 地点:旧金山
- 预期发布:MI400 系列芯片(代号可能为「Instinct MI400」)
- CEO 表态:Lisa Su 称「我们可能处于 AI 技术 10 年周期的第二年」
市场格局
| 厂商 | 当前旗舰 | 下一代 | 软件生态 | 市场份额趋势 |
|---|---|---|---|---|
| NVIDIA | B200/GB200 | B300/Rubin | CUDA 护城河 | ⬆️ |
| AMD | MI300X/MI355X | MI400? | ROCm 追赶中 | ➡️ |
| Intel | Gaudi 3 | Falcon Shores | oneAPI | ➡️ |
| 华为 | 昇腾 910C | 昇腾 910D | CANN | ⬆️ (中国) |
AMD 面临的核心挑战
- 软件生态差距:CUDA 的成熟度短期内难以被 ROCm 超越
- 性能差距:MI355X 在 DeepSeek V4 实测中的表现与 B300 差距明显
- 市场信心:Northland 近期将 AMD 下调至 Market Perform,目标价 $260
对开发者的影响
算力采购决策
- 如果追求极致性能:Blackwell B300 是目前的最优解,但价格和供应是门槛
- 如果追求性价比:AMD MI355X 在批处理场景仍有成本优势,但需要接受较低的吞吐
- 如果已有 H200:继续用,等下一代架构再评估
模型部署策略
DeepSeek V4 的 MoE 架构(推理时仅激活 370 亿参数)实际上降低了对单卡算力的要求:
- 小批量推理:H200 完全够用
- 大批量服务:需要 B300 级别的吞吐
- 本地部署:AMD Ryzen AI Max 395(128GB 统一内存,6 月发布)可运行 200B MoE 模型
消费级 AI PC 的新选项
AMD Dev Day 上公布的 Ryzen AI Max 395 SFF PC 值得注意:
- 128GB 统一内存
- 可运行 200B MoE 模型
- 6 月发布
- 如果价格合理,将成为 AI 开发者的入门级本地推理设备
投资与市场判断
短期(3-6 个月)
- NVIDIA Blackwell 的领先地位在短期内不会被撼动
- AMD 需要 MI400 在 7 月大会上给出足够震撼的性能数据才能扭转市场信心
- DeepSeek 等开源/低价模型的流行可能加速推理侧的硬件多元化
中长期(6-18 个月)
- AI 算力市场将从「NVIDIA 一家独大」走向「多家竞争」
- 中国自研芯片(昇腾系列)在中国市场的份额将继续扩大
- 消费级 AI PC 可能成为新的算力入口
对创业公司的建议
- 不要只绑定一家硬件供应商:随着模型架构的多样化(MoE、量化、蒸馏),不同硬件的适用场景会分化
- 关注推理成本而非训练成本:对于大多数应用,推理阶段的算力消耗远大于训练
- 考虑模型-硬件协同优化:针对特定硬件优化的模型部署可能比「通用最优模型」更有性价比
AMD Advancing AI 2026 大会将是下半年算力格局的重要风向标。7 月 23 日之前,市场可能保持观望;之后,新的算力竞争格局将更加清晰。