AMD Advancing AI 2026 定档 7/23，SemiAnalysis 实测 DeepSeek V4 各芯片吞吐量差 40 倍

两个重要信号

本周 AI 硬件领域出现了两个紧密相关的事件：

AMD 宣布 Advancing AI 2026 大会将于 7 月 23 日在旧金山举行，Lisa Su 表示「我们可能处于 AI 技术 10 年周期的第二年」
SemiAnalysis 发布 DeepSeek V4 Pro 实测数据：不同 GPU 的推理吞吐量差异达到 40 倍以上

这两个信号放在一起看，揭示了一个正在发生的趋势：AI 算力竞赛正在从「有没有」转向「好不好用」。

DeepSeek V4 Pro 各芯片实测数据

SemiAnalysis 在相同交互性（interactivity）条件下测试了 DeepSeek V4 Pro 在不同 GPU 上的表现：

GPU 架构	型号	吞吐量 (tok/s/GPU)	相对性能	适用场景
Blackwell	B300	8,075	1.0x	大规模生产部署
AMD CDNA4	MI355X	6.99	0.02x	推理部署（性价比路线）
Hopper	H200	186	0.023x	已有集群继续用

关键发现

Blackwell B300 的优势不只是数字上的。8,075 tok/s/GPU 意味着：

单卡即可服务数千并发用户
交互延迟极低，适合实时应用
总体拥有成本（TCO）在大规模部署中显著优于其他方案

AMD MI355X 的定位需要重新审视。6.99 tok/s/GPU 的吞吐量在相同交互性条件下与 Blackwell 差距巨大。这意味着：

AMD 的策略可能不是拼绝对性能，而是拼单位算力成本
MI355X 更适合对延迟不敏感的批处理场景
需要在 Advancing AI 2026 大会上看到 MI400 的表现才能判断 AMD 能否缩小差距

H200 仍然有用武之地。186 tok/s/GPU 虽然远低于 B300，但对于已有 H200 集群的企业来说，继续运行比立即迁移更经济。

AMD Advancing AI 2026 前瞻

已知信息

时间：2026 年 7 月 23 日
地点：旧金山
预期发布：MI400 系列芯片（代号可能为「Instinct MI400」）
CEO 表态：Lisa Su 称「我们可能处于 AI 技术 10 年周期的第二年」

市场格局

厂商	当前旗舰	下一代	软件生态	市场份额趋势
NVIDIA	B200/GB200	B300/Rubin	CUDA 护城河	⬆️
AMD	MI300X/MI355X	MI400?	ROCm 追赶中	➡️
Intel	Gaudi 3	Falcon Shores	oneAPI	➡️
华为	昇腾 910C	昇腾 910D	CANN	⬆️ (中国)

AMD 面临的核心挑战

软件生态差距：CUDA 的成熟度短期内难以被 ROCm 超越
性能差距：MI355X 在 DeepSeek V4 实测中的表现与 B300 差距明显
市场信心：Northland 近期将 AMD 下调至 Market Perform，目标价 $260

对开发者的影响

算力采购决策

如果追求极致性能：Blackwell B300 是目前的最优解，但价格和供应是门槛
如果追求性价比：AMD MI355X 在批处理场景仍有成本优势，但需要接受较低的吞吐
如果已有 H200：继续用，等下一代架构再评估

模型部署策略

DeepSeek V4 的 MoE 架构（推理时仅激活 370 亿参数）实际上降低了对单卡算力的要求：

小批量推理：H200 完全够用
大批量服务：需要 B300 级别的吞吐
本地部署：AMD Ryzen AI Max 395（128GB 统一内存，6 月发布）可运行 200B MoE 模型

消费级 AI PC 的新选项

AMD Dev Day 上公布的 Ryzen AI Max 395 SFF PC 值得注意：

128GB 统一内存
可运行 200B MoE 模型
6 月发布
如果价格合理，将成为 AI 开发者的入门级本地推理设备

投资与市场判断

短期（3-6 个月）

NVIDIA Blackwell 的领先地位在短期内不会被撼动
AMD 需要 MI400 在 7 月大会上给出足够震撼的性能数据才能扭转市场信心
DeepSeek 等开源/低价模型的流行可能加速推理侧的硬件多元化

中长期（6-18 个月）

AI 算力市场将从「NVIDIA 一家独大」走向「多家竞争」
中国自研芯片（昇腾系列）在中国市场的份额将继续扩大
消费级 AI PC 可能成为新的算力入口

对创业公司的建议

不要只绑定一家硬件供应商：随着模型架构的多样化（MoE、量化、蒸馏），不同硬件的适用场景会分化
关注推理成本而非训练成本：对于大多数应用，推理阶段的算力消耗远大于训练
考虑模型-硬件协同优化：针对特定硬件优化的模型部署可能比「通用最优模型」更有性价比

AMD Advancing AI 2026 大会将是下半年算力格局的重要风向标。7 月 23 日之前，市场可能保持观望；之后，新的算力竞争格局将更加清晰。