核心结论
AI 基础设施的竞争焦点正在发生根本性转移:从 GPU 计算核心数量转向 HBM(高带宽内存)容量和带宽。这一判断基于两个关键信号:
- 武汉 2600 亿存储扩产:长江存储三期 + 武汉新芯扩产计划落地,主攻 3D NAND 和 DRAM,预计 2026 年底量产,2027 年目标月产能 5 万片
- Token 经济学第一性原理:GPU 架构进化路线推导显示,每个 GPU 的 HBM 需求必然呈指数增长,且这一趋势不会停滞
为什么 HBM 是新的瓶颈
在 AI 推理和训练中,GPU 的算力早已不是限制因素。真正的瓶颈是 数据从内存到计算单元的移动速度。
用第一性原理推导:
Token 吞吐量 = HBM 容量 × HBM 带宽 / 模型参数量
当模型参数量持续增大(从 7B 到 70B 到万亿参数),而推理延迟要求不断降低时,HBM 的容量和带宽成为决定 Token 生成速度的核心变量。
HBM 需求为何不会停滞
| 驱动因素 | 说明 | 影响 |
|---|---|---|
| 模型规模增长 | 前沿模型参数持续增长 | 单 GPU 需要更多 HBM 容量 |
| 上下文长度扩展 | 1M token 上下文成为标配 | KV Cache 占用大量 HBM |
| 多模态输入 | 图像/视频/音频同时处理 | 中间激活值暴增 |
| Agent 工作流 | 多轮工具调用保持状态 | 推理过程中 HBM 占用持续累积 |
每个 GPU 的 HBM 需求指数增长不是推测,而是 GPU 架构进化的 数学必然。这也是为什么 SK 海力士、三星和美光的 HBM 产线成为 2026 年半导体行业最抢手的产能。
武汉扩产的战略意义
长江存储三期厂房已进入设备调试阶段,加上武汉新芯的 DRAM 扩产,武汉正在成为中国存储半导体的双核心。虽然目前 3D NAND 和 DRAM 与 HBM 在技术路线上有差异,但这一产能布局为中国在 HBM 领域的自主化奠定了基础。
时间线:
- 2026 年底:长江存储三期投入量产
- 2027 年:月产能 5 万片
- 中长期:从 3D NAND 向 HBM 技术迁移
投资与行动建议
对芯片行业
- HBM 供应链是比 GPU 芯片更确定的增长赛道——所有 GPU 厂商都需要 HBM,但 HBM 产能集中在 3 家企业
- 中国存储扩产是国产替代的关键一步,但 HBM 技术差距仍有 2-3 年
对 AI 应用开发者
- 选择模型时关注 HBM 需求:大模型不一定更好,如果推理时 HBM 不足导致频繁 swapping,实际吞吐量可能不如小模型
- 1M 上下文的真实成本:长上下文不仅消耗更多 token,还需要更多 HBM 来维护 KV Cache——这是 API 定价中没有显式体现的隐性成本
对投资者
- 存储半导体扩产是 AI 基础设施投资的 “第二波”——第一波是 GPU,第二波是 HBM 和存储
- 关注 SK 海力士、三星、美光的 HBM 产能扩张计划,以及中国存储厂商的技术追赶进度
AI 行业的瓶颈正在转移。理解这一转移的方向,比追逐最新的模型发布更重要。