寒武纪 Q1 营收暴涨 150%:美国出口管制正在帮中国芯片厂清场

寒武纪 Q1 营收暴涨 150%:美国出口管制正在帮中国芯片厂清场

核心判断

两个看似独立的事件正在讲述同一个故事:

  1. DeepSeek V4 在 4 月 24 日发布,宣布全面基于华为昇腾芯片训练和部署——不依赖任何英伟达 GPU
  2. 寒武纪 Q1 营收同比增长超 150%,中国 CSP(云服务提供商)已从测试阶段转向全面部署

美国出口管制的效果正在适得其反:它没有阻止中国 AI 的发展,反而为中国芯片厂商制造了一个受保护的垄断市场

发生了什么

事件一:DeepSeek V4 × 昇腾 950

DeepSeek V4 系列(1.6T 参数的 V4-Pro 和 284B 参数的 V4-Flash)从训练阶段就基于华为昇腾 950 芯片。这是第一款从源头设计就适配国产芯片的前沿大模型。

关键数据:

  • 昇腾 950 的 FP4 算力是英伟达 H20 的 2.87 倍
  • 首 token 延迟低至 20ms
  • 华为数小时内宣布昇腾超节点全系列完整适配

事件二:寒武纪业绩爆发

根据最新财报数据,寒武纪 Q1 营收同比增长超过 150%。增长驱动力不是政府补贴,而是商业订单——中国云服务商正在从测试阶段转向大规模部署。

事件三:vLLM 0.20.0 的 MegaMoE 优化

4 月 29 日,vLLM 项目发布 0.20.0 版本,引入 MegaMoE 优化。配合 DeepSeek V4 Pro 的 MoE 架构,在 GB200 上实现了显著的性能提升。这意味着 DeepSeek V4 在英伟达和华为双平台上都能高效运行

数据:国产芯片的竞争力正在量化

芯片FP4 算力对比生态成熟度代表客户
华为昇腾 950H20 的 2.87 倍高(CANN + MindSpore)DeepSeek、科大讯飞
寒武纪 MLUH20 的 ~1.5 倍中(Neuware)多家 CSP
英伟达 H20(中国特供版)基准最高(CUDA)受限
英伟达 H100/B200远超最高禁售

注意一个关键细节:英伟达的 H100/B200 对中国禁售,H20 是性能大幅降级的特供版。这意味着中国公司即使想买最好的英伟达芯片也买不到——这不是”选择国产”,而是”被迫国产”。

为什么这是转折点

过去两年,中国 AI 芯片面临的质疑是:“能用,但不好用”。DeepSeek V4 在昇腾上的表现正在打破这个叙事:

从”能用”到”好用”的三个标志

  1. 原生训练:不是先训练再迁移,而是从训练第一天就运行在昇腾上
  2. 性能超越:FP4 算力超过英伟达 H20,而 H20 本身就是降级版——这意味着在可用芯片范围内,国产芯片已经不是”备选”
  3. 生态完善:vLLM、MegaMoE 等开源推理框架的快速适配,降低了部署门槛

美国出口管制的”反效果”

这本质上是一个经典的进口替代故事,但加速了 10 倍:

正常路径:国产芯片追赶 → 10-15年 → 逐步替代
当前路径:进口被封死 → 市场强制开放 → 国产芯片获得真实客户反馈 → 2-3年快速迭代

寒武纪 150% 的营收增长不是来自政府订单,而是来自商业客户的主动采购。这意味着国产芯片已经跨过了”能用”的门槛,进入了”好用且划算”的阶段。

行业影响

对模型厂商

  • 算力成本可控:不再受制于英伟达的定价和供应
  • 技术主权:训练基础设施不再依赖外部供应链
  • 合规风险降低:使用国产芯片不涉及美国出口管制合规问题

对芯片厂商

  • 市场需求确定:中国 AI 公司的算力需求是真实的、持续的
  • 反馈循环加速:大规模部署带来真实场景反馈,驱动芯片迭代
  • 资本信心提升:寒武纪的业绩为整个赛道提供了估值锚

对全球格局

  • 双轨化加速:全球 AI 基础设施正在分裂为”英伟达生态”和”国产生态”两条轨道
  • 第三方市场争夺:东南亚、中东、拉美等市场将成为两条生态的竞争焦点

风险提示

  • 性能差距仍在:昇腾 950 对标的是降级的 H20,而非 H100/B200。在绝对算力上仍有差距
  • 生态壁垒:CUDA 的全球开发者生态短期内无法复制
  • 供应链风险:国产芯片制造本身也依赖外部设备(光刻机等)

行动建议

  • 在中国运营的 AI 公司:重新评估算力策略,昇腾+寒武纪已经是可以信赖的替代方案
  • 芯片投资者:寒武纪的业绩增长是一个行业信号——整个国产 AI 芯片赛道都在加速
  • 海外开发者:关注 vLLM + MegaMoE 对 MoE 模型的推理优化,这是跨平台部署的关键