寒武纪 Q1 营收暴涨 150%：美国出口管制正在帮中国芯片厂清场

核心判断

两个看似独立的事件正在讲述同一个故事：

DeepSeek V4 在 4 月 24 日发布，宣布全面基于华为昇腾芯片训练和部署——不依赖任何英伟达 GPU
寒武纪 Q1 营收同比增长超 150%，中国 CSP（云服务提供商）已从测试阶段转向全面部署

美国出口管制的效果正在适得其反：它没有阻止中国 AI 的发展，反而为中国芯片厂商制造了一个受保护的垄断市场。

发生了什么

事件一：DeepSeek V4 × 昇腾 950

DeepSeek V4 系列（1.6T 参数的 V4-Pro 和 284B 参数的 V4-Flash）从训练阶段就基于华为昇腾 950 芯片。这是第一款从源头设计就适配国产芯片的前沿大模型。

关键数据：

昇腾 950 的 FP4 算力是英伟达 H20 的 2.87 倍
首 token 延迟低至 20ms
华为数小时内宣布昇腾超节点全系列完整适配

事件二：寒武纪业绩爆发

根据最新财报数据，寒武纪 Q1 营收同比增长超过 150%。增长驱动力不是政府补贴，而是商业订单——中国云服务商正在从测试阶段转向大规模部署。

事件三：vLLM 0.20.0 的 MegaMoE 优化

4 月 29 日，vLLM 项目发布 0.20.0 版本，引入 MegaMoE 优化。配合 DeepSeek V4 Pro 的 MoE 架构，在 GB200 上实现了显著的性能提升。这意味着 DeepSeek V4 在英伟达和华为双平台上都能高效运行。

数据：国产芯片的竞争力正在量化

芯片	FP4 算力对比	生态成熟度	代表客户
华为昇腾 950	H20 的 2.87 倍	高（CANN + MindSpore）	DeepSeek、科大讯飞
寒武纪 MLU	H20 的 ~1.5 倍	中（Neuware）	多家 CSP
英伟达 H20（中国特供版）	基准	最高（CUDA）	受限
英伟达 H100/B200	远超	最高	禁售

注意一个关键细节：英伟达的 H100/B200 对中国禁售，H20 是性能大幅降级的特供版。这意味着中国公司即使想买最好的英伟达芯片也买不到——这不是”选择国产”，而是”被迫国产”。

为什么这是转折点

过去两年，中国 AI 芯片面临的质疑是：“能用，但不好用”。DeepSeek V4 在昇腾上的表现正在打破这个叙事：

从”能用”到”好用”的三个标志：

原生训练：不是先训练再迁移，而是从训练第一天就运行在昇腾上
性能超越：FP4 算力超过英伟达 H20，而 H20 本身就是降级版——这意味着在可用芯片范围内，国产芯片已经不是”备选”
生态完善：vLLM、MegaMoE 等开源推理框架的快速适配，降低了部署门槛

美国出口管制的”反效果”

这本质上是一个经典的进口替代故事，但加速了 10 倍：

正常路径：国产芯片追赶 → 10-15年 → 逐步替代
当前路径：进口被封死 → 市场强制开放 → 国产芯片获得真实客户反馈 → 2-3年快速迭代

寒武纪 150% 的营收增长不是来自政府订单，而是来自商业客户的主动采购。这意味着国产芯片已经跨过了”能用”的门槛，进入了”好用且划算”的阶段。

行业影响

对模型厂商

算力成本可控：不再受制于英伟达的定价和供应
技术主权：训练基础设施不再依赖外部供应链
合规风险降低：使用国产芯片不涉及美国出口管制合规问题

对芯片厂商

市场需求确定：中国 AI 公司的算力需求是真实的、持续的
反馈循环加速：大规模部署带来真实场景反馈，驱动芯片迭代
资本信心提升：寒武纪的业绩为整个赛道提供了估值锚

对全球格局

双轨化加速：全球 AI 基础设施正在分裂为”英伟达生态”和”国产生态”两条轨道
第三方市场争夺：东南亚、中东、拉美等市场将成为两条生态的竞争焦点

风险提示

性能差距仍在：昇腾 950 对标的是降级的 H20，而非 H100/B200。在绝对算力上仍有差距
生态壁垒：CUDA 的全球开发者生态短期内无法复制
供应链风险：国产芯片制造本身也依赖外部设备（光刻机等）

行动建议

在中国运营的 AI 公司：重新评估算力策略，昇腾+寒武纪已经是可以信赖的替代方案
芯片投资者：寒武纪的业绩增长是一个行业信号——整个国产 AI 芯片赛道都在加速
海外开发者：关注 vLLM + MegaMoE 对 MoE 模型的推理优化，这是跨平台部署的关键