DeepSeek 在 GPT-5.5 发布不到 48 小时后开源了 V4 模型。两个版本 DeepSeek-V4-Pro(1.6T 参数)和 DeepSeek-V4-Flash(284B 参数)均采用 MoE 架构,V4-Pro 每次推理仅激活 49B 参数,但总参数量达到了前沿模型的量级。Apache 2.0 协议意味着企业可以直接商用。
API 定价方面,DeepSeek V4 Pro 的输入价 $2.20/M、输出价 $3.48/M,约为 Claude Opus 4.7 的 1/7、GPT-5.5 的 1/9。更值得注意的是,这个价格已经包含了 V4 的全部能力——不需要额外购买”思考模式”或”高推理”变体。
性能定位
| 评测维度 | DeepSeek V4 Pro | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| 综合评分 | ~8.27 | 8.72 | 8.80+ |
| Codeforces | 新纪录 | - | - |
| Vibe Code Benchmark | #1 | - | - |
| 多语言工程任务通过率 | 67% | ~70% | - |
| 思考模式任务 | ~8.90 | - | - |
V4 在 Vibe Code Benchmark 上拿到了第一名,超过了闭源的 Gemini 3.1 Pro 和排名第二的 Kimi K2.6。在综合评测中,V4 Pro 的综合评分约 8.27,与 Claude Opus 4.7(8.72)处于同一梯队——差距不到 0.5 分,但价格便宜了 7 倍。
一个值得注意的细节是,社区实测发现 V4 的”思考模式”在某些推理任务上评分更高(~8.90),说明深度推理能力可能接近甚至在某些维度超过 Opus 4.7。但在长任务连续执行(8+ 步骤)和复杂指令遵循方面,社区反馈仍存在差距。
行业影响
DeepSeek V4 的出现可能标志着模型行业的”成本压力传导”正式开始。此前,开源模型主要在”便宜但差一截”的位置上竞争。V4 在多数基准测试上已经跨过了”可用”到”好用”的门槛,同时价格只有闭源模型的零头。
一位社区开发者的比喻很形象:“DeepSeek 的定价正在做 Costco 对企业软件利润率做过的事。“如果这个趋势持续,西方实验室需要解释 7-9 倍的价格差对应多少性能增量——在多数实际场景中,这个增量可能并不显著。
行动建议
- API 集成场景:V4 的价格足以让多数中小团队将 LLM 调用成本降到可忽略水平。建议优先试用 V4-Flash(284B 参数,速度更快)做日常任务,V4-Pro 处理复杂推理。
- 本地部署:Apache 2.0 开源意味着可以私有化部署,但 1.6T 参数的硬件需求仍然很高。Flash 版本(284B)在单张 A100 上可以运行。
- 长上下文场景:V4 支持 1M 上下文窗口,在文档分析和多文件代码理解场景值得测试。
- 观察点:DeepSeek 的延迟发布曾被报道与中国国产芯片生态的深度集成有关。如果 V4 在国产硬件上的推理效率确实有优势,这可能成为其长期竞争力。