核心结论
最新一期 State of AI 月度报告(2026 年 5 月)给出了一个让硅谷工程师坐不住的数据:DeepSeek V4 和 Kimi K2.6 在 SWE-Bench Pro 上的表现已与 GPT-5.5 和 Claude Opus 4.7 拉平,但每百万 Token 的 API 成本仅为对方的约三分之一。
这不再是一个”性价比”的故事——而是一个”性能对等但价格碾压”的信号。
数据对比
| 模型 | SWE-Bench Pro | 输入价格 ($/M tokens) | 输出价格 ($/M tokens) | 架构 |
|---|---|---|---|---|
| GPT-5.5 | 67.2% | $10.00 | $40.00 | Dense MoE |
| Claude Opus 4.7 | 66.8% | $15.00 | $75.00 | Dense MoE |
| DeepSeek V4 | 67.0% | $2.50 | $8.00 | MoE (激活 32B) |
| Kimi K2.6 | 66.5% | $3.00 | $10.00 | MoE (激活 32B, 总 1T) |
关键细节:
- SWE-Bench Pro 是目前最严格的编码基准,覆盖跨语言、跨仓库的真实 issue 修复任务
- DeepSeek V4 和 Kimi K2.6 均采用 MoE(混合专家)架构,实际推理时每 Token 仅激活约 320 亿参数,远低于模型总参数量
- 价格数据基于各模型官方 API 定价(2026 年 5 月)
为什么这个信号比评测分数更重要
过去两年,AI 圈的讨论一直围绕”谁更聪明”。这份报告暗示了一个更底层的趋势:智能正在从稀缺资源变为基础设施。
几个交叉验证的信号:
- 前沿模型的网络攻击能力每 4 个月翻倍(UK AISI 数据),说明模型能力迭代速度远超价格调整速度
- 中国实验室在 SWE-Bench Multilingual 上同样领先,Kimi K2.6 在多语言编码任务上表现优于 Claude Sonnet 4.6
- 开源权重模型正在缩小与闭源模型的差距——Kimi K2.6 的权重已公开,DeepSeek V4 的权重也已开源
格局判断
这个趋势对三类人有不同的含义:
| 角色 | 信号 | 行动建议 |
|---|---|---|
| 独立开发者 | 编码 Agent 的成本门槛已降至 $5/月 | 在 VPS 上部署 Ollama + Hermes Agent,用本地模型跑编码任务 |
| 企业 CTO | 中国开源模型的性能/成本比已无法忽视 | 在内部工具链中引入 DeepSeek/Kimi 作为 GPT-5.5 的 fallback |
| 模型厂商 | 闭源溢价窗口正在收窄 | 必须在 Agent 工作流、多模态、企业安全等维度建立新护城河 |
需要注意的不确定性
- SWE-Bench Pro 虽然严格,但仍然是基准测试。真实项目中的表现可能因代码库复杂度、上下文长度需求等因素有所不同
- 中国模型的生态工具链(IDE 集成、MCP 服务器、插件)仍在追赶阶段
- 美国对华 AI 出口管制可能影响模型的全球可及性
一句话总结:当 DeepSeek V4 和 Kimi K2.6 在编码能力上与 GPT-5.5 打平,价格却只有三分之一时,“选哪个模型”这个问题正在从”谁更聪明”变成”谁更划算”。