DeepSeek 把 API 缓存价格打到 1/10：V4 系列全线降价，百万 Token 长文本真正可用

核心结论

DeepSeek 在 4 月 26 日同步推出两项定价调整：V4 全系列 API 缓存命中价格永久降至 1/10，以及V4-Pro 限时 75 折（至 5 月 5 日）。叠加后 V4-Pro 缓存命中价格仅约 $0.0036/M token，相当于 GPT-5.5 的 1/139、Claude Sonnet 4.6 的 1/83。这不是简单的促销，而是对长上下文场景成本结构的系统性重构。

数据对比

模型	缓存命中价格	相比 DeepSeek V4-Pro	备注
DeepSeek V4-Pro（折后）	~$0.0036/M	基准	缓存 1/10 + 75 折叠加
GPT-5.5	~$0.50/M	139x 更贵	OpenAI 官方定价
Claude Sonnet 4.6	~$0.30/M	83x 更贵	Anthropic 官方定价
DeepSeek V4-Pro（原价）	~$0.014/M	3.9x	仅缓存 1/10，不含折扣

关键变化：缓存命中从”省钱选项”变成”绝对成本优势”。对于需要反复调用相同上下文（RAG、多轮 Agent 对话、代码库分析）的场景，成本差异从百分比级变为数量级。

发生了什么

缓存命中降价至 1/10

DeepSeek 官方于 4 月 26 日宣布，V4 全系列模型的 input cache hit 价格永久下调至原来的 1/10。这不是限时优惠，而是永久定价调整。

V4-Pro 75 折同步进行

在缓存降价基础上，V4-Pro 模型同时享受 75 折优惠（截至 5 月 5 日）。两项叠加后，缓存命中场景下的实际成本被压缩到极低水平。

国家超算互联网限时免费

国家超算互联网平台同步宣布限时免费体验 DeepSeek V4，进一步降低了开发者的试用门槛。第三方聚合平台 ZenMux 也跟进限时免费测试。

为什么重要

百万 Token 长文本从”能用”到”敢用”

过去，百万 Token 上下文在商业 API 中的成本高到令人犹豫。以 1M token 为例：

GPT-5.5：约 $500
Claude Sonnet 4.6：约 $300
DeepSeek V4-Pro（折后缓存命中）：约 $3.6

差距从”贵几倍”变成了”贵两个数量级”。这意味着以前因为成本而放弃的长文本场景（全代码库分析、完整法律文档处理、超长会议记录摘要）现在变得经济可行。

Agent 场景的连锁反应

Agentic AI 的核心痛点之一是上下文重复消耗。一个 Agent 工作流可能在多步操作中反复读取相同的系统提示、工具定义和上下文文档。缓存命中降价直接击中了这个痛点：

工具调用循环：Agent 每一步都需要重新读取工具定义，缓存命中让这些重复 token 几乎免费
多 Agent 协作：多个 Agent 共享相同的知识库上下文时，缓存复用的成本收益呈倍数放大
RAG 管线：检索后的文档片段在多轮对话中反复出现，缓存命中率越高，成本越低

价格战进入深水区

DeepSeek 此次调整的信号很明确：用极致性价比抢占开发者生态。当缓存命中价格低至 $0.0036/M token 时，其他厂商要么跟进降价，要么在性价比叙事中失去话语权。这预示着 2026 年 AI API 市场的竞争将从”模型能力”维度扩展到”使用成本”维度。

格局判断

维度	DeepSeek	其他厂商
缓存命中价格	行业最低	普遍高 50-140x
长文本定价策略	激进降价	保守调整
免费试用覆盖	超算平台+第三方聚合	各自独立
生态影响	开发者迁移意愿强	留存压力增大

趋势：DeepSeek 正在用”成本碾压”策略争夺中长上下文场景的默认选择权。如果其他厂商不跟进，开发者在预算敏感场景中会自然流向 DeepSeek。

行动建议

立即可以做的

切换缓存命中场景到 DeepSeek V4-Pro：如果你的应用有大量重复上下文（RAG、Agent 工具调用），立即测试迁移。叠加折扣期间成本优势最大
优化缓存命中率：确保系统提示、工具定义等固定部分稳定不变，最大化缓存命中比例。目标命中率 > 80%
利用免费期做压力测试：通过国家超算互联网或 ZenMux 的限时免费额度，对 V4 进行大规模测试，评估模型质量是否满足需求

需要持续关注的

5 月 5 日后 V4-Pro 折扣是否延续：75 折为限时优惠，到期后成本将回升约 4 倍（但仍显著低于竞品）
竞品跟进速度：观察 OpenAI、Anthropic 是否对缓存定价做出回应
缓存机制的可靠性：DeepSeek 缓存一致性和命中率在不同场景下的实际表现需要验证

风险提示

DeepSeek 美股发布后反应平淡，国内用户增长不及预期，降价可能是对用户增长乏力的应对
极端低价可能意味着服务质量或可用性的妥协，生产环境需充分测试
缓存命中依赖于请求的一致性，动态变化的上下文场景无法享受全部成本优势