DeepSeek API 输入缓存命中价格降至 1/10：模型价格战进入新阶段

模型 API 的价格战打到了第二阶段——从拼基础推理单价，转向拼”实际账单”。

4 月 26 日，DeepSeek 官方宣布对其 API 全系列产品的输入缓存命中价格进行大幅下调：降至原价的 1/10。这次调整即时生效，覆盖 DeepSeek API 的全线产品。同时，此前公布的 DeepSeek-V4-Pro 75% 折扣活动持续有效，至 5 月 5 日结束。

这意味着什么？如果你的应用有大量重复的系统提示词或固定指令模板，缓存命中后的每次调用成本几乎可以忽略不计。

输入缓存是如何省钱的

DeepSeek 的输入缓存机制允许在相同输入前缀被重复调用时，直接命中缓存中的中间计算结果（KV Cache），跳过冗余的前向传播。此前缓存命中虽然比完整推理便宜，但仍占完整推理费用的相当比例。降到 1/10 之后，缓存命中的单价已经接近免费调用的量级。

几个关键数字：

AI 模型的 API 定价经历了两个阶段。

第一阶段是基础推理价格的快速下探——各家从 GPT-4 级别的 $30/MTok 一路打到 $1-3/MTok。DeepSeek V3 上市时就把价格拉到了一个让同行尴尬的位置。

第二阶段的战场转移到了”实际支出”。基础单价已经够低了，再降边际效应递减。于是厂商开始通过缓存命中、批量处理、上下文复用等技术手段，进一步压低开发者的真实账单。DeepSeek 的 1/10 缓存定价是这一趋势的一个标志性节点——它不是在卷模型能力，而是在卷开发者的使用成本。

对其他厂商来说，跟进的压力在增大。如果一个开发者每天调用 10 万次，其中 8 万次能命中缓存，在 DeepSeek 上的成本可能只有其他平台的几分之一。价格敏感型的 AI 应用——尤其是 Agent 系统中反复引用同一系统提示的场景——会自然流向成本更低的 API。

如果你的应用存在以下模式，缓存降价的影响会特别明显：

这种情况下，建议检查 DeepSeek 后台的缓存命中率。命中率越高，节省越大。同时，V4-Pro 的 75% 折扣窗口仍在（至 5 月 5 日），适合在窗口期内完成高成本的开发和测试。

如果每次请求的 prompt 变化很大（比如用户自由输入为主），缓存命中率可能较低，降价对你的影响就有限。这种情况下，可以尝试在系统设计中有意识地复用固定前缀——比如把系统指令和工具定义放在输入的最前面，让后面的变量部分不影响缓存命中。