模型 API 的价格战打到了第二阶段——从拼基础推理单价,转向拼”实际账单”。
4 月 26 日,DeepSeek 官方宣布对其 API 全系列产品的输入缓存命中价格进行大幅下调:降至原价的 1/10。这次调整即时生效,覆盖 DeepSeek API 的全线产品。同时,此前公布的 DeepSeek-V4-Pro 75% 折扣活动持续有效,至 5 月 5 日结束。
这意味着什么?如果你的应用有大量重复的系统提示词或固定指令模板,缓存命中后的每次调用成本几乎可以忽略不计。
输入缓存是如何省钱的
DeepSeek 的输入缓存机制允许在相同输入前缀被重复调用时,直接命中缓存中的中间计算结果(KV Cache),跳过冗余的前向传播。此前缓存命中虽然比完整推理便宜,但仍占完整推理费用的相当比例。降到 1/10 之后,缓存命中的单价已经接近免费调用的量级。
几个关键数字:
- 缓存命中价格:原价的 1/10,覆盖全系列
- V4-Pro 折扣:75% OFF,截止 5 月 5 日
- 无需迁移:即时生效,现有调用自动享受新价格
价格战的第二阶段
AI 模型的 API 定价经历了两个阶段。
第一阶段是基础推理价格的快速下探——各家从 GPT-4 级别的 $30/MTok 一路打到 $1-3/MTok。DeepSeek V3 上市时就把价格拉到了一个让同行尴尬的位置。
第二阶段的战场转移到了”实际支出”。基础单价已经够低了,再降边际效应递减。于是厂商开始通过缓存命中、批量处理、上下文复用等技术手段,进一步压低开发者的真实账单。DeepSeek 的 1/10 缓存定价是这一趋势的一个标志性节点——它不是在卷模型能力,而是在卷开发者的使用成本。
对其他厂商来说,跟进的压力在增大。如果一个开发者每天调用 10 万次,其中 8 万次能命中缓存,在 DeepSeek 上的成本可能只有其他平台的几分之一。价格敏感型的 AI 应用——尤其是 Agent 系统中反复引用同一系统提示的场景——会自然流向成本更低的 API。
对你的应用意味着什么
如果你的应用存在以下模式,缓存降价的影响会特别明显:
- RAG 系统:知识库段落作为固定前缀反复出现在每次查询中
- Agent 多轮对话:系统提示词在每一轮对话中重复发送
- 批量处理:对大量相似结构的输入做同类型处理
这种情况下,建议检查 DeepSeek 后台的缓存命中率。命中率越高,节省越大。同时,V4-Pro 的 75% 折扣窗口仍在(至 5 月 5 日),适合在窗口期内完成高成本的开发和测试。
如果每次请求的 prompt 变化很大(比如用户自由输入为主),缓存命中率可能较低,降价对你的影响就有限。这种情况下,可以尝试在系统设计中有意识地复用固定前缀——比如把系统指令和工具定义放在输入的最前面,让后面的变量部分不影响缓存命中。