AIモデルAPIの価格競争は第二段階に入りました——基本推論単価の競争から、実際の月額請求額の競争へ。
4月26日、DeepSeekはAPI入力キャッシュヒット価格の大幅な引き下げを発表しました:全製品ラインで元の価格の1/10に。この変更は即時生效しています。同時に、DeepSeek-V4-Proの75%割引プロモーションも5月5日まで継続中です。
意味することはシンプルです:アプリケーションに繰り返し出現するシステムプロンプトや固定指示テンプレートがある場合、キャッシュヒット後の呼び出しコストはほぼ無視できるレベルになりました。
入力キャッシュはどう節約するか
DeepSeekの入力キャッシュメカニズムは、同じ入力プレフィックスが後続の呼び出しで出現した際、中間計算結果(KVキャッシュ)を再利用し、冗長なフォワードパスをスキップします。以前はキャッシュヒットは完全推論より安いものの、依然として意味のあるコストを占めていました。1/10にダウンした今、キャッシュヒットの単価はほぼ無料の呼び出しに近づいています。
- キャッシュヒット価格:元の価格の1/10、全シリーズをカバー
- V4-Pro割引:75% OFF、5月5日まで有効
- 移行不要:既存の呼び出しが自動的に新価格を享受
価格競争の第二段階
AIモデルAPIの価格は2つの波を経てきました。
第一波は基本推論価格の急速な下落——各ベンダーはGPT-4レベルの$30/MTokから$1-3/MTokまで引き下げました。DeepSeek V3の登場時、価格は競合を不快にする水準にまで押し下げられました。
第二波は「実際の支出」をターゲットにしています。基本単価はすでに十分に低く、さらなる削減の限界効果は減少しています。そこでベンダーはキャッシュヒット、バッチ処理、コンテキストの再利用に注目し、開発者の実際の請求額を押し下げ始めました。DeepSeekの1/10キャッシュ価格はこの第二阶段のランドマークです——モデル能力で競争するのではなく、開発者の使用コストで競争しています。
あなたのアプリケーションへの影響
以下のパターンがある場合、キャッシュ価格ダウンの影響は顕著です:
- RAGシステム:ナレッジベースセグメントが各クエリで固定プレフィックスとして出現
- Agentマルチターン会話:システムプロンプトがターンごとに再送信される
- バッチ処理:大量の類似構造入力が同様に処理される
このようなケースでは、DeepSeekダッシュボードでキャッシュヒット率を確認してください。ヒット率が高いほど、節約額は大きくなります。V4-Proの75%割引ウィンドウはまだ開いています(5月5日まで)——高コストの開発・テストを完了するのに適しています。