核心的結論
GLM-5.1、DeepSeek V4 Pro、Kimi K2.6がすべて基本的なAgentニーズを満たせる時代、推論サービスの選択がコストと体験を決定する重要な変数となった。
ある開発者が3つのモデルを公式API、ベンダーサブスクリプション、Ollama Cloudで実測した結果、予想外の結論が出た:ヘビーAgentユーザーにとって、智譜Coding Plan Max($80/月)は月8億tokenを維持できる一方、DeepSeek V4 Proの従量課金総額は約$28にすぎない。
二つの典型的シナリオ
| シナリオ | 月間token量 | 典型的ユーザー |
|---|---|---|
| 軽量利用 | 1-2億token | 個人開発者、日常コーディング補助 |
| ヘビーAgent | 5-10億token | エンタープライズAgentクラスター、CI/CD統合 |
GLM-5.1:サブスクリプションのコスパ王者
智譜の価格戦略はアグレッシブだ——Coding Plan Maxは月$80で呼び出し回数無制限。ヘビーAgentユーザーにとって、これは100万tokenあたりのコストが$0.01以下を意味し、従量課金の競合を大幅に下回る。
- 公式API従量課金:約$1-2/百万token、使用量が不安定なシナリオに適する
- Coding Plan Max:月$80固定、8億tokenのヘビーAgentを支えられる
- Ollamaローカルデプロイ:2×A100 80GBが必要、ハードルは高いがAPI費用ゼロ
プライバシー面では、サブスクリプションとAPIはどちらもデータを智譜サーバーに送信する必要がある。ローカルデプロイならデータは完全に社内ネットワーク内に留まる。
DeepSeek V4 Pro:従量課金の絶対最安値
DeepSeek V4 Proの価格戦略はシンプルかつ大胆——サブスクリプションなし、直接最安値の従量課金。
- 公式API:約$3.50/百万token、8億tokenで約$28
- サブスクリプションなし:現在月額プランは提供されていない
- ローカルデプロイ:モデル体积が巨大(兆級MoE)、フル性能には8×H100が必要
DeepSeekの優位性は絶対的な単価の低さ。デメリットはヘビーユーザーに予算上限の保護がないこと——使用量が2倍になれば費用も2倍になる。またローカルデプロイのハードルが極めて高く、中小チームの自ホストを事実上排除している。
Kimi K2.6:長文脈シナリオで代替不可
Kimi K2.6のコア競争力は価格ではなく、超長文脈にある——公式に百万級tokenのコンテキストウィンドウをサポートし、法律文書分析、コードリポジトリ全量理解などのシナリオでほぼ代替不可能。
- 公式API:価格はGLMとDeepSeekの間
- 長文脈特化:一部シナリオで追加最適化
- 現在オープンソース化されていない:ローカルデプロイ不可、公式APIのみ利用可能
速度比較
実測では、3つのモデルの初回token遅延(TTFT)の差は大きくない:
| モデル | TTFT(中央値) | 生成速度 |
|---|---|---|
| GLM-5.1 | 200-400ms | 80-120 tok/s |
| DeepSeek V4 Pro | 300-500ms | 60-100 tok/s |
| Kimi K2.6 | 250-450ms | 70-110 tok/s |
実際のAgentシナリオでは、ボトルネックは通常モデル推論自体ではなくツール呼び出しパイプラインにある。
意思決定マトリックス
| あなたの状況 | 推奨方案 |
|---|---|
| ヘビーAgentユーザー、予測可能なコストを求める | GLM-5.1 Coding Plan Max |
| 使用量の変動が大きい、絶対最安値を求める | DeepSeek V4 Pro 従量課金 |
| 超長文脈処理が必要 | Kimi K2.6 |
| データをローカルに留める必要がある | GLM-5.1 ローカルデプロイ(GPU必要) |
| 予算は限られるがインフラ管理はしたくない | DeepSeek V4 Pro API |
一つのトレンド
2026年のモデル推論市場は分化しつつある:ベース層の従量課金価格競争(DeepSeekが底値を引き下げる)とアプリケーション層のサブスクリプションバンドル(智譜が$80/月でヘビーユーザーをロックイン)が同時に進行している。
開発者にとって、良い知らせは選択肢が増えていること。悪い知らせは選択が複雑になっていること——もはやモデルを選ぶだけでなく、推論サービスのビジネスモデルも選ぶ必要がある。