結論
DeepSeek V4は現時点で最先端に最も近いオープンソースモデル。コーディングと推論ベンチマークでGPT-5.4 / Opus 4.5+レベルに0.2点以内で迫りながら、API価格は1/7〜1/9。定位は明確:SOTAを争うのではなく、最低コストで「十分」な最先端能力を提供。
予算に限りのあるチームのプロトタイプ検証やバッチ推論に最適。極限性能が求められる场景には不向き——GPT-5.5やOpus 4.7との間には約4〜5ヶ月の技術格差がある。
テスト次元
アーキテクチャと規模
MoEアーキテクチャ、総パラメータ1.6兆、コンテキスト100万トークン、50以上の言語に対応。華為昇騰チップでほぼ完全に訓練された初の大规模モデル。
DeepSeek V4 Proはエージェントコーディング能力をさらに強化、中国国内評価で70.98点を記録。
ベンチマーク
| ベンチマーク | DeepSeek V4 | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|---|
| SWE-bench Pro | ~58% | 58.6% | 64.3% |
| Terminal-Bench 2.0 | ~75% | 82.7% | ~70% |
| AIME 2025 | ~90% | ~95% | ~93% |
実際のコスト
API価格 $3.48/MTok(出力)、Opus 4.7の$25、GPT-5.5の$30と比較して7〜9倍の差。AA Index完遂コストは$1,071。
おすすめ
中国チーム: 第一候補。中国語に強く、デプロイが柔軟、超低コスト。
コスト重視バッチタスク: 最適解。
極限性能が必要な場合: まだ不向き。