核心結論
2026年4月、オープンソースモデルに歴史的ブレイクスルー:Moonshot AI の Kimi K2.6 が LiveBench で Claude Opus 4.7 を超越しました。
LiveBench はテスト問題を継続的に更新することで知られており、モデルが訓練データの暗記で虚高なスコアを獲得するのを防ぎます。
データ比較
| 次元 | Kimi K2.6 | Claude Opus 4.7 | 差 |
|---|---|---|---|
| LiveBench | 勝利 | ベースライン | K2.6 リード |
| SWE-Bench | ~80% | 87.6% | 約 7.6pp 差 |
| 入力価格 | $0.80-0.95 | $5.00 | K2.6 は 5-6 倍安い |
| 出力価格 | $3.60-4.00 | $25.00 | K2.6 は 6-7 倍安い |
アクション推奨
- 予算重視チーム:Kimi K2.6 は現在最もコストパフォーマンスの高い旗艦級オープンモデルです
- コーディングシナリオ:SWE-Bench が核心指標なら Claude Opus 4.7 がまだリードしていますが、差は縮まっています