核心結論
GDPval-AA最新の実世界エージェントワークロードベンチマーク結果が発表され、小米MiMo-V2.5-Proが1578点で1位を獲得し、DeepSeekの評価連覇に終止符を打った。中国トップ5のオープンソースモデルのスコア差は94点以内に縮まり、競争構造は「一強時代」から「群雄割拠」へと移行している。
| モデル | GDPval-AAスコア | ランク | リリース日 |
|---|---|---|---|
| 小米MiMo-V2.5-Pro | 1578 | 1 | 2026.05 |
| DeepSeek V4 Pro | 1554 | 2 | 2026.04 |
| GLM 5.1 | 1535 | 3 | 2026.04 |
| MiniMax M2.7 | 1514 | 4 | 2026.04 |
| Kimi K2.6 | 1484 | 5 | 2026.04 |
何が起こったのか
GDPval-AAは実世界のエージェント能力に焦点を当てたベンチマークだ。従来の知識クイズや択一テストとは異なり、実践的なタスクにおける計画立案、ツール呼び出し、多段階推論の能力を評価する。
MiMo-V2.5-Proのトップ獲得には、いくつかの重要なシグナルがある:
第一に、スマートフォンメーカーが基盤モデル戦線に参入した。 小米のAI分野での存在感は、これまでエンドユーザー向けアプリ(スマホAIアシスタント、IoTデバイス)が中心で、MiMoシリーズは自社エコシステムの配套モデルとしての役割が主だった。V2.5-Proがオープンソースベンチマークの上位に食い込んだことは、スマホメーカーが「AIアプリ層」から「基盤モデル層」へ浸透しつつあることを意味する。
第二に、5強のスコア差はわずか94点。 最高点1578点と5位1484点の差はわずか6%。つまり、この評価軸において中国のトップオープンソースモデルは**「絶対的王者不在」の競争フェーズ**に入った。ユーザーの選択はベンチマークスコアだけで決まるものではなくなり、API価格、コンテキストウィンドウ、推論速度など総合的な要因で判断されるようになった。
ベンチマーク横断比較:異なる次元、異なる勝者
GDPval-AAは評価パズルの一部に過ぎない。複数の独立ベンチマークを総合すると、5強モデルはそれぞれ得意分野が異なる:
| モデル | GDPval-AA | SWE-bench | コード能力 | 中国語能力 | 優勢シーン |
|---|---|---|---|---|---|
| MiMo-V2.5-Pro | 1578 | 中 | 中上 | 中 | エージェントワークフロー |
| DeepSeek V4 Pro | 1554 | 高 | 高 | 高 | 全シーンバランス型 |
| GLM 5.1 | 1535 | 高 | 高 | 高 | ツール呼び出し+中国語 |
| MiniMax M2.7 | 1514 | 中 | 中 | 中 | マルチモーダル |
| Kimi K2.6 | 1484 | 极高 | 极高 | 高 | コード生成 |
Kimi K2.6はGDPval-AAで最下位だが、SWE-bench(ソフトウェアエンジニアリングベンチマーク)では突出している――これは異なるベンチマークが異なる能力次元を反映しており、モデル選定は単一のスコアではなく具体的なシーンに応じて行う必要があることを示している。
勢力図の判断
**2026年5月は中国オープンソースモデルの「スーパーリリース月」**だ。上記5モデルに加え、MiniMax M3も控えている。このタイミングでの集中リリースは偶然ではない――各社はGoogle I/O(5月中旬)とAnthropic開発者会議(5月6日)の前に製品のポジショニングを完了しようとしている。
開発者とエンタープライズユーザーにとって、現在は**「選択困難だが最高の評価ウィンドウ」**である:
- 最も強力なエージェントワークフロー能力が必要 → MiMo-V2.5-Proが現状の首选
- コード+中国語+ツールの総合バランスが必要 → DeepSeek V4 ProまたはGLM 5.1
- ソフトウェアエンジニアリングシーンに焦点 → Kimi K2.6がSWE-benchで依然最強
- マルチモーダル能力が必要 → MiniMax M2.7のテスト価値あり
アクションアイテム
- 単一のベンチマークに依存しない:GDPval-AAはエージェント能力、SWE-benchはコード、LMArenaはユーザー体感に焦点。実際の使用シーンに合ったベンチマークを参照すること。
- 自分でベンチマークを実行する:各モデルは特定の分野でベンチマークがカバーしていない優位性を持つ可能性がある。自身のタスクセットでA/Bテストを行うこと。
- API価格戦争に注目する:モデル能力が接近した後、価格が主要な差別化要因になる。DeepSeekはすでにAPI値下げを開始しており、他社の追随が予想される。