小米MiMo-V2.5-ProがGDPval-AAベンチマークで首位、中国オープンソースモデルの勢力図が再編

核心結論

GDPval-AA最新の実世界エージェントワークロードベンチマーク結果が発表され、小米MiMo-V2.5-Proが1578点で1位を獲得し、DeepSeekの評価連覇に終止符を打った。中国トップ5のオープンソースモデルのスコア差は94点以内に縮まり、競争構造は「一強時代」から「群雄割拠」へと移行している。

モデル	GDPval-AAスコア	ランク	リリース日
小米MiMo-V2.5-Pro	1578	1	2026.05
DeepSeek V4 Pro	1554	2	2026.04
GLM 5.1	1535	3	2026.04
MiniMax M2.7	1514	4	2026.04
Kimi K2.6	1484	5	2026.04

何が起こったのか

GDPval-AAは実世界のエージェント能力に焦点を当てたベンチマークだ。従来の知識クイズや択一テストとは異なり、実践的なタスクにおける計画立案、ツール呼び出し、多段階推論の能力を評価する。

MiMo-V2.5-Proのトップ獲得には、いくつかの重要なシグナルがある：

第一に、スマートフォンメーカーが基盤モデル戦線に参入した。 小米のAI分野での存在感は、これまでエンドユーザー向けアプリ（スマホAIアシスタント、IoTデバイス）が中心で、MiMoシリーズは自社エコシステムの配套モデルとしての役割が主だった。V2.5-Proがオープンソースベンチマークの上位に食い込んだことは、スマホメーカーが「AIアプリ層」から「基盤モデル層」へ浸透しつつあることを意味する。

第二に、5強のスコア差はわずか94点。 最高点1578点と5位1484点の差はわずか6%。つまり、この評価軸において中国のトップオープンソースモデルは**「絶対的王者不在」の競争フェーズ**に入った。ユーザーの選択はベンチマークスコアだけで決まるものではなくなり、API価格、コンテキストウィンドウ、推論速度など総合的な要因で判断されるようになった。

ベンチマーク横断比較：異なる次元、異なる勝者

GDPval-AAは評価パズルの一部に過ぎない。複数の独立ベンチマークを総合すると、5強モデルはそれぞれ得意分野が異なる：

モデル	GDPval-AA	SWE-bench	コード能力	中国語能力	優勢シーン
MiMo-V2.5-Pro	1578	中	中上	中	エージェントワークフロー
DeepSeek V4 Pro	1554	高	高	高	全シーンバランス型
GLM 5.1	1535	高	高	高	ツール呼び出し+中国語
MiniMax M2.7	1514	中	中	中	マルチモーダル
Kimi K2.6	1484	极高	极高	高	コード生成

Kimi K2.6はGDPval-AAで最下位だが、SWE-bench（ソフトウェアエンジニアリングベンチマーク）では突出している――これは異なるベンチマークが異なる能力次元を反映しており、モデル選定は単一のスコアではなく具体的なシーンに応じて行う必要があることを示している。

勢力図の判断

**2026年5月は中国オープンソースモデルの「スーパーリリース月」**だ。上記5モデルに加え、MiniMax M3も控えている。このタイミングでの集中リリースは偶然ではない――各社はGoogle I/O（5月中旬）とAnthropic開発者会議（5月6日）の前に製品のポジショニングを完了しようとしている。

開発者とエンタープライズユーザーにとって、現在は**「選択困難だが最高の評価ウィンドウ」**である：

最も強力なエージェントワークフロー能力が必要 → MiMo-V2.5-Proが現状の首选
コード+中国語+ツールの総合バランスが必要 → DeepSeek V4 ProまたはGLM 5.1
ソフトウェアエンジニアリングシーンに焦点 → Kimi K2.6がSWE-benchで依然最強
マルチモーダル能力が必要 → MiniMax M2.7のテスト価値あり

アクションアイテム

単一のベンチマークに依存しない：GDPval-AAはエージェント能力、SWE-benchはコード、LMArenaはユーザー体感に焦点。実際の使用シーンに合ったベンチマークを参照すること。
自分でベンチマークを実行する：各モデルは特定の分野でベンチマークがカバーしていない優位性を持つ可能性がある。自身のタスクセットでA/Bテストを行うこと。
API価格戦争に注目する：モデル能力が接近した後、価格が主要な差別化要因になる。DeepSeekはすでにAPI値下げを開始しており、他社の追随が予想される。

核心結論

何が起こったのか

ベンチマーク横断比較：異なる次元、異なる勝者

勢力図の判断

アクションアイテム

関連コンテンツ

GPT-6が安全アライメント段階に突入：5-6兆パラメータ、数学推論92.5%、コード合格率96.8%

MiniMax M3が今月リリース予定：办公シーンに狙いを定め、agentic能力を大幅アップグレード

GLM-5.1が0G Private Computerに上陸：754B MoEモデルをTEE内で実行することの意味