C
ChaoBro

Xiaomi MiMo-V2.5-Pro возглавляет рейтинг GDPval-AA, ландшафт китайских open-source моделей меняется

Xiaomi MiMo-V2.5-Pro возглавляет рейтинг GDPval-AA, ландшафт китайских open-source моделей меняется

Главный вывод

Последние результаты бенчмарка GDPval-AA для реальных агентских задач опубликованы, и Xiaomi MiMo-V2.5-Pro занял первое место с результатом 1578 баллов, прервав серию побед DeepSeek в этой оценке. Разрыв между пятью ведущими китайскими open-source моделями сократился до 94 баллов, и конкурентный ландшафт смещается от «одного доминирующего игрока» к «множеству растущих конкурентов».

МодельБалл GDPval-AAРангДата выпуска
Xiaomi MiMo-V2.5-Pro157812026.05
DeepSeek V4 Pro155422026.04
GLM 5.1153532026.04
MiniMax M2.7151442026.04
Kimi K2.6148452026.04

Что произошло

GDPval-AA — это бенчмарк, ориентированный на реальные агентские способности. В отличие от традиционных тестов знаний или вопросов с выбором ответа, он оценивает способность модели к планированию, вызову инструментов и многошаговому рассуждению в практических задачах.

Возвышение MiMo-V2.5-Pro на вершину рейтинга посылает несколько ключевых сигналов:

Во-первых, производители смартфонов выходят на арену фундаментальных моделей. Присутствие Xiaomi в сфере ИИ до сих пор концентрировалось на приложениях для конечных пользователей (ИИ-ассистенты в телефонах, устройства IoT), а серия MiMo служила преимущественно вспомогательной моделью для собственной экосистемы. Выход V2.5-Pro в верхнюю эшелон open-source бенчмарков означает, что производители телефонов переходят от «слоя ИИ-приложений» к «слою фундаментальных моделей».

Во-вторых, разница между пятёркой лидеров составляет всего 94 балла. Разница между лучшим результатом 1578 и пятым местом 1484 — всего 6%. Это означает, что по этому измерению оценки ведущие китайские open-source модели вступили в конкурентную фазу «без абсолютного короля». Выбор пользователя больше не определяется исключительно баллами бенчмарка — цену API, размер контекстного окна и скорость инференса тоже необходимо учитывать.

Сравнение бенчмарков: разные измерения, разные победители

GDPval-AA — лишь одна часть оценочной мозаики. При рассмотрении нескольких независимых бенчмарков каждая из пяти ведущих моделей имеет свои сильные стороны:

МодельGDPval-AASWE-benchКодированиеКитайскийЛучший сценарий
MiMo-V2.5-Pro1578СреднийВыше среднегоСреднийАгентские воркфлоу
DeepSeek V4 Pro1554ВысокийВысокийВысокийУниверсальный баланс
GLM 5.11535ВысокийВысокийВысокийВызов инструментов + китайский
MiniMax M2.71514СреднийСреднийСреднийМультимодальность
Kimi K2.61484Очень высокийОчень высокийВысокийГенерация кода

Kimi K2.6 занимает последнее место в GDPval-AA, но выделяется в SWE-bench (бенчмарк программной инженерии) — это демонстрирует, что разные бенчмарки отражают разные измерения способностей, и выбор модели должен быть привязан к конкретному сценарию, а не к одному баллу.

Оценка ландшафта

Май 2026 года — это «супермесяц релизов» китайских open-source моделей. Помимо пяти упомянутых моделей, на подходе MiniMax M3. Этот тайминг не случаен — каждая лаборатория стремится занять свою позицию до Google I/O (середина мая) и конференции разработчиков Anthropic (6 мая).

Для разработчиков и корпоративных пользователей это одновременно период «избытка выбора» и лучшее окно для оценки:

  • Если вам нужны сильнейшие агентские воркфлоу → MiMo-V2.5-Pro — текущий выбор
  • Если нужен баланс кодирования + китайский + инструменты → DeepSeek V4 Pro или GLM 5.1
  • Если фокус на программной инженерии → Kimi K2.6 остаётся сильнейшей в SWE-bench
  • Если нужна мультимодальность → MiniMax M2.7 заслуживает тестирования

Практические рекомендации

  1. Не полагайтесь на один бенчмарк: GDPval-AA фокусируется на агентских способностях, SWE-bench — на кодировании, LMArena — на пользовательских ощущениях. Используйте бенчмарк, соответствующий вашему реальному сценарию.
  2. Запускайте собственные бенчмарки: Каждая модель может иметь неохваченные преимущества в специфических областях. Проводите A/B-тестирование с собственным набором задач.
  3. Следите за ценовой войной API: По мере сближения способностей моделей цена становится главным дифференциатором. DeepSeek уже начала снижение цен на API — от других ожидается то же самое.