Отчёт CAISI: DeepSeek V4Pro по бенчмаркам не уступает, но на 8 месяцев отстаёт от фронтальных моделей США на практике

CAISI (официальное агентство оценки и стандартов AI США) опубликовало отчёт с прямолинейным выводом: DeepSeek V4Pro эквивалентен GPT-5, выпущенному в августе прошлого года, отставание от фронтальных моделей США — около 8 месяцев.

Параметры не хуже. Бенчмарки не хуже. Тогда откуда разрыв?

Ответ отчёта ясен: практика.

Разрыв между бенчмарками и реальностью

Логика CAISI несложна. Бенчмарки стандартизированы — вопросы и критерии оценки публичны. Результаты DeepSeek V4Pro на MMLU, GSM8K и SWE-bench действительно могут конкурировать с GPT-5.

Но бенчмарки — это не реальная практика. Реальные сценарии имеют измерения, которые бенчмарк-тесты не фиксируют:

Стабильность вызовов инструментов. В реальных агентных воркфлоу модели нужно последовательно вызывать несколько API, обрабатывать ошибки, повторять и откатываться. Бенчмарки обычно тестируют точность однораундовых вызовов, а не стабильность длинных цепочек.

Использование контекста. Дать модели контекстное окно 128K и заставить её эффективно извлекать ключевую информацию в пределах 128K — это разные вещи. CAISI обнаружила, что в реальных задачах обработки документов эффективность извлечения информации из длинного контекста у DeepSeek V4Pro ниже, чем у同期的 GPT-5.

Консистентность многораундовых диалогов. В сложных диалогах на 20+ раундов DeepSeek V4Pro более склонен к противоречиям или забыванию ранней информации.

Эти разрывы не видны в бенчмарках, но очевидны при реальном использовании.

Откуда взялась цифра «8 месяцев»

CAISI не предоставила точную формулу. Но из описания следует, что метод сопоставления проецирует способности DeepSeek V4Pro на таймлайн американских моделей — то есть текущие综合能力 DeepSeek V4Pro примерно соответствуют уровню GPT-5 на момент его выпуска в августе 2025.

У этого сопоставления несколько предположений:

Способности американских моделей прогрессируют предсказуемыми темпами
Между бенчмарками и практическими способностями существует стабильное отображение
8-месячный разрыв — это разрыв综合能力, а не одного бенчмарка

Эти предположения спорны. Но как фреймворк оценки государственного агентства, он по крайней мере предоставляет обсуждаемый базис.

Справедлива ли эта оценка

Честно говоря, есть и biased части, и разумные части.

Разумная часть: практический разрыв действительно существует. Преимущество DeepSeek — в основном стоимость — цены API в разы ниже американских моделей. Но если фактическая применимость хуже, дешевизна не так значима.

Biased часть: фреймворк оценки CAISI естественно склоняется к экосистеме американских моделей. Дизайн оценочных задач, определения интерфейсов вызова инструментов, даже стиль промптов — всё основано на конвенциях взаимодействия американских моделей. Другой фреймворк оценки мог бы дать другие результаты.

Кроме того, «8 месяцев» — это мгновенный снимок. DeepSeek итерирует быстро — если V4Pro продолжит оптимизировать вызовы инструментов и длинный контекст в ближайшие месяцы, этот разрыв может сокращаться.

Реакция сообщества

Реакция китайского сообщества разделилась. Одни считают вывод CAISI объективным — бенчмарки действительно не представляют всё, и практические разрывы нужно признать. Другие считают это «американские институты оценивают американские модели», с ограниченной достоверностью.

Англоязычное сообщество в целом считает, что отчёт подтверждает их интуицию: DeepSeek имеет высокое соотношение цена/качество, но ещё нужно догонять по стабильности в продакшн-среде.

Моё мнение

Самая большая ценность этого отчёта — не цифра «8 месяцев», а то, что он указывает на проблему, которую многие упускают: разрыв между бенчмарками и реальным использованием расширяется.

По мере усложнения агентных воркфлоу отдельные бенчмарк-скоры объясняют всё меньше. Модели должны одновременно проходить по вызовам инструментов, длинному контексту, многораундовой консистентности, восстановлению после ошибок и другим измерениям, чтобы быть действительно применимыми в продакшне.

Если DeepSeek хочет конкурировать с фронтальными моделями США в продакшн-среде, его следующая цель оптимизации — не бенчмарки, а эти «бенчмарки не измеряют, но пользователи чувствуют» способности.

Основные источники:

Разрыв между бенчмарками и реальностью

Откуда взялась цифра «8 месяцев»

Справедлива ли эта оценка

Реакция сообщества

Моё мнение

Похожие материалы

MiniMax M2.7: фреймворк самоэволюции агентов запущен с серьёзным улучшением офисных сценариев

Google DeepMind выпускает AI Co-Mathematician: мультиагентная система решает задачи математических исследований

OpenAI тихо опубликовала официальный CLI: один вызов GPT-5.5 из командной строки