CAISI (официальное агентство оценки и стандартов AI США) опубликовало отчёт с прямолинейным выводом: DeepSeek V4Pro эквивалентен GPT-5, выпущенному в августе прошлого года, отставание от фронтальных моделей США — около 8 месяцев.
Параметры не хуже. Бенчмарки не хуже. Тогда откуда разрыв?
Ответ отчёта ясен: практика.
Разрыв между бенчмарками и реальностью
Логика CAISI несложна. Бенчмарки стандартизированы — вопросы и критерии оценки публичны. Результаты DeepSeek V4Pro на MMLU, GSM8K и SWE-bench действительно могут конкурировать с GPT-5.
Но бенчмарки — это не реальная практика. Реальные сценарии имеют измерения, которые бенчмарк-тесты не фиксируют:
Стабильность вызовов инструментов. В реальных агентных воркфлоу модели нужно последовательно вызывать несколько API, обрабатывать ошибки, повторять и откатываться. Бенчмарки обычно тестируют точность однораундовых вызовов, а не стабильность длинных цепочек.
Использование контекста. Дать модели контекстное окно 128K и заставить её эффективно извлекать ключевую информацию в пределах 128K — это разные вещи. CAISI обнаружила, что в реальных задачах обработки документов эффективность извлечения информации из длинного контекста у DeepSeek V4Pro ниже, чем у同期的 GPT-5.
Консистентность многораундовых диалогов. В сложных диалогах на 20+ раундов DeepSeek V4Pro более склонен к противоречиям или забыванию ранней информации.
Эти разрывы не видны в бенчмарках, но очевидны при реальном использовании.
Откуда взялась цифра «8 месяцев»
CAISI не предоставила точную формулу. Но из описания следует, что метод сопоставления проецирует способности DeepSeek V4Pro на таймлайн американских моделей — то есть текущие综合能力 DeepSeek V4Pro примерно соответствуют уровню GPT-5 на момент его выпуска в августе 2025.
У этого сопоставления несколько предположений:
- Способности американских моделей прогрессируют предсказуемыми темпами
- Между бенчмарками и практическими способностями существует стабильное отображение
- 8-месячный разрыв — это разрыв综合能力, а не одного бенчмарка
Эти предположения спорны. Но как фреймворк оценки государственного агентства, он по крайней мере предоставляет обсуждаемый базис.
Справедлива ли эта оценка
Честно говоря, есть и biased части, и разумные части.
Разумная часть: практический разрыв действительно существует. Преимущество DeepSeek — в основном стоимость — цены API в разы ниже американских моделей. Но если фактическая применимость хуже, дешевизна не так значима.
Biased часть: фреймворк оценки CAISI естественно склоняется к экосистеме американских моделей. Дизайн оценочных задач, определения интерфейсов вызова инструментов, даже стиль промптов — всё основано на конвенциях взаимодействия американских моделей. Другой фреймворк оценки мог бы дать другие результаты.
Кроме того, «8 месяцев» — это мгновенный снимок. DeepSeek итерирует быстро — если V4Pro продолжит оптимизировать вызовы инструментов и длинный контекст в ближайшие месяцы, этот разрыв может сокращаться.
Реакция сообщества
Реакция китайского сообщества разделилась. Одни считают вывод CAISI объективным — бенчмарки действительно не представляют всё, и практические разрывы нужно признать. Другие считают это «американские институты оценивают американские модели», с ограниченной достоверностью.
Англоязычное сообщество в целом считает, что отчёт подтверждает их интуицию: DeepSeek имеет высокое соотношение цена/качество, но ещё нужно догонять по стабильности в продакшн-среде.
Моё мнение
Самая большая ценность этого отчёта — не цифра «8 месяцев», а то, что он указывает на проблему, которую многие упускают: разрыв между бенчмарками и реальным использованием расширяется.
По мере усложнения агентных воркфлоу отдельные бенчмарк-скоры объясняют всё меньше. Модели должны одновременно проходить по вызовам инструментов, длинному контексту, многораундовой консистентности, восстановлению после ошибок и другим измерениям, чтобы быть действительно применимыми в продакшне.
Если DeepSeek хочет конкурировать с фронтальными моделями США в продакшн-среде, его следующая цель оптимизации — не бенчмарки, а эти «бенчмарки не измеряют, но пользователи чувствуют» способности.
Основные источники: