DeepSeek V4 Pro сравнялся с GPT-5.2 на FoodTruck Bench: разрыв между США и Китаем сократился до 10 недель

Ключевой сигнал

DeepSeek V4 Pro сравнялся с производительностью GPT-5.2 в агентной оценке FoodTruck Bench. Это первая китайская модель, вошедшая во фронтальный уровень (frontier tier) в данной системе оценки.

Самое важное — эффективность по стоимости: DeepSeek V4 Pro обходится примерно в 8 раз дешевле GPT-5.2 — а при пересчёте на эквивалентное качество вывода разница в стоимости достигает 17 раз.

Что такое FoodTruck Bench

FoodTruck Bench — это бенчмарк оценки агентных способностей, измеряющий способность модели автономно планировать, вызывать инструменты, выполнять многошаговые рассуждения и решать задачи в реальных сценариях. В отличие от традиционных статических оценок вопросов и ответов, он требует, чтобы модель выполняла сквозные рабочие процессы как настоящий «цифровой сотрудник».

Команда оценки заявила в официальном анонсе:

“DeepSeek V4 Pro just matched GPT-5.2 on FoodTruck Bench, our agentic benchmark — 10 weeks later, ~8× cheaper. First Chinese model in our frontier tier.”

За этим заявлением скрываются три уровня информации, которые стоит разобрать:

Первый уровень: равенство возможностей. DeepSeek V4 Pro демонстрирует производительность на уровне GPT-5.2 в агентных задачах. Учитывая, что GPT-5.2 является одной из сильнейших универсальных моделей OpenAI на сегодняшний день, это веха с символическим значением.

Второй уровень: временной разрыв. “10 weeks later” — evaluators намеренно подчеркнули разницу во времени. Ранее разрыв между американскими и китайскими фронтальными моделями оценивался примерно в один год. Теперь он сократился до менее чем трёх месяцев.

Третий уровень: преимущество в стоимости. Разница в цене в 8 раз означает, что если предприятия заменят GPT-5.2 на DeepSeek V4 Pro для тех же агентных рабочих нагрузок, годовые расходы на API могут снизиться с уровня миллионов долларов до уровня сотен тысяч.

Независимая проверка

Эта новость была перекрёстно подтверждена несколькими источниками:

Анализ Caisi Evaluations указывает, что хотя общие способности DeepSeek V4 отстают от американских фронтальных моделей примерно на 8 месяцев, версия V4 Pro — благодаря оптимизированным путям рассуждений и стратегиям вызова инструментов — догнала их в агентных задачах.
Несколько независимых разработчиков поделились своим опытом использования DeepSeek V4 Pro на X: “Now, a week in… it’s seamless man.” Переход от начального периода адаптации к плавному ежедневному использованию означает, что DeepSeek V4 Pro уже может заменить определённые сценарии GPT в реальных рабочих процессах.
Примечательно, что интеграция DeepSeek V4 Pro с Claude Code также завершена — переключение требует всего трёх переменных окружения, что даёт разработчикам альтернативу типа «подключи и работай».

Практическое значение для разработчиков

Окно для принятия решений о стоимости: Если вы выполняете высокочастотные агентные рабочие нагрузки (сбор данных, генерация кода, автоматизированные отчёты), сейчас самое время пересмотреть выбор модели. Производительность DeepSeek V4 Pro в агентных задачах больше не требует «компромиссов» — это полноценная альтернатива.

Мультимодельная стратегия: Риск зависимости от одной модели становится всё более очевидным в 2026 году. Рациональный подход — создать матрицу моделей: GPT-5.2 для ключевых задач, требующих максимальной надёжности, DeepSeek V4 Pro для объёмных, чувствительных к стоимости агентных циклов, а семейство Claude 4 — для сценариев, требующих детального рассуждения.

Дивиденды экосистемы открытого кода: Серия моделей DeepSeek всегда придерживалась традиции открытого исходного кода. Хотя V4 Pro в настоящее время доступен преимущественно через API, прозрачность её технологической дорожной карты означает, что инструменты адаптации сообщества будут появляться быстро. Открытые проекты, такие как deepclaude, уже доказали это.

На что обратить внимание дальше

Включит ли FoodTruck Bench сравнение большего числа китайских корпоративных моделей (Qwen, Kimi, GLM) в следующий раунд оценки
Снизится ли цена API DeepSeek V4 Pro ещё больше благодаря эффекту масштаба
Реакция OpenAI на ценообразование GPT-5.2

Соревнование между американскими и китайскими фронтальными моделями смещается от нарратива «разрыва в возможностях» к «гонке за соотношение цены и качества». Производительность DeepSeek V4 Pro на FoodTruck Bench — это сигнал: китайские модели больше не просто «дешёвые альтернативы» — они начинают становиться «лучшим выбором» в определённых аспектах.

Ключевой сигнал

Что такое FoodTruck Bench

Независимая проверка

Практическое значение для разработчиков

На что обратить внимание дальше

Похожие материалы

Гибридный решатель Qwen 3.6: Двухмозговое рассуждение с моделью 4B + моделью 35B

ЛеКун ставит на JEPA: Триллионы пошли не туда? Мировые модели против LLM — последний спор о маршруте

Ловушка самокоррекции Qwen3.6: почему чем больше «думает», тем хуже результат