State of AI Май 2026: DeepSeek V4 и Kimi K2.6 сравнялись с Claude/GPT-5.5 на SWE-Bench Pro при стоимости в треть

Ключевые выводы

Нарратив о том, что «китайский ИИ отстаёт на два года», больше не выдерживает проверки данными мая 2026 года.

Отчёт State of AI May 2026 раскрыл набор данных, который заставил замолчать западные технологические круги:

DeepSeek V4 и Kimi K2.6 сравнялись с Claude Opus 4.7 и GPT-5.5 на SWE-Bench Pro. А стоимость их вывода составляет лишь треть.

Сравнение данных

Модель	SWE-Bench Pro	FrontierSWE	Стоимость вывода (отн.)
Claude Opus 4.7	~58	~38	1.0x (базовая)
GPT-5.5	~58	~40	1.0x
DeepSeek V4	~57	~28	0.33x
Kimi K2.6	~56	~25	0.30x
Gemini 3.1	~57	~35	0.70x

Ключевые инсайты:

SWE-Bench Pro больше не является дифференциатором. Китайские модели с открытым кодом догнали, а в некоторых случаях даже слегка превзошли отдельные передовые модели США на этом бенчмарке
FrontierSWE — новый водораздел. Этот бенчмарк измеряет многошаговые инженерные задачи в реальном мире. Здесь Claude и GPT-5.5 всё ещё опережают китайские модели на 10–15 процентных пунктов
Преимущество в стоимости носит структурный характер. DeepSeek V4 использует архитектуру MoE (смесь экспертов) с меньшим количеством активных параметров, обеспечивая значительно более высокую эффективность вывода по сравнению с плотными моделями

Кибератакующие способности: удвоение каждые 4 месяца

Ещё одна тревожная линия отчёта:

Способности передовых моделей к кибератакам удваиваются каждые 4 месяца.

И Claude Mythos Preview от Anthropic, и GPT-5.5 от OpenAI прошли полную 32-шаговую симуляцию захвата корпоративной сети Великобритании AISI (без защиты). Это означает:

Передовой ИИ может завершить полную цепочку атаки от начального проникновения до повышения привилегий домена без вмешательства человека
Рост этой способности опережает итерации защитных инструментов и обучения безопасности

Оценка ландшафта

Точки прорыва китайских моделей

Результаты DeepSeek V4 и Kimi K2.6 на SWE-Bench Pro — не случайность. Их философия дизайна отличается от Claude/GPT:

Масштабная дистилляция + открытые веса: Быстрое продвижение на бенчмарках за счёт дистилляции знаний из более сильных моделей
Преимущество MoE в стоимости: Могут обрабатывать больше токенов при том же бюджете, дружелюбнее к разработчикам
Быстрая итерация: DeepSeek уже выпустил несколько быстрых обновлений версий в 2026 году

Ров моделей США

Разрыв на FrontierSWE раскрывает критическую истину: способности к краткосрочному кодированию сошлись; реальная конкуренция — в долгосрочных инженерных задачах.

Claude Opus 4.7 и GPT-5.5 сохраняют явное преимущество в:

Понимании архитектуры между модулями
Планировании задач на десятки шагов
Восстановлении после ошибок и самоотладке

Рекомендации к действию

Ваш сценарий	Рекомендуемое решение
Ежедневное кодирование / быстрое прототипирование	DeepSeek V4 (лицензия MIT, крайне низкая стоимость, первоклассная производительность на SWE-Bench Pro)
Сложный рефакторинг систем	Claude Opus 4.7 / GPT-5.5 (лидеры FrontierSWE, более надёжны для долгосрочных задач)
Пакетные задачи с ограничением по стоимости	Kimi K2.6 (стоимость 0.3x, SWE-Bench Pro на уровне)
Оценка безопасности предприятия	Немедленно начните аудит поверхности атак ИИ; кибератакующие способности растут экспоненциально

Нарратив об «отставании» нуждается в обновлении. Реальная конкуренция перешла от «кто может пройти бенчмарк-тесты» к «кто может справляться с долгосрочными инженерными задачами в реальном мире».

Ключевые выводы

Сравнение данных

Кибератакующие способности: удвоение каждые 4 месяца

Оценка ландшафта

Точки прорыва китайских моделей

Ров моделей США

Рекомендации к действию

Похожие материалы

GPT-6 входит в фазу выравнивания безопасности: 5-6 триллионов параметров, математическое рассуждение 92,5%,通过率 кода 96,8%

MiniMax M3 выходит в этом месяце: нацелен на офисные сценарии с масштабным обновлением агентных способностей

GLM-5.1 выходит на 0G Private Computer: что значит запуск 754B MoE-модели внутри TEE