C
ChaoBro

State of AI Май 2026: DeepSeek V4 и Kimi K2.6 сравнялись с Claude/GPT-5.5 на SWE-Bench Pro при стоимости в треть

State of AI Май 2026: DeepSeek V4 и Kimi K2.6 сравнялись с Claude/GPT-5.5 на SWE-Bench Pro при стоимости в треть

Ключевые выводы

Нарратив о том, что «китайский ИИ отстаёт на два года», больше не выдерживает проверки данными мая 2026 года.

Отчёт State of AI May 2026 раскрыл набор данных, который заставил замолчать западные технологические круги:

DeepSeek V4 и Kimi K2.6 сравнялись с Claude Opus 4.7 и GPT-5.5 на SWE-Bench Pro. А стоимость их вывода составляет лишь треть.

Сравнение данных

Модель SWE-Bench Pro FrontierSWE Стоимость вывода (отн.)
Claude Opus 4.7 ~58 ~38 1.0x (базовая)
GPT-5.5 ~58 ~40 1.0x
DeepSeek V4 ~57 ~28 0.33x
Kimi K2.6 ~56 ~25 0.30x
Gemini 3.1 ~57 ~35 0.70x

Ключевые инсайты:

  • SWE-Bench Pro больше не является дифференциатором. Китайские модели с открытым кодом догнали, а в некоторых случаях даже слегка превзошли отдельные передовые модели США на этом бенчмарке
  • FrontierSWE — новый водораздел. Этот бенчмарк измеряет многошаговые инженерные задачи в реальном мире. Здесь Claude и GPT-5.5 всё ещё опережают китайские модели на 10–15 процентных пунктов
  • Преимущество в стоимости носит структурный характер. DeepSeek V4 использует архитектуру MoE (смесь экспертов) с меньшим количеством активных параметров, обеспечивая значительно более высокую эффективность вывода по сравнению с плотными моделями

Кибератакующие способности: удвоение каждые 4 месяца

Ещё одна тревожная линия отчёта:

Способности передовых моделей к кибератакам удваиваются каждые 4 месяца.

И Claude Mythos Preview от Anthropic, и GPT-5.5 от OpenAI прошли полную 32-шаговую симуляцию захвата корпоративной сети Великобритании AISI (без защиты). Это означает:

  • Передовой ИИ может завершить полную цепочку атаки от начального проникновения до повышения привилегий домена без вмешательства человека
  • Рост этой способности опережает итерации защитных инструментов и обучения безопасности

Оценка ландшафта

Точки прорыва китайских моделей

Результаты DeepSeek V4 и Kimi K2.6 на SWE-Bench Pro — не случайность. Их философия дизайна отличается от Claude/GPT:

  1. Масштабная дистилляция + открытые веса: Быстрое продвижение на бенчмарках за счёт дистилляции знаний из более сильных моделей
  2. Преимущество MoE в стоимости: Могут обрабатывать больше токенов при том же бюджете, дружелюбнее к разработчикам
  3. Быстрая итерация: DeepSeek уже выпустил несколько быстрых обновлений версий в 2026 году

Ров моделей США

Разрыв на FrontierSWE раскрывает критическую истину: способности к краткосрочному кодированию сошлись; реальная конкуренция — в долгосрочных инженерных задачах.

Claude Opus 4.7 и GPT-5.5 сохраняют явное преимущество в:

  • Понимании архитектуры между модулями
  • Планировании задач на десятки шагов
  • Восстановлении после ошибок и самоотладке

Рекомендации к действию

Ваш сценарий Рекомендуемое решение
Ежедневное кодирование / быстрое прототипирование DeepSeek V4 (лицензия MIT, крайне низкая стоимость, первоклассная производительность на SWE-Bench Pro)
Сложный рефакторинг систем Claude Opus 4.7 / GPT-5.5 (лидеры FrontierSWE, более надёжны для долгосрочных задач)
Пакетные задачи с ограничением по стоимости Kimi K2.6 (стоимость 0.3x, SWE-Bench Pro на уровне)
Оценка безопасности предприятия Немедленно начните аудит поверхности атак ИИ; кибератакующие способности растут экспоненциально

Нарратив об «отставании» нуждается в обновлении. Реальная конкуренция перешла от «кто может пройти бенчмарк-тесты» к «кто может справляться с долгосрочными инженерными задачами в реальном мире».