C
ChaoBro

State of AI Май 2026: DeepSeek V4 и Kimi K2.6 сравнялись с Claude/GPT-5.5 на SWE-Bench Pro при стоимости в треть

State of AI Май 2026: DeepSeek V4 и Kimi K2.6 сравнялись с Claude/GPT-5.5 на SWE-Bench Pro при стоимости в треть

Ключевые выводы

Нарратив о том, что «китайский ИИ отстаёт на два года», больше не выдерживает проверки данными мая 2026 года.

Отчёт State of AI May 2026 раскрыл набор данных, который заставил замолчать западные технологические круги:

DeepSeek V4 и Kimi K2.6 сравнялись с Claude Opus 4.7 и GPT-5.5 на SWE-Bench Pro. А стоимость их вывода составляет лишь треть.

Сравнение данных

МодельSWE-Bench ProFrontierSWEСтоимость вывода (отн.)
Claude Opus 4.7~58~381.0x (базовая)
GPT-5.5~58~401.0x
DeepSeek V4~57~280.33x
Kimi K2.6~56~250.30x
Gemini 3.1~57~350.70x

Ключевые инсайты:

  • SWE-Bench Pro больше не является дифференциатором. Китайские модели с открытым кодом догнали, а в некоторых случаях даже слегка превзошли отдельные передовые модели США на этом бенчмарке
  • FrontierSWE — новый водораздел. Этот бенчмарк измеряет многошаговые инженерные задачи в реальном мире. Здесь Claude и GPT-5.5 всё ещё опережают китайские модели на 10–15 процентных пунктов
  • Преимущество в стоимости носит структурный характер. DeepSeek V4 использует архитектуру MoE (смесь экспертов) с меньшим количеством активных параметров, обеспечивая значительно более высокую эффективность вывода по сравнению с плотными моделями

Кибератакующие способности: удвоение каждые 4 месяца

Ещё одна тревожная линия отчёта:

Способности передовых моделей к кибератакам удваиваются каждые 4 месяца.

И Claude Mythos Preview от Anthropic, и GPT-5.5 от OpenAI прошли полную 32-шаговую симуляцию захвата корпоративной сети Великобритании AISI (без защиты). Это означает:

  • Передовой ИИ может завершить полную цепочку атаки от начального проникновения до повышения привилегий домена без вмешательства человека
  • Рост этой способности опережает итерации защитных инструментов и обучения безопасности

Оценка ландшафта

Точки прорыва китайских моделей

Результаты DeepSeek V4 и Kimi K2.6 на SWE-Bench Pro — не случайность. Их философия дизайна отличается от Claude/GPT:

  1. Масштабная дистилляция + открытые веса: Быстрое продвижение на бенчмарках за счёт дистилляции знаний из более сильных моделей
  2. Преимущество MoE в стоимости: Могут обрабатывать больше токенов при том же бюджете, дружелюбнее к разработчикам
  3. Быстрая итерация: DeepSeek уже выпустил несколько быстрых обновлений версий в 2026 году

Ров моделей США

Разрыв на FrontierSWE раскрывает критическую истину: способности к краткосрочному кодированию сошлись; реальная конкуренция — в долгосрочных инженерных задачах.

Claude Opus 4.7 и GPT-5.5 сохраняют явное преимущество в:

  • Понимании архитектуры между модулями
  • Планировании задач на десятки шагов
  • Восстановлении после ошибок и самоотладке

Рекомендации к действию

Ваш сценарийРекомендуемое решение
Ежедневное кодирование / быстрое прототипированиеDeepSeek V4 (лицензия MIT, крайне низкая стоимость, первоклассная производительность на SWE-Bench Pro)
Сложный рефакторинг системClaude Opus 4.7 / GPT-5.5 (лидеры FrontierSWE, более надёжны для долгосрочных задач)
Пакетные задачи с ограничением по стоимостиKimi K2.6 (стоимость 0.3x, SWE-Bench Pro на уровне)
Оценка безопасности предприятияНемедленно начните аудит поверхности атак ИИ; кибератакующие способности растут экспоненциально

Нарратив об «отставании» нуждается в обновлении. Реальная конкуренция перешла от «кто может пройти бенчмарк-тесты» к «кто может справляться с долгосрочными инженерными задачами в реальном мире».