C
ChaoBro

Китайские модели с открытым кодом догнали Claude/GPT на SWE-Bench: равная производительность при трети стоимости

Китайские модели с открытым кодом догнали Claude/GPT на SWE-Bench: равная производительность при трети стоимости

Основной вывод

«Китайский ИИ отстаёт на два года» — это утверждение больше не актуально в мае 2026 года.

Отчёт State of AI May 2026 раскрыл серьёзно недооценённый факт: китайские модели с открытым кодом, такие как DeepSeek V4 и Kimi K2.6, сравнялись с Claude Opus 4.7 и GPT-5.5 на SWE-Bench Pro, при этом стоимость API составляет лишь треть от их цены. Это не «приблизились» — это «сравнялись». Ещё важнее то, что способности передовых моделей к кибератакам удваиваются каждые 4 месяца, но китайские модели не отстают в скорости погони.

Сравнение результатов SWE-Bench Pro

МодельSWE-Bench ProСтоимость API (относительная)Статус открытости
Claude Opus 4.7Базовая линия1,0xЗакрытая
GPT-5.5Базовая линия1,0xЗакрытая
DeepSeek V4≈ Базовая линия~0,33xОткрытый код
Kimi K2.6≈ Базовая линия~0,33xОткрытые веса
Gemini 3.1 ProБлизко к базовой0,8xЗакрытая
Grok 4.3Немного ниже0,4xЗакрытая

Примечание: SWE-Bench Pro измеряет способность ИИ исправлять проблемы в реальных репозиториях GitHub — это самый практичный бенчмарк для программирования на сегодняшний день.

Почему этопогони важно

1. Преимущество в стоимости имеет структурный характер

Преимущество китайских моделей в стоимости — это не временная ценовая война, а следствие:

  • Зрелость архитектуры MoE: DeepSeek V4 и Kimi K2.6 используют смесь экспертов, при этом активированные параметры значительно меньше общего числа
  • Адаптация к отечественным вычислениям: Глубокое сотрудничество DeepSeek с Huawei Ascend снижает стоимость вывода
  • Инженерная оптимизация: Китайские модели в целом эффективнее по токенам, чем американские аналоги

2. Парадигмальные различия: открытый vs закрытый код

ПараметрКитайские модели с открытым кодомАмериканские закрытые модели
АудируемостьПолнаяЧёрный ящик
Локальное развёртываниеПоддерживаетсяНе поддерживается
Кастомная дообучкаСвободнаяОграничена
Безопасность цепочки поставокСамоконтрольЗависимость от поставщиков США
Сообщество и экосистемаБыстро растётЗакрытая

3. Скоростьпогони ускоряется

Способности передовых моделей удваиваются каждые 4 месяца, и скоростьпогони китайских моделей не отстаёт. Переход от DeepSeek V3 к V4 занял менее 6 месяцев; итерация Kimi от K2.5 к K2.6 была столь же быстрой.

Оценка ситуации

Влияние на американские модели

погони китайских моделей с открытым кодом сжимает ценовое пространство американских моделей. DeepSeek V4 уже самая дешёвая SOTA-модель (1/20 стоимости Opus 4.7), и если Kimi K2.6 и другие китайские модели присоединятся к ценовой войне, «высокая производительность + низкая стоимость» может стать новым лейблом китайских моделей.

Значение для корпоративных руководителей

СценарийРекомендуемое решениеПричина
Исправление кода / Агентное программированиеDeepSeek V4 / Kimi K2.6Производительность равна, стоимость 1/3, локальное развёртывание
Творческое письмо / МультимодальностьClaude / GPTЕщё имеют преимущество
Сценарии с чувствительными даннымиЛокальное развёртывание DeepSeek / KimiДанные не покидают страну
Масштабные вызовы APIDeepSeek V4Соотношение цена-качество доминирует

Практические рекомендации

  • Техническим директорам: Приоритизируйте тестирование DeepSeek V4 и Kimi K2.6 в сценариях программирования и агентов — экономия может быть значительной
  • ИИ-инженерам: Возможность дообучения китайских моделей с открытым кодом означает, что вы можете глубоко оптимизировать их под вертикальные сценарии — чего закрытые модели делать не позволяют
  • Инвесторам: Следите за возможностями глобальной экспансии китайских компаний в области ИИ-моделей — «SOTA по соотношению цена-качество» — мощный глобальный нарратив