Модели с открытым кодом приближаются к закрытым: что означает разрыв в 6 баллов

Модели с открытым кодом приближаются к закрытым: что означает разрыв в 6 баллов

Ключевой сигнал

Последние данные Intelligence Index выявляют недооценённую тенденцию: разрыв в возможностях между китайскими моделями с открытым кодом и глобальными закрытыми флагманами стремительно сокращается.

МодельIntelligence IndexОткрытый кодЦеновое позиционирование
GPT-5.560Закрытая$5/$30 за M
Gemini 3 / Claude57Закрытая$3.50/$15 за M
Kimi K2.654Открытая~$1.70/$3 за M
MiMo V2.5 Pro54ОткрытаяЛицензия MIT
DeepSeek V4 Pro52Открытая$2.20/$3.48 за M
GLM-5.1~50ОткрытаяПодписка
MiniMax M2.7~49ОткрытаяНизкая стоимость

Разница между GPT-5.5 и Kimi K2.6 составляет всего 6 баллов. Учитывая, что API Kimi K2.6 стоит лишь 1/10 от GPT-5.5, эта кривая соотношения цена/качество уже достаточно крута, чтобы изменить решения большинства предприятий по выбору моделей.

Практическое значение разрыва в 6 баллов

Intelligence Index был разработан для комплексной оценки возможностей моделей в реальных сценариях — не заученных результатов бенчмарков, а взвешенной оценки по рассуждению, кодированию, следованию инструкциям, длинному контексту и другим измерениям.

Что означает разница в 6 баллов?

В 80% ежедневных сценариев разработки пользователи не могут заметить разницу.

Разработчик, поделившийся своим «бюджетным пакетом ИИ» на VEX, выразился прямо:

«Для написания кода я использую DeepSeek V4 Flash — бесплатного лимита хватает на ежедневное использование. Когда нужна мощность рассуждений, переключаюсь на Pro, оплата по факту, и в месяц уходит всего несколько юаней.»

Это не теоретическое «достаточно хорошо» — это реальный выбор в производственной среде. Когда Kimi K2.6 победил Claude Opus 4.7 в LiveBench (динамическая оценка с защитой от списывания), нарратив о «рве возможностей» закрытых моделей начал рассыпаться.

Путь догоняющих моделей с открытым кодом

Если посмотреть на траекторию изменения Intelligence Index:

2025 Q2: GPT-5.0 (50) vs DeepSeek V3 (38) → разница 12 баллов
2025 Q4: GPT-5.2 (55) vs DeepSeek V4 (45) → разница 10 баллов
2026 Q1: GPT-5.5 (60) vs Kimi K2.6 (54) → разница 6 баллов

Темп сокращения разрыва ускоряется. При сокращении на 2-4 балла каждые полгода, к концу 2026 года модели с открытым кодом могут достичь текущего уровня GPT-5.5.

Но это не простая история «чем больше параметров, тем лучше». И Kimi K2.6, и MiMo V2.5 Pro используют архитектуру MoE (смесь экспертов), достигая триллионного уровня общих параметров при активации лишь около 50B. Это означает, что стоимость вывода можно значительно снизить, не жертвуя возможностями.

Игнорируемая переменная: практический разрыв

Оценочный отчёт американского агентства CAISI указывает, что综合能力 DeepSeek V4 Pro «отстаёт от передового уровня примерно на 8 месяцев». Это суждение частично подтверждается Intelligence Index — 52 балла действительно ниже 60.

Но интерпретацию «разрыва в 8 месяцев» нужно рассматривать в полном контексте:

  • GPT-5.5 — это итерация GPT-5.0, выпущенной в августе прошлого года, и DeepSeek V4 Pro уже догнал эту версию по возможностям
  • В кодировании, понимании китайского языка и обработке длинных текстов отечественные модели находятся в той же категории, что и международные флагманы
  • Возможность открытых весов + локального развёртывания — это то, что закрытые модели никогда не смогут предоставить

Резюме одного разработчика было точным:

«Параметров не не хватает, баллы не отстают — так откуда же разрыв? Самый большой разрыв — в практике. Но если ваш сценарий не требует 100% возможностей передового уровня, то 92% возможностей за 1/10 цены — это лучший выбор.»

Оценка ландшафта

Данные Intelligence Index переписывают фундаментальное предположение: что преимущество закрытых моделей в возможностях является постоянным.

Когда модели с открытым кодом приближаются к закрытым флагманам с разрывом в 6 баллов, одновременно стоя в 1/5–1/10 дешевле, логика рыночной конкуренции меняется с «кто самый сильный» на «кто лучше всего подходит».

Каскадные эффекты этого сдвига:

  1. Корпоративные закупки: переход от «покупать самое дорогое» к «распределять по сценариям» —核心推理 на GPT-5.5, ежедневная разработка на DeepSeek, длинные документы на Kimi
  2. Индивидуальные разработчики: маршрутизация между несколькими моделями становится стандартным навыком — умение orchestrировать модели важнее, чем мастерство работы с одной
  3. Поставщики моделей: закрытые поставщики должны доказать, что «разрыв в 6 баллов» имеет незаменимую ценность в конкретных сценариях, иначе ценовая стратификация напрямую превратится в потерю рыночной доли

Рекомендации к действию

  • Если вы оцениваете миграцию модели: сначала протестируйте Kimi K2.6 или DeepSeek V4 Pro в 20% ваших реальных бизнес-сценариев — разница в 6 баллов Intelligence Index, скорее всего, будет незаметна в ежедневном использовании
  • Если вы принимаете решения о закупке моделей: не смотрите только на абсолютные баллы Intelligence Index — рассчитайте «стоимость за балл Intelligence» — Kimi K2.6 стоит около $0.055/M токенов за балл, GPT-5.5 — около $0.50/M токенов за балл, разница в 9 раз
  • Если вы разрабатываете Agent-приложения: модели с открытым кодом на архитектуре MoE имеют ещё более выраженное преимущество в стоимости в сценариях Agent, поскольку Agent обычно требуют огромного расхода токенов, что усиливает влияние стоимости за единицу