Модели с открытым кодом приближаются к закрытым: что означает разрыв в 6 баллов

Ключевой сигнал

Последние данные Intelligence Index выявляют недооценённую тенденцию: разрыв в возможностях между китайскими моделями с открытым кодом и глобальными закрытыми флагманами стремительно сокращается.

Модель	Intelligence Index	Открытый код	Ценовое позиционирование
GPT-5.5	60	Закрытая	$5/$30 за M
Gemini 3 / Claude	57	Закрытая	$3.50/$15 за M
Kimi K2.6	54	Открытая	~$1.70/$3 за M
MiMo V2.5 Pro	54	Открытая	Лицензия MIT
DeepSeek V4 Pro	52	Открытая	$2.20/$3.48 за M
GLM-5.1	~50	Открытая	Подписка
MiniMax M2.7	~49	Открытая	Низкая стоимость

Разница между GPT-5.5 и Kimi K2.6 составляет всего 6 баллов. Учитывая, что API Kimi K2.6 стоит лишь 1/10 от GPT-5.5, эта кривая соотношения цена/качество уже достаточно крута, чтобы изменить решения большинства предприятий по выбору моделей.

Практическое значение разрыва в 6 баллов

Intelligence Index был разработан для комплексной оценки возможностей моделей в реальных сценариях — не заученных результатов бенчмарков, а взвешенной оценки по рассуждению, кодированию, следованию инструкциям, длинному контексту и другим измерениям.

Что означает разница в 6 баллов?

В 80% ежедневных сценариев разработки пользователи не могут заметить разницу.

Разработчик, поделившийся своим «бюджетным пакетом ИИ» на VEX, выразился прямо:

«Для написания кода я использую DeepSeek V4 Flash — бесплатного лимита хватает на ежедневное использование. Когда нужна мощность рассуждений, переключаюсь на Pro, оплата по факту, и в месяц уходит всего несколько юаней.»

Это не теоретическое «достаточно хорошо» — это реальный выбор в производственной среде. Когда Kimi K2.6 победил Claude Opus 4.7 в LiveBench (динамическая оценка с защитой от списывания), нарратив о «рве возможностей» закрытых моделей начал рассыпаться.

Путь догоняющих моделей с открытым кодом

Если посмотреть на траекторию изменения Intelligence Index:

2025 Q2: GPT-5.0 (50) vs DeepSeek V3 (38) → разница 12 баллов
2025 Q4: GPT-5.2 (55) vs DeepSeek V4 (45) → разница 10 баллов
2026 Q1: GPT-5.5 (60) vs Kimi K2.6 (54) → разница 6 баллов

Темп сокращения разрыва ускоряется. При сокращении на 2-4 балла каждые полгода, к концу 2026 года модели с открытым кодом могут достичь текущего уровня GPT-5.5.

Но это не простая история «чем больше параметров, тем лучше». И Kimi K2.6, и MiMo V2.5 Pro используют архитектуру MoE (смесь экспертов), достигая триллионного уровня общих параметров при активации лишь около 50B. Это означает, что стоимость вывода можно значительно снизить, не жертвуя возможностями.

Игнорируемая переменная: практический разрыв

Оценочный отчёт американского агентства CAISI указывает, что综合能力 DeepSeek V4 Pro «отстаёт от передового уровня примерно на 8 месяцев». Это суждение частично подтверждается Intelligence Index — 52 балла действительно ниже 60.

Но интерпретацию «разрыва в 8 месяцев» нужно рассматривать в полном контексте:

GPT-5.5 — это итерация GPT-5.0, выпущенной в августе прошлого года, и DeepSeek V4 Pro уже догнал эту версию по возможностям
В кодировании, понимании китайского языка и обработке длинных текстов отечественные модели находятся в той же категории, что и международные флагманы
Возможность открытых весов + локального развёртывания — это то, что закрытые модели никогда не смогут предоставить

Резюме одного разработчика было точным:

«Параметров не не хватает, баллы не отстают — так откуда же разрыв? Самый большой разрыв — в практике. Но если ваш сценарий не требует 100% возможностей передового уровня, то 92% возможностей за 1/10 цены — это лучший выбор.»

Оценка ландшафта

Данные Intelligence Index переписывают фундаментальное предположение: что преимущество закрытых моделей в возможностях является постоянным.

Когда модели с открытым кодом приближаются к закрытым флагманам с разрывом в 6 баллов, одновременно стоя в 1/5–1/10 дешевле, логика рыночной конкуренции меняется с «кто самый сильный» на «кто лучше всего подходит».

Каскадные эффекты этого сдвига:

Корпоративные закупки: переход от «покупать самое дорогое» к «распределять по сценариям» —核心推理 на GPT-5.5, ежедневная разработка на DeepSeek, длинные документы на Kimi
Индивидуальные разработчики: маршрутизация между несколькими моделями становится стандартным навыком — умение orchestrировать модели важнее, чем мастерство работы с одной
Поставщики моделей: закрытые поставщики должны доказать, что «разрыв в 6 баллов» имеет незаменимую ценность в конкретных сценариях, иначе ценовая стратификация напрямую превратится в потерю рыночной доли

Ключевой сигнал

Практическое значение разрыва в 6 баллов

Путь догоняющих моделей с открытым кодом

Игнорируемая переменная: практический разрыв

Оценка ландшафта

Рекомендации к действию

Похожие материалы

Отчёт с поля: DeepSeek V4 Pro — производительность на уровне Claude Code при цене в 1/40, полный перевод рабочих процессов подтверждён

Zhipu GLM-5.1 выпущен: 600 итераций непрерывной оптимизации, новый отечественный выбор для долгосрочных задач агентов

Google представила платформу агентов Gemini Enterprise: более 200 моделей и встроенная оркестрация — прямой вызов корпоративным решениям Anthropic и OpenAI