GPT-5.5, Claude Opus 4.7, Gemini 3.1 — разница в 3 балла: достигнут ли потолок интеллекта фронтальных моделей?

Взгляните на свежий индекс интеллекта моделей от Artificial Analysis, и вы заметите то, чего раньше не видели:

GPT-5.5 (xhigh) — 60 баллов, Claude Opus 4.7 (max) — 57, Gemini 3.1 Pro Preview — тоже 57. Kimi K2.6 и MiMo-V2.5-Pro — по 54.

Тройка лидеров разделена всего 3 баллами. Если учесть погрешность измерений и вариативность бенчмарков, этот разрыв можно считать статистически нулевым.

Год назад это было немыслимо. Тогда скачок от GPT-4 к GPT-4.5, от Claude 3 к Claude 4 — каждый был двузначной разницей в баллах. Теперь? Все втиснуты в очень узкий диапазон.

Что это значит?

Первый слой интуитивно понятен: рост «абсолютного интеллекта» фронтальных моделей замедляется. Не остановился, но замедлился. Когда все ведущие игроки имеют доступ к схожим обучающим данным, схожим вычислительным масштабам, схожим архитектурам (Transformer + MoE + RLHF/RLVR), предельные улучшения закономерно становятся меньше.

Второй слой интереснее: логика выбора моделей претерпевает фундаментальный сдвиг.

Если интеллект примерно одинаков, решающие факторы смещаются в другие области:

Скорость: Mercury 2 работает на 905 токенов/с, тогда как фронтальные модели рассуждения — лишь 20-30 токенов/с. Для большинства повседневных задач разница в скорости влияет гораздо сильнее, чем 3-балльная разница в интеллекте.
Цена: GPT-5.5 (xhigh) стоит в тысячи раз дороже, чем Qwen3.5 0.8B. Если модель на 8B параметров справляется с 90% вашей задачи, зачем платить в 50 раз больше за оставшиеся 10%?
Контекстное окно: Llama 4 Scout имеет контекстное окно в 10 миллионов токенов, тогда как большинство фронтальных моделей рассуждения всё ещё в диапазоне сотен тысяч — нескольких миллионов. Для обработки длинных документов это качественная разница.
Вызов инструментов и агентские способности: Их нет в «индексе интеллекта», но их влияние на реальные рабочие процессы может быть ещё больше.

Я не говорю, что фронтальные модели не важны. Когда ваша задача — «решить математическую задачу, которую никто ещё не решал» или «проанализировать 500-страничный юридический документ и найти скрытые условия» — эти дополнительные 3 балла могут быть разницей между «может» и «не может». Но для подавляющего большинства сценариев применения — код, тексты, анализ данных, поддержка — разницу между 54-балльной и 60-балльной моделью пользователи, вероятно, даже не заметят.

Компаниям-разработчикам моделей нужен нарратив «мы самые сильные» для поддержания оценок и ценообразования. Но реальные потребности пользователей в этом нарративе не нуждаются. Пользователям нужно «достаточно хорошо и дёшево».

Это также объясняет, почему серия Qwen3.5 доминирует в рейтингах скорости и цены, при этом её индекс интеллекта — лишь низкие 30-е — для огромного количества задач этого достаточно, зато скорость 905 токенов/с и цена $0.02/M токенов. Это соотношение цены и качества куда привлекательнее, чем «60 баллов, но в 30 раз медленнее и в 1000 раз дороже».

В ближайшие 6-12 месяцев я ожидаю появления большего числа «сценарно-специализированных» моделей: не гонящихся за общим индексом интеллекта, а стремящихся к оптимуму в конкретных задачах. Модели для кода, юридические, медицинские, мультиязычные — каждая берёт первое место в своей полосе, а не пытается выжать ещё 2 балла на общем лидерборде.

Это не деградация способности моделей, это созревание рынка. Когда технические различия сужаются, конкуренция естественно смещается в сторону инженерной эффективности, контроля затрат и адаптации к сценариям.

Основные источники:

Artificial Analysis: Model Comparison
Данные о ценах и скорости моделей с официальных страниц ценообразования вендоров

Похожие материалы

ACC: Компиляция траекторий агентов в длинные контекстные QA-пары

Кредитное распределение в RLVR заново: DelTA предлагает взгляд дискриминатора на токеновые вознаграждения

Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок» — это угадывание