Взгляните на свежий индекс интеллекта моделей от Artificial Analysis, и вы заметите то, чего раньше не видели:
GPT-5.5 (xhigh) — 60 баллов, Claude Opus 4.7 (max) — 57, Gemini 3.1 Pro Preview — тоже 57. Kimi K2.6 и MiMo-V2.5-Pro — по 54.
Тройка лидеров разделена всего 3 баллами. Если учесть погрешность измерений и вариативность бенчмарков, этот разрыв можно считать статистически нулевым.
Год назад это было немыслимо. Тогда скачок от GPT-4 к GPT-4.5, от Claude 3 к Claude 4 — каждый был двузначной разницей в баллах. Теперь? Все втиснуты в очень узкий диапазон.
Что это значит?
Первый слой интуитивно понятен: рост «абсолютного интеллекта» фронтальных моделей замедляется. Не остановился, но замедлился. Когда все ведущие игроки имеют доступ к схожим обучающим данным, схожим вычислительным масштабам, схожим архитектурам (Transformer + MoE + RLHF/RLVR), предельные улучшения закономерно становятся меньше.
Второй слой интереснее: логика выбора моделей претерпевает фундаментальный сдвиг.
Если интеллект примерно одинаков, решающие факторы смещаются в другие области:
- Скорость: Mercury 2 работает на 905 токенов/с, тогда как фронтальные модели рассуждения — лишь 20-30 токенов/с. Для большинства повседневных задач разница в скорости влияет гораздо сильнее, чем 3-балльная разница в интеллекте.
- Цена: GPT-5.5 (xhigh) стоит в тысячи раз дороже, чем Qwen3.5 0.8B. Если модель на 8B параметров справляется с 90% вашей задачи, зачем платить в 50 раз больше за оставшиеся 10%?
- Контекстное окно: Llama 4 Scout имеет контекстное окно в 10 миллионов токенов, тогда как большинство фронтальных моделей рассуждения всё ещё в диапазоне сотен тысяч — нескольких миллионов. Для обработки длинных документов это качественная разница.
- Вызов инструментов и агентские способности: Их нет в «индексе интеллекта», но их влияние на реальные рабочие процессы может быть ещё больше.
Я не говорю, что фронтальные модели не важны. Когда ваша задача — «решить математическую задачу, которую никто ещё не решал» или «проанализировать 500-страничный юридический документ и найти скрытые условия» — эти дополнительные 3 балла могут быть разницей между «может» и «не может». Но для подавляющего большинства сценариев применения — код, тексты, анализ данных, поддержка — разницу между 54-балльной и 60-балльной моделью пользователи, вероятно, даже не заметят.
Компаниям-разработчикам моделей нужен нарратив «мы самые сильные» для поддержания оценок и ценообразования. Но реальные потребности пользователей в этом нарративе не нуждаются. Пользователям нужно «достаточно хорошо и дёшево».
Это также объясняет, почему серия Qwen3.5 доминирует в рейтингах скорости и цены, при этом её индекс интеллекта — лишь низкие 30-е — для огромного количества задач этого достаточно, зато скорость 905 токенов/с и цена $0.02/M токенов. Это соотношение цены и качества куда привлекательнее, чем «60 баллов, но в 30 раз медленнее и в 1000 раз дороже».
В ближайшие 6-12 месяцев я ожидаю появления большего числа «сценарно-специализированных» моделей: не гонящихся за общим индексом интеллекта, а стремящихся к оптимуму в конкретных задачах. Модели для кода, юридические, медицинские, мультиязычные — каждая берёт первое место в своей полосе, а не пытается выжать ещё 2 балла на общем лидерборде.
Это не деградация способности моделей, это созревание рынка. Когда технические различия сужаются, конкуренция естественно смещается в сторону инженерной эффективности, контроля затрат и адаптации к сценариям.
Основные источники:
- Artificial Analysis: Model Comparison
- Данные о ценах и скорости моделей с официальных страниц ценообразования вендоров