Вывод вперёд
Рейтинги бенчмарков и опыт производства показывают значительное расхождение. Четыре недели реального использования:
- GPT-5.5: Самая низкая задержка, сильнейший вызов функций, лидирует MRCR 74%
- Claude Opus 4.7: Сильнейшее комплексное рассуждение и кодинг, SWE-bench Pro 64.3%, HLE 46.9%
- Gemini 3.1 Pro: Преимущество в расширении контекста кодовой базы, но сообщество считает его «отстающим»
- Qwen3.6-Max-Preview: SWE-bench 78.8% breakout
Тестовые измерения
| Модель | SWE-bench | SWE-bench Pro | HLE | MRCR @ 1M |
|---|---|---|---|---|
| Claude Opus 4.7 | — | 64.3% | 46.9% | 32.2% |
| GPT-5.5 | — | 58.6% | 41.4% | 74% |
| Qwen3.6-Max-Preview | 78.8% | — | — | — |
Фидбэк производственной среды
| Измерение | GPT-5.5 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|
| Задержка | ⭐⭐⭐ Низкая | ⭐⭐ Средняя | ⭐⭐ Средняя |
| Вызов функций | ⭐⭐³ Лучший | ⭐⭐ Доступен | ⭐⭐ Доступен |
| Глубина рассуждений | ⭐⭐ Хорошо | ⭐⭐³ Лучшая | ⭐⭐ Хорошо |
| Стоимость | ⭐ Pro $180/мес | ⭐ $15/$75 за 1M | ⭐⭐⭐ $12/мес |
Рекомендации по выбору
- Кодирующий агент → Claude Opus 4.7
- Большая кодовая база → GPT-5.5 (1M контекст)
- Фронтенд/UI → Gemini 3.1 Pro ($12/мес)
- Экономия → Qwen3.6-Plus (китайское ценообразование)
Оценка ландшафта
Эра «универсальных моделей» заканчивается.
Мульти-модельная маршрутизация становится основной архитектурой. Не «выбрать одну лучшую модель», а «выбрать наиболее подходящую модель для каждой задачи».
Ожидания мая 2026: Claude Sonnet 4.8, Meta Avocado, возможно GPT-5.6 — гонка моделей далеко не окончена, но правила конкуренции смещаются от «очков бенчмарков» к «производственному опыту».