В 2026 году происходит смена парадигмы в оценке AI — от статического ответа к динамическому выполнению.
Новые фреймворки оценки
Terminal-Bench 2.0: GPT-5.5 набирает 82.7%, опережая Claude Opus 4.7 на ~13 пунктов.
AgenticSwarmBench: 300 проверенных задач, 19 сервисов с инжекцией ошибок, полный аудит траектории.
SWE-bench Pro: Claude Opus 4.7 — 64.3%, GPT-5.5 — 58.6%. Тесты на реальных GitHub issue и PR.
GENERAL365: Бенчмарк сложного рассуждения в пределах знаний K-12, 365 вопросов ручной курации.
Рекомендации
- Для code Agent: SWE-bench Pro + Terminal-Bench 2.0 + тесты на реальных проектах.
- Для conversational Agent: Arena Leaderboard + тесты длинного контекста.
- Для доменных Agent: Создайте свой бенчмарк из 50-100 бизнес-задач.
Основные источники: