Методология оценки AI Agent: почему MMLU и HumanEval больше недостаточно

29 апреля 2026 г. by ChaoBro

#AI Agent #Оценка #Бенчмарк #AgenticSwarmBench #Terminal-Bench

Методология оценки AI Agent: почему MMLU и HumanEval больше недостаточно

В 2026 году происходит смена парадигмы в оценке AI — от статического ответа к динамическому выполнению.

Новые фреймворки оценки

Terminal-Bench 2.0: GPT-5.5 набирает 82.7%, опережая Claude Opus 4.7 на ~13 пунктов.

AgenticSwarmBench: 300 проверенных задач, 19 сервисов с инжекцией ошибок, полный аудит траектории.

SWE-bench Pro: Claude Opus 4.7 — 64.3%, GPT-5.5 — 58.6%. Тесты на реальных GitHub issue и PR.

GENERAL365: Бенчмарк сложного рассуждения в пределах знаний K-12, 365 вопросов ручной курации.

Рекомендации

Для code Agent: SWE-bench Pro + Terminal-Bench 2.0 + тесты на реальных проектах.
Для conversational Agent: Arena Leaderboard + тесты длинного контекста.
Для доменных Agent: Создайте свой бенчмарк из 50-100 бизнес-задач.

Основные источники: