Почему одиночные бенчмарки больше не заслуживают доверия
В 2026 году оценка ИИ-моделей столкнулась с неловкой реальностью: практически любой одиночный бенчмарк можно «накрутить» через целевое обучение.
Когда каждый бенчмарк можно оптимизировать, рейтинги одиночных бенчмарков теряют参考价值. Именно поэтому LLMStats запустила композитную оценку TrueSkill.
TrueSkill: кросс-бенчмарк байесовский консенсус
Оценка TrueSkill = μ − 3σ
- μ (среднее): Средняя производительность модели по нескольким бенчмаркам
- σ (стандартное отклонение): Вариативность производительности между разными бенчмарками
- −3σ: Консервативная оценка, среднее минус 3 стандартных отклонения
Ключевая логика: Модель, которая хорошо работает только на одном бенчмарке, но сильно варьируется на других, штрафуется через σ. Только модели, стабильно работающие на всех бенчмарках, получают высокие оценки TrueSkill.
Снэпшот рейтинга за май 2026
| Ранг | Модель | TrueSkill | Сильная сторона | Слабая сторона |
|---|---|---|---|---|
| 1 | Claude Opus 4.7 | 87.2 | SWE-Bench, GPQA | Скорость вывода |
| 2 | GPT-5.5 | 84.5 | Баланс по бенчмаркам | Сложные задачи SWE-Bench |
| 3 | Claude 5 "Mythos" (Beta) | 82.1 | Поиск уязвимостей | Не выпущена официально |
| 4 | DeepSeek V4 Pro | 79.8 | SWE-Bench, эффективность | Кросс-язычность |
| 5 | Gemini 3.1 Pro | 78.3 | Мультимодальность | SWE-Bench |
Итог
Оценка ИИ-моделей переходит от «кто набрал最高分数 на одном бенчмарке» к «кто наиболее стабилен по нескольким измерениям». TrueSkill — не идеальный метод, но один из самых устойчивых к «накрутке».
В эпоху, когда бенчмарки можно оптимизировать, кросс-бенчмарк консенсус — ближайшее к истине.