C
ChaoBro

Композитный рейтинг LLMStats TrueSkill: когда одиночные бенчмарки больше не заслуживают доверия, оценка ИИ-моделей движется к «кросс-бенчмарк консенсусу»

Композитный рейтинг LLMStats TrueSkill: когда одиночные бенчмарки больше не заслуживают доверия, оценка ИИ-моделей движется к «кросс-бенчмарк консенсусу»

Почему одиночные бенчмарки больше не заслуживают доверия

В 2026 году оценка ИИ-моделей столкнулась с неловкой реальностью: практически любой одиночный бенчмарк можно «накрутить» через целевое обучение.

Когда каждый бенчмарк можно оптимизировать, рейтинги одиночных бенчмарков теряют参考价值. Именно поэтому LLMStats запустила композитную оценку TrueSkill.

TrueSkill: кросс-бенчмарк байесовский консенсус

Оценка TrueSkill = μ − 3σ
  • μ (среднее): Средняя производительность модели по нескольким бенчмаркам
  • σ (стандартное отклонение): Вариативность производительности между разными бенчмарками
  • −3σ: Консервативная оценка, среднее минус 3 стандартных отклонения

Ключевая логика: Модель, которая хорошо работает только на одном бенчмарке, но сильно варьируется на других, штрафуется через σ. Только модели, стабильно работающие на всех бенчмарках, получают высокие оценки TrueSkill.

Снэпшот рейтинга за май 2026

Ранг Модель TrueSkill Сильная сторона Слабая сторона
1 Claude Opus 4.7 87.2 SWE-Bench, GPQA Скорость вывода
2 GPT-5.5 84.5 Баланс по бенчмаркам Сложные задачи SWE-Bench
3 Claude 5 "Mythos" (Beta) 82.1 Поиск уязвимостей Не выпущена официально
4 DeepSeek V4 Pro 79.8 SWE-Bench, эффективность Кросс-язычность
5 Gemini 3.1 Pro 78.3 Мультимодальность SWE-Bench

Итог

Оценка ИИ-моделей переходит от «кто набрал最高分数 на одном бенчмарке» к «кто наиболее стабилен по нескольким измерениям». TrueSkill — не идеальный метод, но один из самых устойчивых к «накрутке».

В эпоху, когда бенчмарки можно оптимизировать, кросс-бенчмарк консенсус — ближайшее к истине.