Композитный рейтинг LLMStats TrueSkill: когда одиночные бенчмарки больше не заслуживают доверия, оценка ИИ-моделей движется к «кросс-бенчмарк консенсусу»

Почему одиночные бенчмарки больше не заслуживают доверия

В 2026 году оценка ИИ-моделей столкнулась с неловкой реальностью: практически любой одиночный бенчмарк можно «накрутить» через целевое обучение.

Когда каждый бенчмарк можно оптимизировать, рейтинги одиночных бенчмарков теряют参考价值. Именно поэтому LLMStats запустила композитную оценку TrueSkill.

TrueSkill: кросс-бенчмарк байесовский консенсус

Оценка TrueSkill = μ − 3σ

μ (среднее): Средняя производительность модели по нескольким бенчмаркам
σ (стандартное отклонение): Вариативность производительности между разными бенчмарками
−3σ: Консервативная оценка, среднее минус 3 стандартных отклонения

Ключевая логика: Модель, которая хорошо работает только на одном бенчмарке, но сильно варьируется на других, штрафуется через σ. Только модели, стабильно работающие на всех бенчмарках, получают высокие оценки TrueSkill.

Снэпшот рейтинга за май 2026

Ранг	Модель	TrueSkill	Сильная сторона	Слабая сторона
1	Claude Opus 4.7	87.2	SWE-Bench, GPQA	Скорость вывода
2	GPT-5.5	84.5	Баланс по бенчмаркам	Сложные задачи SWE-Bench
3	Claude 5 "Mythos" (Beta)	82.1	Поиск уязвимостей	Не выпущена официально
4	DeepSeek V4 Pro	79.8	SWE-Bench, эффективность	Кросс-язычность
5	Gemini 3.1 Pro	78.3	Мультимодальность	SWE-Bench

Итог

Оценка ИИ-моделей переходит от «кто набрал最高分数 на одном бенчмарке» к «кто наиболее стабилен по нескольким измерениям». TrueSkill — не идеальный метод, но один из самых устойчивых к «накрутке».

В эпоху, когда бенчмарки можно оптимизировать, кросс-бенчмарк консенсус — ближайшее к истине.

Почему одиночные бенчмарки больше не заслуживают доверия

TrueSkill: кросс-бенчмарк байесовский консенсус

Снэпшот рейтинга за май 2026

Итог

Похожие материалы

Aider на 44K звёзд: AI-парное программирование в терминале — работает ли на самом деле?

Cline на 60K звёзд: автономный агент для программирования переходит на SDK — стоит ли внимания?

Codegraph: Локальный граф знаний для Claude Code — меньше токенов, меньше вызовов инструментов