Когда оценка превращается в игру в кошки-мышки: AI-бенчмарки теряют доверие

В Open ASR Leaderboard от Hugging Face недавно появилась функция под названием «Benchmaxxer Repellant» — буквально «репеллент для накрутчиков бенчмарков». Одно это название уже достаточно иронично. Платформе оценки нужно что-то вроде пестицида для отпугивания тестируемых объектов — это говорит о том, до какого уровня упало доверие в этой области.

Проблема не нова, но она ускоряется.

За последние два года баллы AI-моделей на основных бенчмарках вроде MMLU, GSM8K и HumanEval взлетели с привлекающей внимание скоростью. GSM8K перешёл от менее чем 20% во времена GPT-3 до 98%+ сейчас. MMLU приближается к насыщению. Создаётся впечатление, что способности моделей взрывно растут — но приглядитесь, и кривая роста практически синхронна со скоростью утечки данных бенчмарков.

Не весь рост баллов — это жульничество. Модели действительно становятся сильнее. Но по мере приближения баллов к потолку различить «реальное улучшение способностей» и «переобучение на тестовом наборе» становится крайне сложно.

Подход Benchmaxxer Repellant заключается во внедрении состязательных сэмплов в оценочный набор — специально составленных вопросов, способных отличить «действительно понимает» от «запомнил ответ». Идея верная, но по сути это гонка вооружений: накрутчики проанализируют распределение состязательных сэмплов и скорректируют стратегии обучения. Оценщики обновляют свою состязательную стратегию, цикл повторяется.

Более глубокая проблема в том, что бенчмарки никогда не были идеальными измерителями способностей с самого начала.

MMLU тестирует выбор из нескольких вариантов, но реальные задачи редко приходят в формате «выберите один из четырёх». HumanEval измеряет генерацию кода на уровне функций, но реальные проекты — это тысячи строк системной работы: проектирование архитектуры, граничные условия, отладка и обслуживание. Ничего из этого не измеряется ни одним бенчмарком. GSM8K — это математические задачи, но способность решать задачи и математическая интуиция — разные вещи.

Компании-разработчики моделей, разумеется, будут оптимизироваться под бенчмарки — это бизнес-решение. Инвесторы, клиенты и медиа используют баллы бенчмарков для принятия решений. Если ваша модель отстаёт на 5 баллов на MMLU, вы будете в маркетинговом劣势, даже если разница в практическом применении ничтожна. Так что оптимизация баллов бенчмарков — рациональное бизнес-поведение.

Но совокупность рациональных индивидуальных поведений приводит к коллективной иррациональности: все модели сильно выступают на бенчмарках, но мы по-прежнему не знаем, как они работают в реальных сценариях.

Это перекликается с историей поисковой оптимизации. PageRank от Google изначально был надёжным измерителем качества веб-страниц, затем люди начали специально оптимизироваться под PageRank (покупка ссылок, создание линк-ферм), и метрика исказилась. Google ввёл сотни сигналов для борьбы с SEO-манипуляциями, SEO-сообщество адаптировало стратегии под новые сигналы — эта игра в кошки-мышки длится двадцать лет.

AI-оценка идёт по тому же пути.

Где выход? Три направления, за которыми стоит следить:

Во-первых, динамическая оценка — вопросы бенчмарков не фиксированы, регулярно обновляются или используют генеративные методы для создания вопросов в реальном времени. Это повышает стоимость накрутки.

Во-вторых, оценка на уровне задач — не тестирование точек знаний, а тестирование способности выполнять реальные задачи. Например, «проанализируйте этот финансовый отчёт и дайте инвестиционные рекомендации» или «перенесите этот проект с Python 2 на Python 3 и исправьте все ошибки типов». К таким задачам нельзя подготовиться заранее.

В-третьих, данные реальных измерений от сообщества — самые надёжные оценки часто получаются из отзывов реальных пользователей. Модель Artificial Analysis (сбор данных о задержке, цене и качестве реальных API-вызовов) более убедительна, чем сырые баллы бенчмарков.

До полного восстановления доверия к оценкам я советую читателям при просмотре баллов моделей задавать один вопрос: как был получен этот балл? Публичен ли тестовый набор? Проходила ли модель файн-тюнинг на тестовом наборе?

Если ответ неопределён,参考价值 этого балла следует дисконтировать.

Основные источники:

Hugging Face Blog: Adding Benchmaxxer Repellant to the Open ASR Leaderboard
Методология оценки Artificial Analysis

Похожие материалы

ACC: Компиляция траекторий агентов в длинные контекстные QA-пары

Кредитное распределение в RLVR заново: DelTA предлагает взгляд дискриминатора на токеновые вознаграждения

Понимают ли MLLM людей? MM-OCEAN обнаруживает: 51% «правильных оценок» — это угадывание