GPT-5.5 MLE-Bench: Реальный уровень AI в машинном обучении

GPT-5.5 MLE-Bench: Реальный уровень AI в машинном обучении

Вывод

MLE-Bench напрямую измеряет способность AI выполнять реальные задачи ML-инженерии. GPT-5.5 набирает 36%, на 13 п.п. выше GPT-5.4 (23%). AI теперь может автономно完成约三分之一标准ML工程任务。

Результаты

МодельMLE-BenchУлучшение
GPT-5.536%
GPT-5.423%базовый

В сочетании с Terminal-Bench 2.0 (82.7%):

  • Навыки CLI зрелые: 82.7% — замена junior-инженера
  • Понимание ML отстаёт: 36% — долгий путь до понимания сути ML-задач
  • Проблема в знаниях, не в инструментах: Низкий балл MLE-Bench отражает пробелы в доменных знаниях ML

Рекомендации

РольПрименение
Дата-сайентистыАвтоматизация обработки данных, экономия 30-50% времени
ML-инженерыАвтоматизированные ML-пайплайны, выбор моделей — за человеком
Техлиды36% автономности — «AI заменяет ML-инженеров» пока рано

Источники