GPT-5.5 MLE-Bench 评测:AI 做机器学习工程的真实水位

GPT-5.5 MLE-Bench 评测:AI 做机器学习工程的真实水位

结论先行

MLE-Bench(Machine Learning Engineering Benchmark)是少数直接衡量 AI 系统完成真实 ML 工程任务能力的评测。GPT-5.5 在该基准上取得 36% 的得分,较 GPT-5.4 的 23% 提升 13 个百分点。这个数字意味着 AI 已经能自主完成约三分之一的标准 ML 工程任务——但还有三分之二需要人工介入。

MLE-Bench 是什么

MLE-Bench 测试的是 AI 系统在真实机器学习工程工作流中的表现,包括:

  • 数据处理:读取数据集、清洗、特征工程
  • 模型选择:根据任务特点选择合适的算法和架构
  • 训练调参:设置超参数、训练、监控收敛
  • 结果验证:评估模型性能、生成报告

与 MMLU 等传统选择题式基准不同,MLE-Bench 要求 AI 实际执行代码、运行实验、分析结果。它测量的是自主完成度而非知识掌握度

GPT-5.5 的 MLE-Bench 表现

模型MLE-Bench 得分提升幅度
GPT-5.536%
GPT-5.423%基准
提升+13pp+56.5%

36% 的得分意味着在标准 ML 工程任务集中,GPT-5.5 能独立完成约三分之一的任务——包括数据处理、模型训练和结果验证的全流程,无需人工干预。

这是一个显著的跃升。56.5% 的相对提升说明 GPT-5.5 在自主执行复杂多步骤工程任务上的能力有了质的改进,而不仅仅是”答题正确率”的提升。

配合 Terminal-Bench 看全貌

GPT-5.5 在另一项代理基准 Terminal-Bench 2.0(测试复杂命令行工作流)上达到 82.7%。结合 MLE-Bench 的 36%,可以看出:

  • 命令行操作能力已趋成熟:82.7% 意味着在大多数标准命令行任务上 GPT-5.5 可以替代初级工程师
  • ML 工程理解仍在追赶:36% 说明 AI 在理解 ML 任务本质(为什么选这个模型、为什么这个特征重要)上还有很长的路
  • Gap 来自哪里:MLE-Bench 的低分更多反映了 ML 领域知识(数据分布理解、过拟合判断、实验设计)的不足,而非工具使用能力的不足

选择建议

角色如何利用
数据科学家用 GPT-5.5 自动化数据处理和基线模型训练,节省 30%-50% 的重复性工作时间
ML 工程师配合 Terminal-Bench 能力构建自动化 ML pipeline,但模型选择和实验设计仍需人工审核
技术负责人36% 的自主完成率意味着”AI 替代 ML 工程师”还为时尚早,但”AI 辅助 ML 工程师”已经可以落地
学生 / 研究者用 GPT-5.5 快速跑通基线实验,将更多时间投入实验设计和创新

来源