GPT-5.5 MLE-Bench 评测：AI 做机器学习工程的真实水位

结论先行

MLE-Bench（Machine Learning Engineering Benchmark）是少数直接衡量 AI 系统完成真实 ML 工程任务能力的评测。GPT-5.5 在该基准上取得 36% 的得分，较 GPT-5.4 的 23% 提升 13 个百分点。这个数字意味着 AI 已经能自主完成约三分之一的标准 ML 工程任务——但还有三分之二需要人工介入。

MLE-Bench 是什么

MLE-Bench 测试的是 AI 系统在真实机器学习工程工作流中的表现，包括：

数据处理：读取数据集、清洗、特征工程
模型选择：根据任务特点选择合适的算法和架构
训练调参：设置超参数、训练、监控收敛
结果验证：评估模型性能、生成报告

与 MMLU 等传统选择题式基准不同，MLE-Bench 要求 AI 实际执行代码、运行实验、分析结果。它测量的是自主完成度而非知识掌握度。

GPT-5.5 的 MLE-Bench 表现

模型	MLE-Bench 得分	提升幅度
GPT-5.5	36%	—
GPT-5.4	23%	基准
提升	+13pp	+56.5%

36% 的得分意味着在标准 ML 工程任务集中，GPT-5.5 能独立完成约三分之一的任务——包括数据处理、模型训练和结果验证的全流程，无需人工干预。

这是一个显著的跃升。56.5% 的相对提升说明 GPT-5.5 在自主执行复杂多步骤工程任务上的能力有了质的改进，而不仅仅是”答题正确率”的提升。

配合 Terminal-Bench 看全貌

GPT-5.5 在另一项代理基准 Terminal-Bench 2.0（测试复杂命令行工作流）上达到 82.7%。结合 MLE-Bench 的 36%，可以看出：

命令行操作能力已趋成熟：82.7% 意味着在大多数标准命令行任务上 GPT-5.5 可以替代初级工程师
ML 工程理解仍在追赶：36% 说明 AI 在理解 ML 任务本质（为什么选这个模型、为什么这个特征重要）上还有很长的路
Gap 来自哪里：MLE-Bench 的低分更多反映了 ML 领域知识（数据分布理解、过拟合判断、实验设计）的不足，而非工具使用能力的不足

选择建议

角色	如何利用
数据科学家	用 GPT-5.5 自动化数据处理和基线模型训练，节省 30%-50% 的重复性工作时间
ML 工程师	配合 Terminal-Bench 能力构建自动化 ML pipeline，但模型选择和实验设计仍需人工审核
技术负责人	36% 的自主完成率意味着”AI 替代 ML 工程师”还为时尚早，但”AI 辅助 ML 工程师”已经可以落地
学生 / 研究者	用 GPT-5.5 快速跑通基线实验，将更多时间投入实验设计和创新

结论先行

MLE-Bench 是什么

GPT-5.5 的 MLE-Bench 表现

配合 Terminal-Bench 看全貌

选择建议

来源

相关内容

Kimi K2.6 登顶 Design Arena：月之暗面在 3D 设计领域超越所有美国模型

Qwen 3.6 Max BS Benchmark 评测：反幻觉能力超越所有 OpenAI 模型

Oxford/LLNL 链式推理基准：GPT 单项 95.7%，串联后暴跌至 9.83%