GPT-5.5 MLE-Bench 評価：AIのMLエンジニアリング実力

結論

MLE-BenchはAIシステムの実際のMLエンジニアリングタスク完了能力を直接測定する。GPT-5.5は36%を達成し、GPT-5.4の23%から13ポイント向上。AIは標準MLエンジニアリングタスクの約3分の1を自律完了できるが、残り3分の2は人間の介入が必要。

モデル	MLE-Bench	改善
GPT-5.5	36%	—
GPT-5.4	23%	ベースライン

Terminal-Bench 2.0 82.7%と組み合わせると：

役割	活用法
データサイエンティスト	データ処理とベースラインモデル訓練を自動化、反復作業を30-50%削減
MLエンジニア	自動化MLパイプラインを構築、モデル選択は人間が審査
テクニカルリード	36%自律完了率は「AIがMLエンジニアを代替」には時期尚早