結論
MLE-BenchはAIシステムの実際のMLエンジニアリングタスク完了能力を直接測定する。GPT-5.5は36%を達成し、GPT-5.4の23%から13ポイント向上。AIは標準MLエンジニアリングタスクの約3分の1を自律完了できるが、残り3分の2は人間の介入が必要。
GPT-5.5 のパフォーマンス
| モデル | MLE-Bench | 改善 |
|---|---|---|
| GPT-5.5 | 36% | — |
| GPT-5.4 | 23% | ベースライン |
Terminal-Bench 2.0 82.7%と組み合わせると:
- CLI能力は成熟:82.7%で junior エンジニアの代替が可能
- ML理解は追いつき中:36%でMLタスクの本質理解にはまだ課題
- ギャップは知識而非工具:低いMLE-BenchスコアはMLドメイン知識の不足を反映
選択ガイド
| 役割 | 活用法 |
|---|---|
| データサイエンティスト | データ処理とベースラインモデル訓練を自動化、反復作業を30-50%削減 |
| MLエンジニア | 自動化MLパイプラインを構築、モデル選択は人間が審査 |
| テクニカルリード | 36%自律完了率は「AIがMLエンジニアを代替」には時期尚早 |