METRの時間スパンベンチマークが天井にぶつかった。
「上限に近づいた」じゃない。直接壁を突き破った。 Claude Mythos Previewは50%成功率レベルで、熟練した人間が16時間以上かかるタスクを独立して完了できる——そして16時間というのはまさに現在のベンチマークテストの設計上限だ。
つまり、もっと長くできるかもしれないが、ものさしがもう足りないだけだ。
数字の比較:30秒から16時間へ
METRが追跡しているコア指標は直感的だ:AIシステムが独立してタスクを完了できる時間は、50%成功率レベルで、そのタスクを熟練した人間がやるとどれくらい時間がかかるか。
この曲線はここ数年でほぼ指数関数的に上昇している:
- 2022年、GPT-3.5の数字は30秒
- 2024年、Claude 3.5 Sonnetは約1時間に到達
- 2025年末、Claude Opus 4.6は7〜8時間に近づいた
- 現在、Claude Mythos Previewは16時間を超え、ベンチマークテストの天井
18ヶ月で、1時間から16時間以上。3倍以上の時間スパンの伸び。
16時間は何を意味するか
16時間の人間労働時間は、おおよそ中程度の複雑さのソフトウェアエンジニアリングスプリントだ:完全な機能モジュールを作る、要件分析、コーディング、テスト、デプロイメントを含む。あるいは詳細な事業計画書を書く、市場調査、財務予測、競合分析を含む。
もしAIが人間の介入なしに、50%の完了率でこのレベルを達成できるなら——注意してほしい、「独立完成」であって、一问一答式のインタラクションじゃない——それはもうアシスタントじゃない。昼休みの必要ない同僚だ。
もちろん、50%成功率は半分の時間で失敗することを意味する。でもこの数字自体も実用閾値に急速に近づいている。
主な情報源: