Бенчмарк временных горизонтов METR уперся в потолок.
Не «близок к пределу» — пробил его напрямую. Claude Mythos Preview на уровне 50% успешности может самостоятельно выполнять задачи, которые заняли бы у квалифицированного человека более 16 часов — а 16 часов как раз является конструктивным потолком текущего бенчмарка.
Другими словами, он может работать ещё дольше, просто линейка больше не достаёт.
Цифры: от 30 секунд до 16 часов
Ключевой метрикой METR является простой вопрос: сколько времени ИИ-система может самостоятельно выполнять задачу при 50% уровне успешности, измеряя тем, сколько времени это заняло бы у опытного человека.
Эта кривая росла практически экспоненциально за последние годы:
- 2022 год: у GPT-3.5 было 30 секунд
- 2024 год: Claude 3.5 Sonnet достиг примерно 1 часа
- Конец 2025 года: Claude Opus 4.6 приблизился к 7-8 часам
- Сейчас: Claude Mythos Preview превышает 16 часов, потолок бенчмарк-теста
18 месяцев, от 1 часа до более чем 16 часов. Утроение временного горизонта более чем в три раза.
Что означают 16 часов
16 часов человеческого рабочего времени — это примерно спринт программной инженерии средней сложности: создание полного функционального модуля, включая анализ требований, кодирование, тестирование и развёртывание. Или написание детального бизнес-плана с исследованием рынка, финансовыми прогнозами и конкурентным анализом.
Если ИИ может сделать это в такой степени без вмешательства человека — обратите внимание, «самостоятельно выполнено», а не интерактивная сессия问答 — то это уже не помощник. Это коллега, которому не нужен обеденный перерыв.
Основные источники: