C
ChaoBro

Оценка Claude Mythos METR: время автономных задач удвоилось, преодолев 16 часов — водораздел от помощника к независимому работнику

Оценка Claude Mythos METR: время автономных задач удвоилось, преодолев 16 часов — водораздел от помощника к независимому работнику

Бенчмарк временных горизонтов METR уперся в потолок.

Не «близок к пределу» — пробил его напрямую. Claude Mythos Preview на уровне 50% успешности может самостоятельно выполнять задачи, которые заняли бы у квалифицированного человека более 16 часов — а 16 часов как раз является конструктивным потолком текущего бенчмарка.

Другими словами, он может работать ещё дольше, просто линейка больше не достаёт.

Цифры: от 30 секунд до 16 часов

Ключевой метрикой METR является простой вопрос: сколько времени ИИ-система может самостоятельно выполнять задачу при 50% уровне успешности, измеряя тем, сколько времени это заняло бы у опытного человека.

Эта кривая росла практически экспоненциально за последние годы:

  • 2022 год: у GPT-3.5 было 30 секунд
  • 2024 год: Claude 3.5 Sonnet достиг примерно 1 часа
  • Конец 2025 года: Claude Opus 4.6 приблизился к 7-8 часам
  • Сейчас: Claude Mythos Preview превышает 16 часов, потолок бенчмарк-теста

18 месяцев, от 1 часа до более чем 16 часов. Утроение временного горизонта более чем в три раза.

Что означают 16 часов

16 часов человеческого рабочего времени — это примерно спринт программной инженерии средней сложности: создание полного функционального модуля, включая анализ требований, кодирование, тестирование и развёртывание. Или написание детального бизнес-плана с исследованием рынка, финансовыми прогнозами и конкурентным анализом.

Если ИИ может сделать это в такой степени без вмешательства человека — обратите внимание, «самостоятельно выполнено», а не интерактивная сессия问答 — то это уже не помощник. Это коллега, которому не нужен обеденный перерыв.


Основные источники: