Claude Opus 4.7 реализовал AlphaZero self-play pipeline с нуля: победил профессиональный solver за 3 часа, водораздел для агентного мышления

Claude Opus 4.7 реализовал AlphaZero self-play pipeline с нуля: победил профессиональный solver за 3 часа, водораздел для агентного мышления

Ключевой вывод

Claude Opus 4.7 выполнил задачу, ранее требовавшую человеческих исследователей: реализовал AlphaZero-style self-play pipeline с нуля.

  • Завершено за 3 часа на потребительском оборудовании
  • Достигнуто 7/8 побед против профессионального solver Pascal Pons в Connect Four
  • Другие frontier Coding Agents не превысили 2/8

Детали эксперимента

АгентWin Rate Connect FourВремя
Claude Opus 4.77/8 (первый ход)3 часа
Другие frontier Coding Agents≤ 2/8Не завершено

Почему это важно

1. Способность автономного исследования: AlphaZero требует междисциплинарных знаний — reinforcement learning, Monte Carlo search, нейросетевое обучение.

2. Разрыв с традиционными Coding Agents: Другие агенты достигли максимум 2/8 — значительный разрыв.

3. Потребительское оборудование: Эксперимент завершён на потребительском оборудовании, а не облачных GPU.

Рекомендации

  • Исследователям: Следите за миграцией self-play методов в другие области
  • Разработчикам агентов: Claude Opus 4.7 демонстрирует потолок «исследовательских агентов»
  • Инвесторам: Agent-платформы с автономным исследованием могут создать новые технические рвы