Ключевой вывод
Claude Opus 4.7 выполнил задачу, ранее требовавшую человеческих исследователей: реализовал AlphaZero-style self-play pipeline с нуля.
- Завершено за 3 часа на потребительском оборудовании
- Достигнуто 7/8 побед против профессионального solver Pascal Pons в Connect Four
- Другие frontier Coding Agents не превысили 2/8
Детали эксперимента
| Агент | Win Rate Connect Four | Время |
|---|---|---|
| Claude Opus 4.7 | 7/8 (первый ход) | 3 часа |
| Другие frontier Coding Agents | ≤ 2/8 | Не завершено |
Почему это важно
1. Способность автономного исследования: AlphaZero требует междисциплинарных знаний — reinforcement learning, Monte Carlo search, нейросетевое обучение.
2. Разрыв с традиционными Coding Agents: Другие агенты достигли максимум 2/8 — значительный разрыв.
3. Потребительское оборудование: Эксперимент завершён на потребительском оборудовании, а не облачных GPU.
Рекомендации
- Исследователям: Следите за миграцией self-play методов в другие области
- Разработчикам агентов: Claude Opus 4.7 демонстрирует потолок «исследовательских агентов»
- Инвесторам: Agent-платформы с автономным исследованием могут создать новые технические рвы