Claude Opus 4.7 が AlphaZero 自博弈パイプラインをゼロから実装:3時間でプロ solver を撃破、Agent 推論能力の分水嶺

Claude Opus 4.7 が AlphaZero 自博弈パイプラインをゼロから実装:3時間でプロ solver を撃破、Agent 推論能力の分水嶺

核心結論

Claude Opus 4.7 はこれまで人間研究者が必要と考えられていたタスクを達成した:AlphaZero スタイルの自博弈パイプラインをゼロから実装

  • コンシューマハードウェアでわずか 3 時間で完了
  • Connect Four で Pascal Pons プロ solver に対し 7/8 勝利(先手)
  • 他のテストされた frontier Coding Agent は 2/8 を超えなかった

実験詳細

タスク:AlphaZero スタイルの自博弈強化学習パイプラインを実装、Connect Four プレイヤーをゼロからトレーニング。

Claude Opus 4.7 のパフォーマンス

  • アルゴリズム理解、コード作成、デバッグ、トレーニングの全プロセスを 3 時間で完了
  • 先手で Pascal Pons solver に対し 8 局中 7 勝

比較結果

AgentConnect Four 勝率完了時間
Claude Opus 4.77/8(先手)3 時間
他の frontier Coding Agent≤ 2/8時間内に未完

アクション推奨

  • 研究者:自博弈手法の他の領域への移行可能性に注目
  • Agent 開発者:Claude Opus 4.7 は「研究グレード Agent」の能力上限を示す — ベンチマークとして使用
  • 投資家:自律研究とエンドツーエンド配信能力を持つ Agent プラットフォームに注目