核心結論
Claude Opus 4.7 はこれまで人間研究者が必要と考えられていたタスクを達成した:AlphaZero スタイルの自博弈パイプラインをゼロから実装。
- コンシューマハードウェアでわずか 3 時間で完了
- Connect Four で Pascal Pons プロ solver に対し 7/8 勝利(先手)
- 他のテストされた frontier Coding Agent は 2/8 を超えなかった
実験詳細
タスク:AlphaZero スタイルの自博弈強化学習パイプラインを実装、Connect Four プレイヤーをゼロからトレーニング。
Claude Opus 4.7 のパフォーマンス:
- アルゴリズム理解、コード作成、デバッグ、トレーニングの全プロセスを 3 時間で完了
- 先手で Pascal Pons solver に対し 8 局中 7 勝
比較結果:
| Agent | Connect Four 勝率 | 完了時間 |
|---|---|---|
| Claude Opus 4.7 | 7/8(先手) | 3 時間 |
| 他の frontier Coding Agent | ≤ 2/8 | 時間内に未完 |
アクション推奨
- 研究者:自博弈手法の他の領域への移行可能性に注目
- Agent 開発者:Claude Opus 4.7 は「研究グレード Agent」の能力上限を示す — ベンチマークとして使用
- 投資家:自律研究とエンドツーエンド配信能力を持つ Agent プラットフォームに注目