Claude Opus 4.7 从零实现 AlphaZero 自博弈管线：3 小时击败专业 solver，Agent 推理能力的分水岭

核心结论

Claude Opus 4.7 完成了一项此前被认为需要人类研究者才能完成的任务：从零实现 AlphaZero 风格的自博弈管线。

这不是一个”AI 会下棋”的演示，而是一个 Agent 自主研究 → 实现算法 → 训练模型 → 验证结果 的端到端闭环。

任务：实现 AlphaZero 风格的自博弈强化学习管线，从零开始训练一个 Connect Four 棋手。

AlphaZero 方法的核心：

Claude Opus 4.7 的表现：

对比结果：

Agent	Connect Four 胜率 (vs Pascal Pons)	完成时间
Claude Opus 4.7	7/8 (先手)	3 小时
其他前沿 Coding Agent	≤ 2/8	未在规定时间内完成

1. 自主研究能力

AlphaZero 的实现涉及多个领域的交叉知识：强化学习、蒙特卡洛搜索、神经网络训练、博弈论。Claude Opus 4.7 不仅”写代码”，还展示了理解复杂算法 → 自主实现 → 调试优化的研究能力。

2. 与传统 Coding Agent 的差距

其他 Coding Agent 在相同任务上最高仅达到 2/8 的胜率，差距显著。这说明 Coding Agent 之间的能力分化已经出现——有些能处理端到端的研究型任务，有些仍停留在代码补全和简单重构层面。

3. 消费级硬件的可行性

实验在消费级硬件上完成，而非云端 GPU 集群。这意味着 AlphaZero 级别的自博弈训练正在从”需要百万美元算力”走向”个人开发者也能玩”的阶段。

这个实验结果与 Anthropic CEO Amodei “编程将最先消失”的声明形成了一个有趣的对照：

但同时也需要清醒认识：

Claude Opus 4.7 的 AlphaZero 实验是一个信号，但不是终局。它证明了前沿 Coding Agent 正在跨越从”代码生成器”到”自主研究者”的分水岭。下一步的关键问题是：这种能力能否迁移到更复杂的、不完全信息的真实工程场景中？