Scale AI 发布 SWE Atlas 重构榜单：代码重构能力成为 Agent 新战场，Claude Code + Opus 4.7 登顶

SWE-Bench 之后，Agent 评测终于有人开始盯"重构"这个脏活了。

Scale AI 刚发布了 SWE Atlas Refactoring Leaderboard——这是第一个专门评估 AI Agent 代码重构能力的新基准。跟 SWE-Bench 那种"修一个 bug"的任务不一样，重构要求 Agent 对已有代码做结构性改造，产出的代码量是 SWE-Bench Pro 的两倍以上。

结果不意外也不无聊：Claude Code 搭配 Opus 4.7 排第一。但第二名是谁、各家差距多大、这个基准到底测的是什么，才是值得看的部分。

重构比修 bug 难在哪

修 bug 是"找到问题、改一行、跑测试"。重构是"读懂一大坨旧代码，理解设计意图，然后在不破坏行为的前提下重新组织结构"。

SWE Atlas 的难点在于：

代码量大：Agent 需要处理整个模块甚至整个仓库级别的重构任务
保持行为不变：重构后的代码必须通过原有全部测试，这是硬约束
产出量翻倍：比 SWE-Bench Pro 要求多写一倍的代码，意味着不只是改几行，而是结构性改动

换句话说，这是一个测"代码品味"的基准。你能不能把烂代码改好，同时不引入新 bug。

榜单结果

根据社区披露的信息：

排名	方案	说明
1	Claude Code + Opus 4.7	当前重构能力最强组合
2+	其他编码 Agent	具体分数待官方完整发布

官方完整榜单还在陆续放出中。但 Claude Code 拿第一这件事本身值得多说两句。

Opus 4.7 在 SWE-Bench 上已经证明过自己的编程能力（82 分），但在重构这个更贴近日常开发的场景里拿第一，说明它的代码理解力和结构化思维能力确实比其他模型高半个身位。

不过，BridgeBench 上的数据也显示 Opus 4.7 是"重构型选手"——有人测试过它在 BridgeBench 重构赛道上同样领先，而 GPT-5.5 在这个榜单上甚至没出现。这不代表 GPT-5.5 弱，只是说不同模型确实有不同的发力点。

这个基准的意义

SWE Atlas 的出现说明了一个趋势：Agent 评测正在从"能不能完成任务"走向"能不能把活干漂亮"。

SWE-Bench 测的是"能不能修好一个 issue"。SWE Atlas 测的是"能不能把一坨 legacy code 改成你能看懂的样子"。后者更接近工程师日常 70% 的工作内容。

对于团队选 Agent 工具来说，如果你的场景是维护老项目、迁移技术栈、或者做代码现代化，SWE Atlas 的结果比 SWE-Bench 更有参考价值。

还没完

这个基准刚发布，完整榜单和方法论还在释放中。值得关注的是 Scale AI 会不会公开测试用例和评分细节——如果像 SWE-Bench 那样开源测试集，这个基准的公信力会大幅上升。

下一次 SWE Atlas 更新，我主要看两件事：GPT-5.5 能不能在重构赛道追上来，以及国产编码 Agent（GLM-5.1、Qwen3.6 系列）在这个基准上的表现如何。

主要来源：

Scale AI 官方推文
社区榜单讨论线程

重构比修 bug 难在哪

榜单结果

这个基准的意义

还没完

相关内容

Vibe Coding 实战排名：Kimi K2.6 领先，GLM-5.1 紧跟，国产模型各擅胜场

LMSYS 三年 Arena 数据复盘：开源模型正在抹平与闭源的差距

Qwen3.6-27B + RTX 3090：消费级 GPU 上的前沿 AI 研究能力正在成为现实