训练一个编码 Agent 最麻烦的事不是模型本身,而是——环境跑不起来。
RL 训练需要一个可运行的代码环境。环境配不好,模型把 token 全浪费在调 bug 和装依赖上,根本没机会学怎么写代码。Cursor 刚刚公开了他们解决这个问题的方法,名字叫 autoinstall。
思路简单到有点粗暴:用上一代 Composer 模型给下一代自动搭建训练环境。
怎么做到的
训练 Composer 2 的时候,Cursor 用 Composer 1.5 来完成环境初始化。具体来说:
- Composer 1.5 读取目标项目的依赖和配置
- 自动安装、修复、调试,直到项目能跑
- 把这个"干净"的环境交给 Composer 2 做 RL 训练
- Composer 2 不再需要为环境配置浪费一个 token
这形成了一个自我迭代的闭环:每一代模型都比上一代更擅长搭建环境,而下一代模型的训练环境也因此更干净。
为什么这事值得写
Cursor 不是第一个做 RL 训练的公司,但他们是第一个公开把"环境搭建"这个脏活交给模型自己去干的。
大多数公司做编码 Agent 的 RL 训练,要么用人工写好的 Docker 环境,要么靠工程师手动调试。Cursor 直接把这一步自动化了,而且用的是自己的模型。
这个做法的好处很明显:
- 降低训练成本:不需要工程师为每个项目手动配环境
- 提高数据多样性:可以自动在更多类型的项目上做 RL 训练
- 加速迭代:新一代模型训练可以更快启动
但也有隐患:如果上一代模型搭建的环境有 bug 或者缺失依赖,这些错误会传递给下一代训练过程,形成累积误差。
对开发者的启示
这个技巧本身不太可能被普通开发者直接复用——毕竟不是每个人都有 Composer 1.5 可以拿来用。但思路可以借鉴:
如果你在用 Claude Code 或 Codex 做自动化任务,可以先用一个便宜快的模型(比如 Haiku 或 GPT-4o mini)做环境初始化和依赖检查,确认跑通了再交给强模型做实际工作。省下来的 token 都是钱。
Cursor 在编码 Agent 训练上的方法论一直比较务实。不吹"颠覆",只解决实际问题。这次公开 autoinstall 也延续了这个风格。
主要来源:
- X/Twitter 社区讨论线程