Cursor 公开 Composer 系列模型 RL 训练技巧：用上一代模型自动搭建训练环境

训练一个编码 Agent 最麻烦的事不是模型本身，而是——环境跑不起来。

RL 训练需要一个可运行的代码环境。环境配不好，模型把 token 全浪费在调 bug 和装依赖上，根本没机会学怎么写代码。Cursor 刚刚公开了他们解决这个问题的方法，名字叫 autoinstall。

思路简单到有点粗暴：用上一代 Composer 模型给下一代自动搭建训练环境。

怎么做到的

训练 Composer 2 的时候，Cursor 用 Composer 1.5 来完成环境初始化。具体来说：

这形成了一个自我迭代的闭环：每一代模型都比上一代更擅长搭建环境，而下一代模型的训练环境也因此更干净。

Cursor 不是第一个做 RL 训练的公司，但他们是第一个公开把"环境搭建"这个脏活交给模型自己去干的。

大多数公司做编码 Agent 的 RL 训练，要么用人工写好的 Docker 环境，要么靠工程师手动调试。Cursor 直接把这一步自动化了，而且用的是自己的模型。

这个做法的好处很明显：

但也有隐患：如果上一代模型搭建的环境有 bug 或者缺失依赖，这些错误会传递给下一代训练过程，形成累积误差。

这个技巧本身不太可能被普通开发者直接复用——毕竟不是每个人都有 Composer 1.5 可以拿来用。但思路可以借鉴：

如果你在用 Claude Code 或 Codex 做自动化任务，可以先用一个便宜快的模型（比如 Haiku 或 GPT-4o mini）做环境初始化和依赖检查，确认跑通了再交给强模型做实际工作。省下来的 token 都是钱。

Cursor 在编码 Agent 训练上的方法论一直比较务实。不吹"颠覆"，只解决实际问题。这次公开 autoinstall 也延续了这个风格。

主要来源：