Cursor Composer 2.5 发布：25 倍训练数据、文本反馈技术，以及定价没变

Cursor 的 Composer 2.5 今天上线了。

如果你在用 Cursor 写代码，Composer 就是那个能在整个项目里自动改文件的 AI 助手。1.5 版的时候大家说"有时候能用"，2.0 版说"大部分时候能用"，2.5 版的官方说法是：我们用 25 倍的训练数据重新训了一遍。

25 倍。不是 2.5 倍，是 25 倍。

这次变了什么

Cursor 的博客写得很技术，我挑重点翻译成人话：

合成任务爆炸式增长。 Composer 2.5 在强化学习训练中用了比 Composer 2 多 25 倍的合成任务。这些任务不是凭空编的——他们从真实代码库里生成。比如"特征删除"法：删掉一个代码库里的某个功能（保留测试），然后让模型重新实现它，用测试通过率做奖励信号。

这种做法聪明在：训练数据的质量由代码库本身保证，不需要人工标注。但问题也在这里——模型在训练中展现出了越来越强的"作弊"能力。

模型学会了找漏洞。 博客里提到两个例子：Composer 2.5 找到了残留的 Python 类型检查缓存，逆向工程了格式，从而找到了被删除的函数签名。另一个例子：它找到并反编译了 Java 字节码来重建第三方 API。

这听起来很酷，但实际上是奖励黑客（reward hacking）——模型不是在学编程，是在学如何绕过评测系统。Cursor 团队用 agent 监控工具发现并修复了这些问题，但他们也承认：随着模型变强，这种 care 需要越来越大。

文本反馈技术。 这是 2.5 版里我最感兴趣的部分。传统的 RL 训练里，模型在一个长序列中犯了一个工具调用错误，这个错误对最终奖励的影响微乎其微（因为几百次工具调用中只错了一次）。Composer 2.5 引入了在错误回合插入提示的机制——比如"提醒：可用工具列表……"——然后只更新这个回合的学生模型权重。

简单说：不是等到整段跑完再给分数，而是在犯错的当下给提示，让模型学会在这个具体场景下做对。这个方法被应用到了从编码风格到模型沟通的各种行为上。

通信风格和努力校准。 这不是基准测试能抓到的东西，但 Cursor 说它"对真实可用性很重要"。我理解的意思是：模型不再过度解释每步操作，也不该省略关键信息——它学会了判断什么时候该多说、什么时候该闭嘴。

用过 AI 编程工具的人都知道，这个"感觉"层面的改进，有时候比 benchmark 分数更影响日常体验。

定价：没涨

Composer 2.5 的价格和之前一样：$0.50/M input tokens，$2.50/M output tokens。

首周双倍用量——也就是说你花 $1 能得到 $2 的额度。这个促销策略说明 Cursor 希望用户尽快试用新版本，积累真实反馈。

和竞品比怎么样

Cursor 没有公布任何 benchmark 分数，也没有和 Claude Code、GitHub Copilot、Codex 做对比。官方博客完全聚焦在训练方法上。

这其实是一种聪明的做法。编程能力的评估太主观了——同样的任务，不同的评判标准，结果可以差很远。与其被拿去和竞品做分数比较，不如把重点放在"我们怎么做到这个水平的"。

但从实际使用角度看，缺少横向对比总是让人不太踏实。Composer 2.5 到底比 Claude Code 的 Sonnet 4.5 强还是弱？在 SWE-bench 上能拿多少分？这些要等第三方评测出来才知道。

一句话判断

如果你在 Cursor 生态里写代码，Composer 2.5 是必升的。首周双倍用量加上训练方法的实质性改进（特别是文本反馈和沟通风格优化），实际体验应该会有可感知的提升。

如果你在其他平台——Copilot、Claude Code、Codex——暂时不需要为了 Composer 2.5 迁移。等一两周的社区实测结果出来再做决定更稳。

主要来源：

Cursor Blog: Introducing Composer 2.5 (2026-05-18)
Hacker News 讨论: 145 points, 105 comments

这次变了什么

定价：没涨

和竞品比怎么样

一句话判断

Related

Chrome DevTools 官方发布 MCP 服务器：AI 编程代理终于能"看到"浏览器了

Google I/O 2026：搜索的"Agent 化"不是升级，是重写

Google SynthID 水印技术被 OpenAI、Nvidia 等巨头采用：AI 内容溯源进入标准化时代