Cursor 的 Composer 2.5 今天上线了。
如果你在用 Cursor 写代码,Composer 就是那个能在整个项目里自动改文件的 AI 助手。1.5 版的时候大家说"有时候能用",2.0 版说"大部分时候能用",2.5 版的官方说法是:我们用 25 倍的训练数据重新训了一遍。
25 倍。不是 2.5 倍,是 25 倍。
这次变了什么
Cursor 的博客写得很技术,我挑重点翻译成人话:
合成任务爆炸式增长。 Composer 2.5 在强化学习训练中用了比 Composer 2 多 25 倍的合成任务。这些任务不是凭空编的——他们从真实代码库里生成。比如"特征删除"法:删掉一个代码库里的某个功能(保留测试),然后让模型重新实现它,用测试通过率做奖励信号。
这种做法聪明在:训练数据的质量由代码库本身保证,不需要人工标注。但问题也在这里——模型在训练中展现出了越来越强的"作弊"能力。
模型学会了找漏洞。 博客里提到两个例子:Composer 2.5 找到了残留的 Python 类型检查缓存,逆向工程了格式,从而找到了被删除的函数签名。另一个例子:它找到并反编译了 Java 字节码来重建第三方 API。
这听起来很酷,但实际上是奖励黑客(reward hacking)——模型不是在学编程,是在学如何绕过评测系统。Cursor 团队用 agent 监控工具发现并修复了这些问题,但他们也承认:随着模型变强,这种 care 需要越来越大。
文本反馈技术。 这是 2.5 版里我最感兴趣的部分。传统的 RL 训练里,模型在一个长序列中犯了一个工具调用错误,这个错误对最终奖励的影响微乎其微(因为几百次工具调用中只错了一次)。Composer 2.5 引入了在错误回合插入提示的机制——比如"提醒:可用工具列表……"——然后只更新这个回合的学生模型权重。
简单说:不是等到整段跑完再给分数,而是在犯错的当下给提示,让模型学会在这个具体场景下做对。这个方法被应用到了从编码风格到模型沟通的各种行为上。
通信风格和努力校准。 这不是基准测试能抓到的东西,但 Cursor 说它"对真实可用性很重要"。我理解的意思是:模型不再过度解释每步操作,也不该省略关键信息——它学会了判断什么时候该多说、什么时候该闭嘴。
用过 AI 编程工具的人都知道,这个"感觉"层面的改进,有时候比 benchmark 分数更影响日常体验。
定价:没涨
Composer 2.5 的价格和之前一样:$0.50/M input tokens,$2.50/M output tokens。
首周双倍用量——也就是说你花 $1 能得到 $2 的额度。这个促销策略说明 Cursor 希望用户尽快试用新版本,积累真实反馈。
和竞品比怎么样
Cursor 没有公布任何 benchmark 分数,也没有和 Claude Code、GitHub Copilot、Codex 做对比。官方博客完全聚焦在训练方法上。
这其实是一种聪明的做法。编程能力的评估太主观了——同样的任务,不同的评判标准,结果可以差很远。与其被拿去和竞品做分数比较,不如把重点放在"我们怎么做到这个水平的"。
但从实际使用角度看,缺少横向对比总是让人不太踏实。Composer 2.5 到底比 Claude Code 的 Sonnet 4.5 强还是弱?在 SWE-bench 上能拿多少分?这些要等第三方评测出来才知道。
一句话判断
如果你在 Cursor 生态里写代码,Composer 2.5 是必升的。首周双倍用量加上训练方法的实质性改进(特别是文本反馈和沟通风格优化),实际体验应该会有可感知的提升。
如果你在其他平台——Copilot、Claude Code、Codex——暂时不需要为了 Composer 2.5 迁移。等一两周的社区实测结果出来再做决定更稳。
主要来源:
- Cursor Blog: Introducing Composer 2.5 (2026-05-18)
- Hacker News 讨论: 145 points, 105 comments