结论先行
Cursor 团队做了一个看似简单却意味深长的实验:
同一个模型(GPT-5.2-Codex),只改 Agent Harness,Terminal-Bench 2.0 得分从 52.8% → 66.5%,排名从 Top 30 外 → Top 5。
这验证了一个关键判断:在 Agent 场景中,架构(Harness)的重要性不亚于模型本身。
公式:Agent = Model + Harness
这是 Cursor 团队提出的核心公式:
- Model:语言模型,提供理解和生成能力
- Harness:代理框架层,负责任务拆解、工具编排、上下文管理、错误恢复
模型是必要的,但不是充分的。Harness 才是将语言模型转化为有用 Agent 的关键。
Harness 优化的四个核心维度
1. 上下文管理策略
| 策略 | 优化前 | 优化后 |
|---|---|---|
| 上下文窗口利用 | 线性填充,经常溢出 | 分层管理,关键信息优先 |
| 历史信息保留 | 保留所有对话记录 | 智能压缩,保留决策节点 |
| 文件上下文 | 全文件加载 | 按需加载 + 摘要缓存 |
2. 任务拆解与规划
- 优化前:直接让模型执行复杂任务,失败率高
- 优化后:先让模型制定执行计划 → 分步骤执行 → 每步验证 → 失败自动回退重试
3. 工具编排
- 串行 vs 并行:识别可并行执行的步骤,缩短总执行时间
- 工具选择:动态选择最合适的工具,而非固定工具链
- 结果验证:每个工具调用后验证输出质量,不合格则调整参数重试
4. 错误恢复机制
- 优化前:遇到错误即停止
- 优化后:分级错误处理 → 自动诊断 → 尝试修复 → 超过重试阈值后向用户报告
为什么这件事重要
对行业的影响
当前 AI 社区的注意力过度集中在模型能力上,而忽视了Harness 层的优化空间。Cursor 的实验证明:
- Harness 优化可以释放 10-15% 的额外性能(52.8% → 66.5%)
- 成本远低于模型升级:不需要更贵的 API 调用
- 可迁移性:Harness 优化策略可以应用于不同模型
对开发者的启示
- 不要只盯着模型切换:在抱怨模型不够好之前,先检查你的 Agent Harness 是否优化到位
- Harness 是可积累的竞争优势:模型会快速迭代,但好的 Harness 设计可以长期受益
- 开源 Harness 项目值得关注:如 OpenClaw、Hermes 等框架的架构设计理念
行动建议
| 场景 | 建议 |
|---|---|
| 已有 Agent 应用 | 审查 Harness 层的上下文管理、错误恢复、工具编排逻辑 |
| 新建 Agent 项目 | 优先设计 Harness 架构,再选择模型 |
| 成本敏感场景 | Harness 优化比升级到更贵模型的 ROI 更高 |
| 模型已是最优 | Harness 是唯一可优化的方向 |
总结
“模型是引擎,Harness 是变速箱。“好的引擎配差的变速箱,跑不出好性能。Cursor 的实验用数据证明了这个类比——在 Agent 竞赛中,架构优化的重要性正在被严重低估。