人类工程师修补 Harness 的日子可能快到头了。
当我们在讨论 Harness Engineering 时,通常默认了一个前提:人是 Harness 的设计者,Agent 是 Harness 的执行者。我们写规则、设约束、加反馈回路,然后看着 Agent 在这个笼子里干活。
但复旦大学、北京大学与上海奇绩智峰团队最新提出的 Agentic Harness Engineering (AHE) 框架,把这个前提翻了过来——让 Agent 自己读轨迹、找问题、改 Harness,并在下一轮评测中验证修改是否有效。
从”人改 Harness”到”Agent 改 Harness”
这篇论文的核心逻辑其实很直觉:既然 Agent 已经在执行任务了,它对自己哪里卡壳、哪里出错最清楚。与其让人类去盯着数百万 token 的执行轨迹手动修补,不如让 Agent 自己来。
AHE 的流程是一个闭环:
- Observability:Agent 读取自己的完整执行轨迹
- Diagnosis:分析哪里失败了,是工具调用不对?还是约束太紧/太松?
- Modification:自动修改 Harness 的配置、Prompt 或工作流
- Validation:在 Terminal-Bench 2 上验证修改后的 pass@1 是否真的提升
结果:10 轮超越 Codex-CLI
实验数据很直观:
- 起点:基于初始 Harness 的 Agent,Terminal-Bench 2 pass@1 为 69.7%
- 10 轮自动化演进后:pass@1 提升到 77.0%
- 对比:超越了人类设计的 Codex-CLI Harness
这意味着什么?意味着 Harness Engineering 本身正在从一门”手艺”变成一个”可自动化的过程”。人类工程师可能需要几周才能摸索出的 Harness 优化,AHE 在几轮迭代内就自己完成了。
行业意义
这篇论文的出现,给 2026 年初的 Harness Engineering 热潮加了一个重要的注脚:
- Harness 不再是静态的:过去我们认为 Harness 是相对固定的基础设施,模型在变,Harness 也要跟着调。AHE 证明了 Harness 可以自己适应任务分布,甚至持续进化。
- 模型不变,Agent 也能变强:AHE 的改进完全来自 Harness 层的自动化演进,模型本身没有变化。这再次印证了 2026 年的共识——Harness 才是决定 Agent 能力的核心变量。
- 工程效率的又一次跃升:当 Harness 能自己改自己,开发者只需要定义好评估标准和初始框架,剩下的交给循环迭代。这对于快速适配新模型、新工具链有巨大价值。
论文信息
- 标题:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent
- 机构:复旦大学、北京大学、上海奇绩智峰
- 评测基准:Terminal-Bench 2
这篇论文可能是 Harness Engineering 从”人工手搓”走向”自动演化”的一个重要转折点。对于正在搭建 Agent 系统的团队来说,值得关注它的开源实现和后续进展。