复旦×北大提出 AHE:让 Harness 自己进化,10 轮跑赢 Codex

复旦×北大提出 AHE:让 Harness 自己进化,10 轮跑赢 Codex

人类工程师修补 Harness 的日子可能快到头了。

当我们在讨论 Harness Engineering 时,通常默认了一个前提:人是 Harness 的设计者,Agent 是 Harness 的执行者。我们写规则、设约束、加反馈回路,然后看着 Agent 在这个笼子里干活。

但复旦大学、北京大学与上海奇绩智峰团队最新提出的 Agentic Harness Engineering (AHE) 框架,把这个前提翻了过来——让 Agent 自己读轨迹、找问题、改 Harness,并在下一轮评测中验证修改是否有效。

从”人改 Harness”到”Agent 改 Harness”

这篇论文的核心逻辑其实很直觉:既然 Agent 已经在执行任务了,它对自己哪里卡壳、哪里出错最清楚。与其让人类去盯着数百万 token 的执行轨迹手动修补,不如让 Agent 自己来。

AHE 的流程是一个闭环:

  1. Observability:Agent 读取自己的完整执行轨迹
  2. Diagnosis:分析哪里失败了,是工具调用不对?还是约束太紧/太松?
  3. Modification:自动修改 Harness 的配置、Prompt 或工作流
  4. Validation:在 Terminal-Bench 2 上验证修改后的 pass@1 是否真的提升

结果:10 轮超越 Codex-CLI

实验数据很直观:

  • 起点:基于初始 Harness 的 Agent,Terminal-Bench 2 pass@1 为 69.7%
  • 10 轮自动化演进后:pass@1 提升到 77.0%
  • 对比:超越了人类设计的 Codex-CLI Harness

这意味着什么?意味着 Harness Engineering 本身正在从一门”手艺”变成一个”可自动化的过程”。人类工程师可能需要几周才能摸索出的 Harness 优化,AHE 在几轮迭代内就自己完成了。

行业意义

这篇论文的出现,给 2026 年初的 Harness Engineering 热潮加了一个重要的注脚:

  1. Harness 不再是静态的:过去我们认为 Harness 是相对固定的基础设施,模型在变,Harness 也要跟着调。AHE 证明了 Harness 可以自己适应任务分布,甚至持续进化。
  2. 模型不变,Agent 也能变强:AHE 的改进完全来自 Harness 层的自动化演进,模型本身没有变化。这再次印证了 2026 年的共识——Harness 才是决定 Agent 能力的核心变量。
  3. 工程效率的又一次跃升:当 Harness 能自己改自己,开发者只需要定义好评估标准和初始框架,剩下的交给循环迭代。这对于快速适配新模型、新工具链有巨大价值。

论文信息

  • 标题:Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent
  • 机构:复旦大学、北京大学、上海奇绩智峰
  • 评测基准:Terminal-Bench 2

这篇论文可能是 Harness Engineering 从”人工手搓”走向”自动演化”的一个重要转折点。对于正在搭建 Agent 系统的团队来说,值得关注它的开源实现和后续进展。