复旦×北大提出 AHE：让 Harness 自己进化，10 轮跑赢 Codex

May 1, 2026 by ChaoBro

#Agentic Harness Engineering #AHE #复旦大学 #北京大学 #Terminal-Bench

复旦×北大提出 AHE：让 Harness 自己进化，10 轮跑赢 Codex

人类工程师修补 Harness 的日子可能快到头了。

当我们在讨论 Harness Engineering 时，通常默认了一个前提：人是 Harness 的设计者，Agent 是 Harness 的执行者。我们写规则、设约束、加反馈回路，然后看着 Agent 在这个笼子里干活。

但复旦大学、北京大学与上海奇绩智峰团队最新提出的 Agentic Harness Engineering (AHE) 框架，把这个前提翻了过来——让 Agent 自己读轨迹、找问题、改 Harness，并在下一轮评测中验证修改是否有效。

从"人改 Harness"到"Agent 改 Harness"

这篇论文的核心逻辑其实很直觉：既然 Agent 已经在执行任务了，它对自己哪里卡壳、哪里出错最清楚。与其让人类去盯着数百万 token 的执行轨迹手动修补，不如让 Agent 自己来。

AHE 的流程是一个闭环：

Observability：Agent 读取自己的完整执行轨迹
Diagnosis：分析哪里失败了，是工具调用不对？还是约束太紧/太松？
Modification：自动修改 Harness 的配置、Prompt 或工作流
Validation：在 Terminal-Bench 2 上验证修改后的 pass@1 是否真的提升

结果：10 轮超越 Codex-CLI

实验数据很直观：

起点：基于初始 Harness 的 Agent，Terminal-Bench 2 pass@1 为 69.7%
10 轮自动化演进后：pass@1 提升到 77.0%
对比：超越了人类设计的 Codex-CLI Harness

这意味着什么？意味着 Harness Engineering 本身正在从一门"手艺"变成一个"可自动化的过程"。人类工程师可能需要几周才能摸索出的 Harness 优化，AHE 在几轮迭代内就自己完成了。

行业意义

这篇论文的出现，给 2026 年初的 Harness Engineering 热潮加了一个重要的注脚：

Harness 不再是静态的：过去我们认为 Harness 是相对固定的基础设施，模型在变，Harness 也要跟着调。AHE 证明了 Harness 可以自己适应任务分布，甚至持续进化。
模型不变，Agent 也能变强：AHE 的改进完全来自 Harness 层的自动化演进，模型本身没有变化。这再次印证了 2026 年的共识——Harness 才是决定 Agent 能力的核心变量。
工程效率的又一次跃升：当 Harness 能自己改自己，开发者只需要定义好评估标准和初始框架，剩下的交给循环迭代。这对于快速适配新模型、新工具链有巨大价值。

论文信息

标题：Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent
机构：复旦大学、北京大学、上海奇绩智峰
评测基准：Terminal-Bench 2

这篇论文可能是 Harness Engineering 从"人工手搓"走向"自动演化"的一个重要转折点。对于正在搭建 Agent 系统的团队来说，值得关注它的开源实现和后续进展。