C
ChaoBro

Code as Agent Harness:当代码不再是输出,而是 Agent 的"操作系统"

Code as Agent Harness:当代码不再是输出,而是 Agent 的"操作系统"

如果说 2024 年的 LLM 革命是关于"模型能写代码",那 2026 年的 agentic AI 革命就是关于代码反过来驱动模型——代码不再只是 Agent 的输出物,它变成了 Agent 自身的操作系统。

这篇由 42 位作者(包括多位知名学术机构和工业界研究者)撰写的综述论文,今天登顶 Hugging Face Daily Papers #1,提出了一个统一的理论框架:Code as Agent Harness

核心命题

论文的核心观点很明确:在新兴的 agentic 系统中,代码已经超越了"目标输出"的角色,成为了 Agent 的推理载体、行动执行器、环境建模工具和基于执行的验证基础设施

作者把这个转变归纳为三个层级:

第一层:Harness Interface(线束接口)

代码如何把 Agent 连接到推理、行动和环境建模。这不是简单的"调用 API",而是代码作为 Agent 的感知-决策-执行循环的骨架。

第二层:Harness Mechanisms(线束机制)

这里覆盖的是长时程执行中的关键能力:

  • Planning(规划):代码如何组织任务分解和执行顺序
  • Memory(记忆):代码状态作为持久化记忆
  • Tool Use(工具使用):代码作为工具调用和编排的胶水层
  • Feedback-driven Control(反馈驱动控制):基于执行结果的自适应优化

第三层:Scaling to Multi-Agent(扩展到多智能体)

当代码成为共享构件(shared code artifacts),多 Agent 之间的协调、审查和验证就有了统一的语义基础。论文讨论了这个方向下的开放挑战——尤其是在跨 Agent 状态一致性安全关键操作的人类监督方面。

应用场景全景

论文梳理了代码作为 Agent Harness 在多个领域的应用:

  • 编码助手(Claude Code、Cursor 等)
  • GUI/OS 自动化
  • 具身智能体(Embodied Agents)
  • 科学发现
  • 个性化与推荐
  • DevOps
  • 企业工作流

开放挑战

论文没有回避问题。几个关键的开放挑战写得相当坦诚:

  1. 评估不能只看最终任务成功率——需要评估 Harness 的中间状态和决策质量
  2. 不完整反馈下的验证——当环境反馈是稀疏或有噪声时,如何判断 Harness 是否"正确"
  3. 无回归的 Harness 改进——修改 Harness 代码时如何确保不引入退化
  4. 多模态环境下的扩展——当前框架主要针对文本/代码环境

一句话总结

这篇论文的价值不在于提出了什么新技术,而在于把散落在各个方向上的"代码驱动 Agent"实践统一到了一个理论框架下。对于正在构建 agentic AI 系统的工程师来说,这份路线图比任何单一论文都更有参考价值。

论文和代码已经开源。对于 Agent 开发者来说,这可能是今年最值得精读的综述之一。

主要来源:

  • arXiv:2605.18747 - Code as Agent Harness 综述论文