如果说 2024 年的 LLM 革命是关于"模型能写代码",那 2026 年的 agentic AI 革命就是关于代码反过来驱动模型——代码不再只是 Agent 的输出物,它变成了 Agent 自身的操作系统。
这篇由 42 位作者(包括多位知名学术机构和工业界研究者)撰写的综述论文,今天登顶 Hugging Face Daily Papers #1,提出了一个统一的理论框架:Code as Agent Harness。
核心命题
论文的核心观点很明确:在新兴的 agentic 系统中,代码已经超越了"目标输出"的角色,成为了 Agent 的推理载体、行动执行器、环境建模工具和基于执行的验证基础设施。
作者把这个转变归纳为三个层级:
第一层:Harness Interface(线束接口)
代码如何把 Agent 连接到推理、行动和环境建模。这不是简单的"调用 API",而是代码作为 Agent 的感知-决策-执行循环的骨架。
第二层:Harness Mechanisms(线束机制)
这里覆盖的是长时程执行中的关键能力:
- Planning(规划):代码如何组织任务分解和执行顺序
- Memory(记忆):代码状态作为持久化记忆
- Tool Use(工具使用):代码作为工具调用和编排的胶水层
- Feedback-driven Control(反馈驱动控制):基于执行结果的自适应优化
第三层:Scaling to Multi-Agent(扩展到多智能体)
当代码成为共享构件(shared code artifacts),多 Agent 之间的协调、审查和验证就有了统一的语义基础。论文讨论了这个方向下的开放挑战——尤其是在跨 Agent 状态一致性和安全关键操作的人类监督方面。
应用场景全景
论文梳理了代码作为 Agent Harness 在多个领域的应用:
- 编码助手(Claude Code、Cursor 等)
- GUI/OS 自动化
- 具身智能体(Embodied Agents)
- 科学发现
- 个性化与推荐
- DevOps
- 企业工作流
开放挑战
论文没有回避问题。几个关键的开放挑战写得相当坦诚:
- 评估不能只看最终任务成功率——需要评估 Harness 的中间状态和决策质量
- 不完整反馈下的验证——当环境反馈是稀疏或有噪声时,如何判断 Harness 是否"正确"
- 无回归的 Harness 改进——修改 Harness 代码时如何确保不引入退化
- 多模态环境下的扩展——当前框架主要针对文本/代码环境
一句话总结
这篇论文的价值不在于提出了什么新技术,而在于把散落在各个方向上的"代码驱动 Agent"实践统一到了一个理论框架下。对于正在构建 agentic AI 系统的工程师来说,这份路线图比任何单一论文都更有参考价值。
论文和代码已经开源。对于 Agent 开发者来说,这可能是今年最值得精读的综述之一。
主要来源:
- arXiv:2605.18747 - Code as Agent Harness 综述论文