C
ChaoBro

OpenComputer:为 Computer-Use Agent 构建可验证的软件世界,33 个应用、1000 个任务

OpenComputer:为 Computer-Use Agent 构建可验证的软件世界,33 个应用、1000 个任务

今天的 Hugging Face Daily Papers 榜首被一篇来自耶鲁大学 Arman Cohan 团队的论文占据——OpenComputer。标题看起来学术味很浓,但它解决的其实是一个非常实际的痛点:我们怎么知道一个 AI agent 在电脑上做的事到底对不对?

Computer-use agent(让 AI 操控鼠标键盘操作桌面软件)是 2025-2026 年的大热门。但评估这些 agent 一直是个老大难问题——OSWorld-Verified 之类的基准跑分高,不代表 agent 在真实场景中就能靠谱地完成端到端任务。

四个核心组件

OpenComputer 的架构由四块拼成,每一块都针对现有方案的软肋:

1. 应用级状态验证器(State Verifiers)

这是整篇论文最有意思的部分。团队为 33 个桌面应用(浏览器、Office、创意软件、开发环境、文件管理器、通信工具)编写了硬编码的状态验证器,通过结构化检查端点来检查应用的真实状态。

不是让 LLM 去看截图猜结果,而是直接检查"文件是否保存了""邮件是否发送了""代码是否编译通过了"。

2. 自我进化的验证层

验证器本身也需要进化。OpenComputer 引入了一个自改进层,通过执行过程中的反馈来提升验证器的可靠性。简单说:验证器也会从错误中学习

3. 任务生成管线

自动合成真实的、可机器检查的桌面任务。1000 个任务覆盖多种场景,从简单的"打开文件"到复杂的多步骤工作流。

4. 评估 harness

记录完整操作轨迹,计算可审计的部分得分(partial-credit rewards)。这比简单的"成功/失败"二值判断要精细得多。

关键发现

论文给出了几个让人意外的结论:

  • OpenComputer 的硬编码验证器与人类评判的一致性,显著高于 LLM-as-judge 方案——尤其是当成功与否取决于细粒度的应用状态时
  • 前沿 agent(frontier agents)在端到端完成上仍然吃力,尽管它们能完成部分步骤
  • 开源模型在 OSWorld-Verified 上的分数与实际表现存在明显落差,暴露了 computer automation 领域的持久差距

为什么值得关注

这篇论文的价值不仅在于提出了一个新框架,更在于它直面了 agent 评估领域的一个根本问题:我们到底在测量什么?

当 LLM-as-judge 成为默认的评估方式时,OpenComputer 用实验证明:对于涉及具体应用状态的任务,硬编码验证器比 LLM 判断更可靠。这对整个 agent 研究领域都有启示意义。

此外,1000 个任务、33 个应用的覆盖范围,让它成为目前最全面的 computer-use agent 评估框架之一。

论文地址:arXiv:2605.19769