今天的 Hugging Face Daily Papers 榜首被一篇来自耶鲁大学 Arman Cohan 团队的论文占据——OpenComputer。标题看起来学术味很浓,但它解决的其实是一个非常实际的痛点:我们怎么知道一个 AI agent 在电脑上做的事到底对不对?
Computer-use agent(让 AI 操控鼠标键盘操作桌面软件)是 2025-2026 年的大热门。但评估这些 agent 一直是个老大难问题——OSWorld-Verified 之类的基准跑分高,不代表 agent 在真实场景中就能靠谱地完成端到端任务。
四个核心组件
OpenComputer 的架构由四块拼成,每一块都针对现有方案的软肋:
1. 应用级状态验证器(State Verifiers)
这是整篇论文最有意思的部分。团队为 33 个桌面应用(浏览器、Office、创意软件、开发环境、文件管理器、通信工具)编写了硬编码的状态验证器,通过结构化检查端点来检查应用的真实状态。
不是让 LLM 去看截图猜结果,而是直接检查"文件是否保存了""邮件是否发送了""代码是否编译通过了"。
2. 自我进化的验证层
验证器本身也需要进化。OpenComputer 引入了一个自改进层,通过执行过程中的反馈来提升验证器的可靠性。简单说:验证器也会从错误中学习。
3. 任务生成管线
自动合成真实的、可机器检查的桌面任务。1000 个任务覆盖多种场景,从简单的"打开文件"到复杂的多步骤工作流。
4. 评估 harness
记录完整操作轨迹,计算可审计的部分得分(partial-credit rewards)。这比简单的"成功/失败"二值判断要精细得多。
关键发现
论文给出了几个让人意外的结论:
- OpenComputer 的硬编码验证器与人类评判的一致性,显著高于 LLM-as-judge 方案——尤其是当成功与否取决于细粒度的应用状态时
- 前沿 agent(frontier agents)在端到端完成上仍然吃力,尽管它们能完成部分步骤
- 开源模型在 OSWorld-Verified 上的分数与实际表现存在明显落差,暴露了 computer automation 领域的持久差距
为什么值得关注
这篇论文的价值不仅在于提出了一个新框架,更在于它直面了 agent 评估领域的一个根本问题:我们到底在测量什么?
当 LLM-as-judge 成为默认的评估方式时,OpenComputer 用实验证明:对于涉及具体应用状态的任务,硬编码验证器比 LLM 判断更可靠。这对整个 agent 研究领域都有启示意义。
此外,1000 个任务、33 个应用的覆盖范围,让它成为目前最全面的 computer-use agent 评估框架之一。
论文地址:arXiv:2605.19769