OpenComputer：为 Computer-Use Agent 构建可验证的软件世界，33 个应用、1000 个任务

今天的 Hugging Face Daily Papers 榜首被一篇来自耶鲁大学 Arman Cohan 团队的论文占据——OpenComputer。标题看起来学术味很浓，但它解决的其实是一个非常实际的痛点：我们怎么知道一个 AI agent 在电脑上做的事到底对不对？

Computer-use agent（让 AI 操控鼠标键盘操作桌面软件）是 2025-2026 年的大热门。但评估这些 agent 一直是个老大难问题——OSWorld-Verified 之类的基准跑分高，不代表 agent 在真实场景中就能靠谱地完成端到端任务。

四个核心组件

OpenComputer 的架构由四块拼成，每一块都针对现有方案的软肋：

这是整篇论文最有意思的部分。团队为 33 个桌面应用（浏览器、Office、创意软件、开发环境、文件管理器、通信工具）编写了硬编码的状态验证器，通过结构化检查端点来检查应用的真实状态。

不是让 LLM 去看截图猜结果，而是直接检查"文件是否保存了""邮件是否发送了""代码是否编译通过了"。

验证器本身也需要进化。OpenComputer 引入了一个自改进层，通过执行过程中的反馈来提升验证器的可靠性。简单说：验证器也会从错误中学习。

自动合成真实的、可机器检查的桌面任务。1000 个任务覆盖多种场景，从简单的"打开文件"到复杂的多步骤工作流。

记录完整操作轨迹，计算可审计的部分得分（partial-credit rewards）。这比简单的"成功/失败"二值判断要精细得多。

论文给出了几个让人意外的结论：

这篇论文的价值不仅在于提出了一个新框架，更在于它直面了 agent 评估领域的一个根本问题：我们到底在测量什么？

当 LLM-as-judge 成为默认的评估方式时，OpenComputer 用实验证明：对于涉及具体应用状态的任务，硬编码验证器比 LLM 判断更可靠。这对整个 agent 研究领域都有启示意义。

此外，1000 个任务、33 个应用的覆盖范围，让它成为目前最全面的 computer-use agent 评估框架之一。