C
ChaoBro

trycua/cua:15K Stars 的开源 Computer-Use Agent 基础设施,沙箱 + SDK + 评测一网打尽

trycua/cua:15K Stars 的开源 Computer-Use Agent 基础设施,沙箱 + SDK + 评测一网打尽

OpenAI 的 Codex Computer Use 让 AI Agent 获得了桌面操控能力,但它是闭源的——你只能调用 API,无法了解内部机制,更无法训练自己的模型。

trycua/cua 正在改变这个局面。这个开源项目在 GitHub Trending 本周排名中快速攀升,累计已获得 15,405 星,单周新增 1,842 星。

项目定位:Computer-Use Agent 的完整基础设施

cua 不是另一个 Agent 框架,而是 Computer-Use 的底层基础设施

┌─────────────────────────────────────┐
│           Agent 框架层              │
│  (OpenClaw / Hermes / Claude Code)  │
├─────────────────────────────────────┤
│        trycua/cua 基础设施层         │
│  ┌─────────┐ ┌─────┐ ┌──────────┐  │
│  │ 沙箱环境 │ │ SDK │ │ 评测基准 │  │
│  └─────────┘ └─────┘ └──────────┘  │
├─────────────────────────────────────┤
│         操作系统层                   │
│   macOS / Linux / Windows           │
└─────────────────────────────────────┘

三大核心组件

1. 跨平台沙箱环境

cua 提供了完整的桌面控制沙箱:

平台支持状态说明
macOS完整的鼠标/键盘/屏幕控制
Linux支持 X11 和 Wayland
Windows原生桌面控制

沙箱的设计目标:让 Agent 在隔离环境中安全地操作桌面,同时提供完整的观测和干预能力

2. SDK

cua 的 SDK 让开发者可以快速构建自己的 Computer-Use Agent:

  • 统一的屏幕观测接口:截图、DOM 树、辅助功能树
  • 标准的操作接口:鼠标移动、点击、键盘输入
  • 状态管理机制:Agent 可以追踪当前操作状态和上下文
  • 多 Agent 支持:支持多个 Agent 同时操作同一桌面(这是比 Codex Computer Use 更强的能力)

3. 评测基准

cua 内置了 Computer-Use Agent 的评测基准:

  • 标准任务集:覆盖文件操作、网页浏览、应用控制等场景
  • 成功率指标:量化 Agent 在各种任务上的表现
  • 效率指标:token 消耗、操作步数、错误率

这填补了一个关键空白——目前 Computer-Use 领域缺乏标准化的评测基准,cua 的基准有望成为行业事实标准。

与竞品的对比

维度trycua/cuaOpenAI Codex CUClaude Computer Use
开源✅ 完全开源❌ 闭源 API❌ 闭源 API
跨平台macOS/Linux/WindowsmacOS/LinuxmacOS
多 Agent 并发✅ 支持❌ 不支持❌ 不支持
自定义训练✅ 可训练自有模型
评测基准✅ 内置
成本自建按 token 计费按 token 计费

Hermes 创始人的反应

值得注意的是,Hermes Agent 的创始人已经在社交平台公开表示正在连夜将 Computer-Use 能力整合进 Hermes。考虑到 cua 是纯开源方案,Hermes 很可能直接集成 cua 的沙箱和 SDK。

这意味着:cua 正在成为 Computer-Use Agent 生态的事实标准基础设施——就像 vLLM 是推理服务的标准基础设施一样。

行动建议

  • Agent 框架开发者:评估 cua 的 SDK 和沙箱,为你的 Agent 框架添加 Computer-Use 能力提供了现成的底层支持
  • 研究者:使用 cua 的评测基准比较不同 Computer-Use 模型的表现,推动领域标准化
  • 企业安全团队:cua 的沙箱设计值得参考——它提供了一个在隔离环境中安全运行 Computer-Use Agent 的模板
  • 个人开发者:如果你在构建桌面自动化工作流,cua 比闭源 API 方案更灵活、成本更低

在 Computer-Use 这个快速增长的领域,基础设施层的开源方案正在追赶 API 层的闭源方案。trycua/cua 是这个趋势的代表。