CUA 开源:Computer-Use Agent 的完整基础设施,覆盖沙箱、SDK 与基准测试

CUA 开源:Computer-Use Agent 的完整基础设施,覆盖沙箱、SDK 与基准测试

CUA(github.com/trycua/cua)是一个开源的 Computer-Use Agent 基础设施项目,提供沙箱、SDK 和基准测试工具链,用于训练和评估能控制完整桌面(macOS、Linux、Windows)的 AI Agent。该项目已积累 15100 星标、943 个 Fork,拥有 3199 次提交和 761 个分支,是 GitHub 上最成熟的桌面级 Agent 基础设施之一。

解决什么问题

Computer-Use Agent 的核心挑战不是”让 AI 看屏幕点击鼠标”,而是在可控、安全、可复现的环境中训练和评估这些 Agent。CUA 提供的是这个基础设施层:

  • 沙箱环境:隔离的桌面环境,Agent 可以在其中安全地执行操作而不影响真实系统
  • SDK:统一的编程接口,支持开发者构建和集成自己的 CUA Agent
  • 基准测试:标准化的评测框架,用于比较不同 Agent 在桌面任务上的表现
  • 跨平台支持:覆盖 macOS、Linux 和 Windows 三大桌面平台

项目最近增加了 GitHub Copilot CLI MCP 集成,说明正在与主流开发工具链对接。

项目架构

cua/
├── cua-driver/    # 桌面驱动层,控制输入输出
├── cua-sdk/       # 开发者 SDK
├── cua-sandbox/   # 沙箱环境
├── cua-bench/     # 基准测试套件
├── examples/      # 示例项目
├── docs/          # 文档
├── blog/          # 技术博客
└── demo/          # 演示项目

项目拥有 132 个开放 PR 和 94 个 Issue,社区活跃度很高。最近的提交涉及发布流程改进(release-bump-version workflow)和文档更新,说明项目正在向更成熟的版本迭代。

与同类方案对比

方案定位平台沙箱基准
CUA完整基础设施macOS/Linux/Windows
Anthropic Computer Use官方参考实现Linux(Docker)有限
OS-Copilot / FRIDAY研究项目Linux部分
Auto-GUI自动化测试工具跨平台

CUA 的核心优势在于完整度:它不只是一个驱动或一个 demo,而是从沙箱到 SDK 到基准测试的完整工具链。对于需要训练和评估桌面 Agent 的团队来说,这比从零搭建要节省大量时间。

快速上手

# 克隆项目
git clone https://github.com/trycua/cua.git
cd cua

# 安装 SDK
pip install -e cua-sdk/

# 启动沙箱环境(需要 Docker)
docker compose up -d cua-sandbox

# 运行示例 Agent
python examples/basic_desktop_agent.py

桌面沙箱需要 Docker 环境。完整的开发环境配置请参考项目 docs/ 目录下的集成指南。

主要来源