CUA(github.com/trycua/cua)是一个开源的 Computer-Use Agent 基础设施项目,提供沙箱、SDK 和基准测试工具链,用于训练和评估能控制完整桌面(macOS、Linux、Windows)的 AI Agent。该项目已积累 15100 星标、943 个 Fork,拥有 3199 次提交和 761 个分支,是 GitHub 上最成熟的桌面级 Agent 基础设施之一。
解决什么问题
Computer-Use Agent 的核心挑战不是”让 AI 看屏幕点击鼠标”,而是在可控、安全、可复现的环境中训练和评估这些 Agent。CUA 提供的是这个基础设施层:
- 沙箱环境:隔离的桌面环境,Agent 可以在其中安全地执行操作而不影响真实系统
- SDK:统一的编程接口,支持开发者构建和集成自己的 CUA Agent
- 基准测试:标准化的评测框架,用于比较不同 Agent 在桌面任务上的表现
- 跨平台支持:覆盖 macOS、Linux 和 Windows 三大桌面平台
项目最近增加了 GitHub Copilot CLI MCP 集成,说明正在与主流开发工具链对接。
项目架构
cua/
├── cua-driver/ # 桌面驱动层,控制输入输出
├── cua-sdk/ # 开发者 SDK
├── cua-sandbox/ # 沙箱环境
├── cua-bench/ # 基准测试套件
├── examples/ # 示例项目
├── docs/ # 文档
├── blog/ # 技术博客
└── demo/ # 演示项目
项目拥有 132 个开放 PR 和 94 个 Issue,社区活跃度很高。最近的提交涉及发布流程改进(release-bump-version workflow)和文档更新,说明项目正在向更成熟的版本迭代。
与同类方案对比
| 方案 | 定位 | 平台 | 沙箱 | 基准 |
|---|---|---|---|---|
| CUA | 完整基础设施 | macOS/Linux/Windows | ✅ | ✅ |
| Anthropic Computer Use | 官方参考实现 | Linux(Docker) | 有限 | ❌ |
| OS-Copilot / FRIDAY | 研究项目 | Linux | ❌ | 部分 |
| Auto-GUI | 自动化测试工具 | 跨平台 | ❌ | ❌ |
CUA 的核心优势在于完整度:它不只是一个驱动或一个 demo,而是从沙箱到 SDK 到基准测试的完整工具链。对于需要训练和评估桌面 Agent 的团队来说,这比从零搭建要节省大量时间。
快速上手
# 克隆项目
git clone https://github.com/trycua/cua.git
cd cua
# 安装 SDK
pip install -e cua-sdk/
# 启动沙箱环境(需要 Docker)
docker compose up -d cua-sandbox
# 运行示例 Agent
python examples/basic_desktop_agent.py
桌面沙箱需要 Docker 环境。完整的开发环境配置请参考项目 docs/ 目录下的集成指南。