GitHub 上有一个 33.9k 星的项目,能让 AI 看着你的屏幕,自己操作鼠标和键盘完成任务。
UI-TARS-desktop 是字节跳动开源的多模态 GUI Agent 框架。它不是命令行工具,不是 API 调用——它是真正意义上的「AI 看屏幕、点按钮、填表单」。
33.9k 星,275 个分支,1108 次 commit。但很多人点开之后问的第一个问题是:这东西到底怎么用?能帮我干什么?
我花了一些时间研究。下面给你一个实用指南,不说废话。
它是什么
简单说,UI-TARS 是一个视觉驱动的桌面自动化 Agent。它的工作方式是:
- 截取屏幕画面
- 多模态模型分析屏幕内容,识别 UI 元素
- 生成操作指令(点击、输入、拖拽等)
- 执行操作,然后看结果,继续下一步
这跟传统的 RPA(Robotic Process Automation)不同。RPA 依赖预设规则和元素定位器——网页结构一变就挂了。UI-TARS 靠视觉理解,理论上能处理它「没见过」的界面。
能干什么
能干的:
- 自动填写重复性的表单。比如每天从 Excel 复制数据录入到内部系统
- 跨应用操作。从网页上复制信息,粘贴到桌面应用,再发邮件——整套流程自动化
- 软件测试。自动执行 UI 测试用例,不只是点按钮,而是「理解」界面状态再做判断
- 数据采集。需要从没有 API 的网站上抓数据时,让它模拟人工操作
不太行的:
- 高精度操作。像素级的拖拽、精确定位到某个 sub-pixel 位置,目前还有误差
- 动态内容处理。如果页面加载慢或者内容动态渲染,Agent 可能会误判时机
- 复杂决策场景。需要多步推理和上下文判断的流程,成功率会明显下降
怎么部署
仓库提供了 Desktop 版本,支持 macOS 和 Windows。核心依赖是 UI-TARS 视觉模型和一个桌面控制后端。
最小可用步骤:
- 克隆仓库,安装依赖
- 配置模型 endpoint(可以用官方 API 或本地部署)
- 启动 Desktop 应用
- 用自然语言描述你想让它做的事
注意:这不是一个「开箱即用」的消费级产品。它需要你有一定的技术背景来处理模型配置和调试。如果你是开发者或技术 PM,上手难度中等。如果是非技术用户,建议等更成熟的产品形态。
实际踩坑
坑一:模型延迟。 视觉理解 + 决策生成,一次操作周期通常在 2-5 秒。对于需要快速连续操作的场景,这个延迟会让你觉得它「卡卡的」。
坑二:分辨率敏感。 不同分辨率下,同一个 UI 元素的视觉呈现不同。如果你在一台机器上训练/测试,换到另一台可能需要重新适应。
坑三:中文界面支持。 模型对英文 UI 的识别准确度明显高于中文。中文界面能用,但偶尔会把两个按钮搞混。
和同类工具的对比
市面上做 GUI Agent 的不止一家。OpenClaw 也有 computer use 能力,Anthropic 的 Claude 支持 computer use API。区别在于:
- OpenClaw:更偏通用 Agent 平台,GUI 操作是其中一个能力
- Claude Computer Use:需要 API 调用,不是独立的桌面应用
- UI-TARS Desktop:专注于桌面 GUI 自动化,提供完整的应用形态,并且开源
如果你的需求就是「让 AI 操作桌面应用」,UI-TARS Desktop 是目前开源方案里最完整的一个。
值不值得跟
值得。不是因为它已经完美,而是因为这个方向确定是对的。
传统自动化的天花板是「规则维护成本」——每换一个界面就要重写脚本。视觉驱动的自动化突破了这个天花板。UI-TARS 现在还在早期,但它的架构方向是对的。
建议关注它的 release 节奏。最近一次 release 是 v0.4.x 系列,还在快速迭代中。如果你是自动化重度用户,现在是早期介入的好时机——不是因为产品成熟,是因为你能在早期阶段影响它的发展方向。
主要来源: