Представьте: вы говорите AI «организуй данные в этой Excel-таблице и отправь по почте руководителю» — и он действительно открывает Excel, читает данные, форматирует, открывает почтовый клиент, заполняет адресата и текст, отправляет. Не через API, а оперируя десктопными приложениями как человек.
Это делает UI-TARS-desktop. Open-source от ByteDance, 34 000 звёзд, один из самых горячих десктопных AI Agent проектов на GitHub.
Основной подход: визуальное понимание + GUI-операции
Традиционные RPA-инструменты опираются на идентификаторы UI-элементов — ID кнопок, дескрипторы окон. Проблема:
- Структура UI каждого приложения разная, нужна индивидуальная адаптация
- Обновления веб-приложений ломают селекторы
- Автоматизация десктопных приложений ещё более фрагментирована
UI-TARS идёт другим путём: мультимодальные модели «видят» скриншоты, понимают семантику UI-элементов, генерируют команды операций.
Техническая архитектура
Слой визуального понимания — мультимодальный AI анализирует скриншоты, идентифицирует UI-элементы и их функции.
Слой планирования решений — на основе естественных инструкций планирует последовательность шагов.
Слой выполнения — преобразует решения в клики мыши, ввод с клавиатуры, прокрутку.
Практические сценарии
Автоматизация ввода данных — массовый ввод из веб-форм во внутренние системы.
Кросс-приложенческие процессы — сложные процессы, охватывающие несколько десктопных приложений.
Работа с унаследованными системами — многие корпоративные системы не имеют API.
Тестирование ПО — автоматизированное UI-тестирование.
Ограничения
Не самый быстрый. Задержка визуального понимания + мультимодального вывода — на уровне секунд.
Точность зависит от модели. Сложные UI могут быть неправильно идентифицированы.
Безопасность. AI, оперирующий вашим десктопом, видит всё на экране.
Для кого
- Операционный персонал —大量 повторяющиеся кросс-системные операции
- QA-инженеры — UI-автотесты
- Малый и средний бизнес — нет ресурсов для API-интеграции
- Пользователи RPA — устали от затрат на адаптацию традиционных RPA
Не подходит для реального времени с миллисекундным откликом.
Источник: UI-TARS-desktop GitHub · Apache 2.0 License