На GitHub есть проект с 33.9k звёздами, позволяющий AI смотреть на ваш экран и оперировать мышью и клавиатурой для выполнения задач.
UI-TARS-desktop — это open-source мультимодальный GUI Agent фреймворк от ByteDance. Это не CLI инструмент, не API вызов — это буквально "AI видит экран, кликает кнопки, заполняет формы."
Что это
Проще говоря, UI-TARS — это визуально-драйven десктопный Agent автоматизации.
- Делает скриншот экрана
- Мультимодальная модель анализирует содержимое, идентифицирует UI элементы
- Генерирует команды операций (клик, ввод, перетаскивание и т.д.)
- Выполняет, наблюдает результат, переходит к следующему шагу
Это отличается от традиционного RPA. RPA полагается на предустановленные правила и локаторы элементов — ломается при изменении структуры страницы. UI-TARS использует визуальное понимание, теоретически обрабатывая интерфейсы, которые "никогда не видел."
Что умеет
Умеет:
- Автозаполнение повторяющихся форм
- Кросс-приложенийные операции
- Тестирование ПО
- Сбор данных
Слабые места:
- Высокоточные операции
- Обработка динамического контента
- Сложные сценарии принятия решений
Развёртывание
Репозиторий предоставляет Desktop версию для macOS и Windows. Минимальные шаги:
- Клонировать репозиторий, установить зависимости
- Настроить endpoint модели
- Запустить Desktop приложение
- Описать, что нужно сделать, на естественном языке
Реальные проблемы
Проблема 1: Латентность модели. Визуальное понимание + генерация решения, один цикл операции обычно 2-5 секунд.
Проблема 2: Чувствительность к разрешению. Разные разрешения по-разному отображают тот же UI элемент.
Проблема 3: Поддержка китайского UI. Точность распознавания заметно выше для английских UI.
Стоит ли следить?
Да. Не потому что он идеален, а потому что направление однозначно правильное.
Потолок традиционной автоматизации — "стоимость поддержки правил" — каждое изменение интерфейса означает переписывание скриптов. Визуально-драйven автоматизация пробивает этот потолок.
UI-TARS ещё на ранней стадии, но направление его архитектуры верное. Если вы重度 пользователь автоматизации, сейчас хорошее время для раннего участия.
Источники: