C
ChaoBro

Open-source UI-TARS Desktop от ByteDance: что это, что умеет, как использовать

Open-source UI-TARS Desktop от ByteDance: что это, что умеет, как использовать

На GitHub есть проект с 33.9k звёздами, позволяющий AI смотреть на ваш экран и оперировать мышью и клавиатурой для выполнения задач.

UI-TARS-desktop — это open-source мультимодальный GUI Agent фреймворк от ByteDance. Это не CLI инструмент, не API вызов — это буквально "AI видит экран, кликает кнопки, заполняет формы."

Что это

Проще говоря, UI-TARS — это визуально-драйven десктопный Agent автоматизации.

  1. Делает скриншот экрана
  2. Мультимодальная модель анализирует содержимое, идентифицирует UI элементы
  3. Генерирует команды операций (клик, ввод, перетаскивание и т.д.)
  4. Выполняет, наблюдает результат, переходит к следующему шагу

Это отличается от традиционного RPA. RPA полагается на предустановленные правила и локаторы элементов — ломается при изменении структуры страницы. UI-TARS использует визуальное понимание, теоретически обрабатывая интерфейсы, которые "никогда не видел."

Что умеет

Умеет:

  • Автозаполнение повторяющихся форм
  • Кросс-приложенийные операции
  • Тестирование ПО
  • Сбор данных

Слабые места:

  • Высокоточные операции
  • Обработка динамического контента
  • Сложные сценарии принятия решений

Развёртывание

Репозиторий предоставляет Desktop версию для macOS и Windows. Минимальные шаги:

  1. Клонировать репозиторий, установить зависимости
  2. Настроить endpoint модели
  3. Запустить Desktop приложение
  4. Описать, что нужно сделать, на естественном языке

Реальные проблемы

Проблема 1: Латентность модели. Визуальное понимание + генерация решения, один цикл операции обычно 2-5 секунд.

Проблема 2: Чувствительность к разрешению. Разные разрешения по-разному отображают тот же UI элемент.

Проблема 3: Поддержка китайского UI. Точность распознавания заметно выше для английских UI.

Стоит ли следить?

Да. Не потому что он идеален, а потому что направление однозначно правильное.

Потолок традиционной автоматизации — "стоимость поддержки правил" — каждое изменение интерфейса означает переписывание скриптов. Визуально-драйven автоматизация пробивает этот потолок.

UI-TARS ещё на ранней стадии, но направление его архитектуры верное. Если вы重度 пользователь автоматизации, сейчас хорошее время для раннего участия.

Источники: