На GitHub — 34 138 звёзд, за эту неделю прибавилось 3529. UI-TARS-desktop от ByteDance, открытая с исходным кодом UI-TARS-desktop, выглядит весьма перспективно.
В файле README указано: «Открытый мультимодальный стек ИИ-агентов: связывает передовые ИИ-модели и инфраструктуру агентов». Заголовок впечатляет, однако при переходе внутрь оказывается, что реальность сложнее, чем кажется на первый взгляд.
Какова её цель
Основная задача UI-TARS — научить ИИ взаимодействовать с графическим интерфейсом рабочего стола так же, как это делает человек: распознавать кнопки, поля ввода, меню на экране, а затем кликать, вводить текст, перетаскивать элементы.
Это принципиально отличается от традиционной RPA (Robotic Process Automation). RPA полагается на низкоуровневые идентификаторы UI-элементов, поэтому при любом изменении интерфейса скрипты перестают работать. UI-TARS же использует мультимодальные модели для «просмотра» экрана и понимания содержимого интерфейса — так же, как это делает человек.
Теоретически это означает:
- Отсутствие необходимости писать отдельные скрипты автоматизации для каждого приложения;
- Адаптивность к обновлениям интерфейса;
- Возможность обработки сложных рабочих процессов, охватывающих несколько приложений.
Текущее состояние: фреймворк, а не готовый продукт
34 тыс. звёзд — ещё не гарантия зрелости продукта.
Судя по структуре репозитория, проект на сегодняшний день позиционируется скорее как «фреймворк/стек» — он предоставляет базовую инфраструктуру и инструментарий для создания мультимодальных агентов рабочего стола, а не законченное приложение, которое можно установить и сразу начать автоматизировать заполнение форм или отправку электронных писем.
3399 форков, однако детальный анализ раздела issues я не проводил. Учитывая типичные темпы развития open-source-проектов ByteDance, формирование сообщества и экосистемы займёт время.
Кому стоит обратить внимание
Исследователям ИИ-агентов. Технический подход UI-TARS к мультимодальному пониманию GUI заслуживает внимания. Если их данные бенчмарков будут публично доступны, они станут ценным ориентиром для исследований в этой области.
Специалистам по RPA и автоматизации. Основная боль традиционной RPA — высокие затраты на поддержку: при изменении интерфейса скрипты становятся неработоспособными. Мультимодальный подход, если он будет надёжно реализован, станет настоящим прорывом. Однако сейчас ещё слишком рано переходить на него.
Обычным пользователям. На данный момент установка этого решения не позволит добиться желаемого результата. Возвращайтесь, когда появится стабильный релиз, подробная документация и скрипт для установки «в один клик».
Сравнение с аналогичными проектами
На этом направлении уже действуют несколько игроков:
- Режим OS в OpenInterpreter — позволяет LLM управлять локальной операционной системой; идея схожа, но реализация более лёгкая;
- Computer use от Anthropic — Claude способен управлять компьютером, но требует специальной среды песочницы;
- Различные проекты browser-use — сфокусированы исключительно на автоматизации браузера и охватывают более узкую область.
Уникальная особенность UI-TARS-desktop — ориентация на «уровень рабочего стола», а не «уровень браузера», а также поддержка со стороны моделей ByteDance. Однако реальная эффективность станет ясна только после появления дополнительных отчётов о практическом тестировании.
Моё мнение
Тот факт, что ByteDance открыла этот проект, говорит о том, что внутри компании уже подтверждена жизнеспособность мультимодальных агентов рабочего стола. Само открытие исходного кода — это сигнал: компания рассчитывает на помощь сообщества в развитии экосистемы.
Однако разрыв между «работает внутри компании» и «готово к использованию сообществом» остаётся значительным. Документация, стабильность, удобство установки, обработка ошибок — все эти инженерные детали определяют, является ли проект по-настоящему полезным или просто выглядит впечатляюще.
Рекомендация: добавьте проект в избранное (star), включите уведомления (watch) и дождитесь первого стабильного релиза. Если тогда действительно получится «выполнить любую задачу на компьютере по одной команде», — возвращайтесь и устанавливайте.
Источники
- bytedance/UI-TARS-desktop
- Еженедельные данные GitHub Trending