C
ChaoBro

OpenComputer: создание проверяемого программного мира для Computer-Use Agent, 33 приложения и 1000 задач

OpenComputer: создание проверяемого программного мира для Computer-Use Agent, 33 приложения и 1000 задач

Сегодня на вершине рейтинга Hugging Face Daily Papers оказалась статья от команды Армана Кохана из Йельского университета — OpenComputer. Название звучит довольно академично, но на самом деле оно решает очень практическую проблему: как мы можем узнать, правильно ли AI-агент выполняет действия на компьютере?

Computer-use agent (позволяющие ИИ управлять мышью и клавиатурой для работы с настольным ПО) стали главным трендом 2025–2026 годов. Однако оценка таких агентов всегда оставалась сложной задачей: высокие баллы в бенчмарках вроде OSWorld-Verified не гарантируют, что агент сможет надежно выполнять сквозные задачи в реальных условиях.

Четыре ключевых компонента

Архитектура OpenComputer состоит из четырех блоков, каждый из которых направлен на устранение слабых мест существующих решений:

1. Валидаторы состояния на уровне приложений (State Verifiers)

Это самая интересная часть статьи. Команда разработала жестко закодированные валидаторы состояния для 33 настольных приложений (браузеры, Office, творческие программы, среды разработки, файловые менеджеры, средства связи), которые проверяют реальное состояние приложений через структурированные точки проверки.

Вместо того чтобы заставлять LLM анализировать скриншоты и гадать о результате, система напрямую проверяет: «файл сохранен?», «письмо отправлено?», «код скомпилирован?».

2. Самоэволюционирующий слой валидации

Сами валидаторы также нуждаются в развитии. OpenComputer внедряет слой самообучения, который повышает надежность валидаторов за счет обратной связи в процессе выполнения. Проще говоря: валидаторы тоже учатся на ошибках.

3. Конвейер генерации задач

Автоматическая генерация реалистичных, проверяемых машиной задач для рабочего стола. 1000 задач охватывают различные сценарии: от простого «открыть файл» до сложных многошаговых рабочих процессов.

4. Оценочный стенд (harness)

Записывает полную траекторию операций и рассчитывает проверяемые частичные баллы (partial-credit rewards). Это гораздо точнее простого бинарного суждения «успех/неудача».

Ключевые выводы

В статье приводится несколько неожиданных выводов:

  • Согласованность жестко закодированных валидаторов OpenComputer с человеческими оценками значительно выше, чем у подхода LLM-as-judge — особенно когда успех зависит от детализированного состояния приложения
  • Передовые агенты (frontier agents) по-прежнему испытывают трудности со сквозным выполнением задач, несмотря на способность успешно проходить отдельные этапы
  • Между баллами open-source моделей в OSWorld-Verified и их реальной производительностью наблюдается заметный разрыв, что обнажает устойчивое отставание в области компьютерной автоматизации

Почему это важно

Ценность этой статьи заключается не только в предложении новой архитектуры, но и в том, что она прямо затрагивает фундаментальную проблему оценки агентов: что именно мы измеряем?

Когда LLM-as-judge становится стандартным методом оценки, OpenComputer экспериментально доказывает: для задач, связанных с конкретным состоянием приложений, жестко закодированные валидаторы надежнее, чем суждения LLM. Это имеет важное значение для всей области исследований агентов.

Кроме того, охват в 1000 задач и 33 приложения делает его одной из самых полных на сегодняшний день архитектур для оценки computer-use agent.

Ссылка на статью: arXiv:2605.19769