Главный вывод
WebBrain снижает порог входа для браузерных агентов автоматизации с «нужны облачные серверы + API-кредиты» до «работает на 16 ГБ MacBook». На базе квантованной int4-версии Qwen3.5-9B, работает всего на 8 ГБ видеопамяти, полностью офлайн с нулевыми затратами на API. Это ключевой прорыв для сценариев с чувствительностью к конфиденциальности и длительно работающих задач.
Обзор требований к оборудованию
| Конфигурация оборудования | Доступное решение | Ожидаемая производительность |
|---|---|---|
| 8 ГБ видеопамяти (MacBook 16 ГБ унифицированная память / RTX 4060/3060/5050) | Qwen3.5-9B int4 | Работоспособно, подходит для обычных задач браузера |
| 22+ ГБ видеопамяти (RTX 3090/4090) | Qwen2.5-VL полная точность | Более высокая точность, сложные визуальные задачи |
| RTX 5090 | Можно запускать более крупные модели | Лучший опыт |
Ключевой прорыв — пригодность 9B-модели после int4-квантования в сценариях браузерного агента. Команда протестировала 22 модели визуального языкового модели и в конечном итоге выбрала Qwen3.5-9B как оптимальную точку баланса — при ограничении в 8 ГБ видеопамяти, визуальное понимание и способность к веб-операциям наиболее близки к крупным моделям.
Что такое WebBrain
WebBrain — это локально работающий браузерный агент со следующими ключевыми возможностями:
- Визуальное понимание: Непосредственно «видит» скриншоты веб-страниц, понимая структуру страницы и контент
- Автоматические операции: Клик, ввод, прокрутка, заполнение форм
- Планирование задач: Разложение многошаговых задач и выполнение
- Контекстная память: Сохраняет контекст задачи при переходе между страницами
Отличие от традиционных инструментов автоматизации браузера (таких как Selenium, Playwright) заключается в том, что WebBrain не опирается на заранее написанные скрипты — он динамически определяет шаги операций через визуальное понимание, больше похож на «человека, работающего с браузером».
Почему был выбран Qwen3.5-9B int4
Выбор команды среди 22 моделей визуального языкового модели основывался на следующих соображениях:
| Фактор | Qwen3.5-9B int4 | Другие модели |
|---|---|---|
| Использование видеопамяти | ~5 ГБ | Большинству требуется 12 ГБ+ |
| Точность визуального понимания | Достаточна для сценариев браузера | Более крупные модели дают маржинальное улучшение |
| Скорость инференса | Плавно на 8 ГБ картах | Более крупные модели могут тормозить |
| Лицензия открытого исходного кода | Apache 2.0 | Некоторые модели имеют ограничения |
| Поддержка экосистемы | Нативная поддержка Ollama / llama.cpp | Некоторые требуют кастомизации |
Для конкретного сценария браузерных агентов способности визуального понимания 9B-параметрической модели уже достаточно — распознавание кнопок, чтение текста, понимание структуры форм не требуют «общего интеллекта» с сотнями миллиардов параметров.
Типичные сценарии использования
- Сбор данных с учётом конфиденциальности: Не нужно отправлять содержимое веб-страниц в облако
- Длительно работающие задачи мониторинга: Без ограничений по стоимости API, круглосуточная работа без затрат
- Автоматизация в интранет-среде: Полностью офлайн, подходит для корпоративных интранетов или изолированных сред
- Отладка разработки: Быстрое локальное тестирование рабочих процессов автоматизации браузера
Оценка ландшафта
«Локализация» становится важным трендом в развёртывании AI-агентов:
- Стоимость: Кумулятивные затраты на облачные API при длительной эксплуатации могут значительно превысить инвестиции в оборудование
- Конфиденциальность: Операции браузера включают большие объёмы конфиденциальных данных, локальная обработка безопаснее
- Стабильность: Не зависит от сетевого подключения и доступности облачных сервисов
- Контролируемость: Полный автономный контроль над версиями моделей и средой выполнения
WebBrain представляет бенчмарк этого тренда: порог в 8 ГБ видеопамяти означает, что участвовать могут большинство современных ноутбуков и пользователи видеокарт начального уровня.
Рекомендации к действию
- Пользователи MacBook: 16 ГБ памяти M1/M2/M3 MacBook могут запускать напрямую, нулевые дополнительные инвестиции в оборудование
- Пользователи десктопов с RTX 4060/3060: Увеличьте видеопамять до 8 ГБ+ для развёртывания
- Корпоративные команды безопасности: Оцените WebBrain как решение для автоматизированного тестирования в интранете, заменяя облачные браузерные агенты
- Пользователи длительных задач: Сравните затраты на облачные API с локальными затратами на оборудование — обычно окупаемость за 3-6 месяцев