C
ChaoBro

WebBrain: Локальный браузерный агент на 8 ГБ видеопамяти, на базе Qwen3.5-9B int4, нулевые затраты на API

WebBrain: Локальный браузерный агент на 8 ГБ видеопамяти, на базе Qwen3.5-9B int4, нулевые затраты на API

Главный вывод

WebBrain снижает порог входа для браузерных агентов автоматизации с «нужны облачные серверы + API-кредиты» до «работает на 16 ГБ MacBook». На базе квантованной int4-версии Qwen3.5-9B, работает всего на 8 ГБ видеопамяти, полностью офлайн с нулевыми затратами на API. Это ключевой прорыв для сценариев с чувствительностью к конфиденциальности и длительно работающих задач.

Обзор требований к оборудованию

Конфигурация оборудования Доступное решение Ожидаемая производительность
8 ГБ видеопамяти (MacBook 16 ГБ унифицированная память / RTX 4060/3060/5050) Qwen3.5-9B int4 Работоспособно, подходит для обычных задач браузера
22+ ГБ видеопамяти (RTX 3090/4090) Qwen2.5-VL полная точность Более высокая точность, сложные визуальные задачи
RTX 5090 Можно запускать более крупные модели Лучший опыт

Ключевой прорыв — пригодность 9B-модели после int4-квантования в сценариях браузерного агента. Команда протестировала 22 модели визуального языкового модели и в конечном итоге выбрала Qwen3.5-9B как оптимальную точку баланса — при ограничении в 8 ГБ видеопамяти, визуальное понимание и способность к веб-операциям наиболее близки к крупным моделям.

Что такое WebBrain

WebBrain — это локально работающий браузерный агент со следующими ключевыми возможностями:

  • Визуальное понимание: Непосредственно «видит» скриншоты веб-страниц, понимая структуру страницы и контент
  • Автоматические операции: Клик, ввод, прокрутка, заполнение форм
  • Планирование задач: Разложение многошаговых задач и выполнение
  • Контекстная память: Сохраняет контекст задачи при переходе между страницами

Отличие от традиционных инструментов автоматизации браузера (таких как Selenium, Playwright) заключается в том, что WebBrain не опирается на заранее написанные скрипты — он динамически определяет шаги операций через визуальное понимание, больше похож на «человека, работающего с браузером».

Почему был выбран Qwen3.5-9B int4

Выбор команды среди 22 моделей визуального языкового модели основывался на следующих соображениях:

Фактор Qwen3.5-9B int4 Другие модели
Использование видеопамяти ~5 ГБ Большинству требуется 12 ГБ+
Точность визуального понимания Достаточна для сценариев браузера Более крупные модели дают маржинальное улучшение
Скорость инференса Плавно на 8 ГБ картах Более крупные модели могут тормозить
Лицензия открытого исходного кода Apache 2.0 Некоторые модели имеют ограничения
Поддержка экосистемы Нативная поддержка Ollama / llama.cpp Некоторые требуют кастомизации

Для конкретного сценария браузерных агентов способности визуального понимания 9B-параметрической модели уже достаточно — распознавание кнопок, чтение текста, понимание структуры форм не требуют «общего интеллекта» с сотнями миллиардов параметров.

Типичные сценарии использования

  1. Сбор данных с учётом конфиденциальности: Не нужно отправлять содержимое веб-страниц в облако
  2. Длительно работающие задачи мониторинга: Без ограничений по стоимости API, круглосуточная работа без затрат
  3. Автоматизация в интранет-среде: Полностью офлайн, подходит для корпоративных интранетов или изолированных сред
  4. Отладка разработки: Быстрое локальное тестирование рабочих процессов автоматизации браузера

Оценка ландшафта

«Локализация» становится важным трендом в развёртывании AI-агентов:

  • Стоимость: Кумулятивные затраты на облачные API при длительной эксплуатации могут значительно превысить инвестиции в оборудование
  • Конфиденциальность: Операции браузера включают большие объёмы конфиденциальных данных, локальная обработка безопаснее
  • Стабильность: Не зависит от сетевого подключения и доступности облачных сервисов
  • Контролируемость: Полный автономный контроль над версиями моделей и средой выполнения

WebBrain представляет бенчмарк этого тренда: порог в 8 ГБ видеопамяти означает, что участвовать могут большинство современных ноутбуков и пользователи видеокарт начального уровня.

Рекомендации к действию

  1. Пользователи MacBook: 16 ГБ памяти M1/M2/M3 MacBook могут запускать напрямую, нулевые дополнительные инвестиции в оборудование
  2. Пользователи десктопов с RTX 4060/3060: Увеличьте видеопамять до 8 ГБ+ для развёртывания
  3. Корпоративные команды безопасности: Оцените WebBrain как решение для автоматизированного тестирования в интранете, заменяя облачные браузерные агенты
  4. Пользователи длительных задач: Сравните затраты на облачные API с локальными затратами на оборудование — обычно окупаемость за 3-6 месяцев