WebBrain: Локальный браузерный агент на 8 ГБ видеопамяти, на базе Qwen3.5-9B int4, нулевые затраты на API

Главный вывод

WebBrain снижает порог входа для браузерных агентов автоматизации с «нужны облачные серверы + API-кредиты» до «работает на 16 ГБ MacBook». На базе квантованной int4-версии Qwen3.5-9B, работает всего на 8 ГБ видеопамяти, полностью офлайн с нулевыми затратами на API. Это ключевой прорыв для сценариев с чувствительностью к конфиденциальности и длительно работающих задач.

Обзор требований к оборудованию

Конфигурация оборудования	Доступное решение	Ожидаемая производительность
8 ГБ видеопамяти (MacBook 16 ГБ унифицированная память / RTX 4060/3060/5050)	Qwen3.5-9B int4	Работоспособно, подходит для обычных задач браузера
22+ ГБ видеопамяти (RTX 3090/4090)	Qwen2.5-VL полная точность	Более высокая точность, сложные визуальные задачи
RTX 5090	Можно запускать более крупные модели	Лучший опыт

Ключевой прорыв — пригодность 9B-модели после int4-квантования в сценариях браузерного агента. Команда протестировала 22 модели визуального языкового модели и в конечном итоге выбрала Qwen3.5-9B как оптимальную точку баланса — при ограничении в 8 ГБ видеопамяти, визуальное понимание и способность к веб-операциям наиболее близки к крупным моделям.

Что такое WebBrain

WebBrain — это локально работающий браузерный агент со следующими ключевыми возможностями:

Визуальное понимание: Непосредственно «видит» скриншоты веб-страниц, понимая структуру страницы и контент
Автоматические операции: Клик, ввод, прокрутка, заполнение форм
Планирование задач: Разложение многошаговых задач и выполнение
Контекстная память: Сохраняет контекст задачи при переходе между страницами

Отличие от традиционных инструментов автоматизации браузера (таких как Selenium, Playwright) заключается в том, что WebBrain не опирается на заранее написанные скрипты — он динамически определяет шаги операций через визуальное понимание, больше похож на «человека, работающего с браузером».

Почему был выбран Qwen3.5-9B int4

Выбор команды среди 22 моделей визуального языкового модели основывался на следующих соображениях:

Фактор	Qwen3.5-9B int4	Другие модели
Использование видеопамяти	~5 ГБ	Большинству требуется 12 ГБ+
Точность визуального понимания	Достаточна для сценариев браузера	Более крупные модели дают маржинальное улучшение
Скорость инференса	Плавно на 8 ГБ картах	Более крупные модели могут тормозить
Лицензия открытого исходного кода	Apache 2.0	Некоторые модели имеют ограничения
Поддержка экосистемы	Нативная поддержка Ollama / llama.cpp	Некоторые требуют кастомизации

Для конкретного сценария браузерных агентов способности визуального понимания 9B-параметрической модели уже достаточно — распознавание кнопок, чтение текста, понимание структуры форм не требуют «общего интеллекта» с сотнями миллиардов параметров.

Типичные сценарии использования

Сбор данных с учётом конфиденциальности: Не нужно отправлять содержимое веб-страниц в облако
Длительно работающие задачи мониторинга: Без ограничений по стоимости API, круглосуточная работа без затрат
Автоматизация в интранет-среде: Полностью офлайн, подходит для корпоративных интранетов или изолированных сред
Отладка разработки: Быстрое локальное тестирование рабочих процессов автоматизации браузера

Оценка ландшафта

«Локализация» становится важным трендом в развёртывании AI-агентов:

Стоимость: Кумулятивные затраты на облачные API при длительной эксплуатации могут значительно превысить инвестиции в оборудование
Конфиденциальность: Операции браузера включают большие объёмы конфиденциальных данных, локальная обработка безопаснее
Стабильность: Не зависит от сетевого подключения и доступности облачных сервисов
Контролируемость: Полный автономный контроль над версиями моделей и средой выполнения

WebBrain представляет бенчмарк этого тренда: порог в 8 ГБ видеопамяти означает, что участвовать могут большинство современных ноутбуков и пользователи видеокарт начального уровня.

Главный вывод

Обзор требований к оборудованию

Что такое WebBrain

Почему был выбран Qwen3.5-9B int4

Типичные сценарии использования

Оценка ландшафта

Рекомендации к действию

Похожие материалы

SGLang и Miles обеспечивают поддержку DeepSeek-V4 в день выпуска

flue: сооснователь Astro открыл фреймворк песочницы для AI-агентов

LMSYS P2P-передача весов: синхронизация RL-обучения 1T параметров за секунды