C
ChaoBro

WebBrain:8GB 显存就能跑的本地浏览器 Agent,Qwen3.5-9B int4 驱动,零 API 费用

WebBrain:8GB 显存就能跑的本地浏览器 Agent,Qwen3.5-9B int4 驱动,零 API 费用

结论先行

WebBrain 把浏览器自动化 Agent 的门槛从"需要云服务器 + API 额度"拉低到"一台 16GB MacBook 就能跑"。基于 Qwen3.5-9B int4 量化版本,8GB 显存即可运行,完全离线,零 API 费用。这对于隐私敏感场景和长期运行任务来说是关键突破。

硬件门槛一览

硬件配置 可用方案 性能预期
8GB VRAM(MacBook 16GB 统一内存 / RTX 4060/3060/5050) Qwen3.5-9B int4 可用,适合常规浏览任务
22+ GB VRAM(RTX 3090/4090) Qwen2.5-VL 完整精度 更高精度,复杂视觉任务
RTX 5090 可跑更大模型 最佳体验

关键突破在于 int4 量化后的 9B 模型在浏览器 Agent 场景下的可用性。团队测试了 22 个视觉语言模型,最终选定 Qwen3.5-9B 作为最优平衡点——在 8GB 显存约束下,视觉理解和网页操作能力最接近大模型。

WebBrain 是什么

WebBrain 是一个本地运行的浏览器 Agent,核心能力包括:

  • 视觉理解:直接"看"网页截图,理解页面布局和内容
  • 自动操作:点击、输入、滚动、表单填写
  • 任务规划:多步骤任务拆解和执行
  • 上下文记忆:跨页面保持任务上下文

与传统浏览器自动化工具(如 Selenium、Playwright)的区别在于:WebBrain 不依赖预先编写的脚本,而是通过视觉理解动态决策操作步骤,更像"一个人在操作浏览器"。

为什么选择 Qwen3.5-9B int4

团队在 22 个视觉语言模型中做出的选择基于以下权衡:

考量因素 Qwen3.5-9B int4 其他模型
显存占用 ~5GB 多数需要 12GB+
视觉理解精度 在浏览器场景足够 更大模型提升有限
推理速度 8GB 卡上流畅 大模型可能卡顿
开源许可 Apache 2.0 部分模型有限制
生态支持 Ollama / llama.cpp 原生支持 部分需要定制

对于浏览器 Agent 这个特定场景,9B 参数的视觉理解能力已经够用——识别按钮、读取文本、理解表单结构,不需要千亿参数的"通用智能"。

典型使用场景

  1. 隐私敏感的数据采集:不需要将网页内容发送到云端
  2. 长期运行的监控任务:无 API 费用限制,24/7 运行无成本
  3. 内网环境自动化:完全离线,适用于企业内网或隔离环境
  4. 开发调试:本地快速测试浏览器自动化流程

格局判断

"本地化"正在成为 AI Agent 部署的重要趋势:

  • 成本:云端 API 长期运行的累积费用可能远超硬件投入
  • 隐私:浏览器操作涉及大量敏感数据,本地处理更安全
  • 稳定性:不依赖网络连接和云端服务可用性
  • 可控性:完全自主控制模型版本和运行环境

WebBrain 代表了这一趋势的一个标杆:8GB 显存这个门槛意味着大多数现代笔记本和入门级 GPU 用户都可以参与。

行动建议

  1. MacBook 用户:16GB 内存的 M1/M2/M3 MacBook 可以直接运行,零额外硬件投入
  2. 有 RTX 4060/3060 的桌面用户:升级显存到 8GB 以上即可部署
  3. 企业安全团队:评估 WebBrain 作为内网自动化测试方案,替代基于云端的浏览器 Agent
  4. 长期任务需求者:对比云端 API 费用和本地硬件成本,通常 3-6 个月即可回本