网页 Agent 一直有个尴尬的地方:要么依赖浏览器自动化工具(Playwright、Selenium),要么直接在 HTML 上跑推理。前者太慢,后者太糙。
Qwen 刚在 Hugging Face 上线了 WebWorld-14B 和 WebWorld-32B,走的是第三条路——世界模型(World Model)。简单说,不是让模型真的去操作浏览器,而是让模型学会"想象"网页交互会发生什么。
核心思路
WebWorld 的标签写得很清楚:web-agent、world-model、simulator、long-horizon。
它做的事情和传统网页 Agent 不一样。传统方案是"看到网页→决定操作→执行→看到新网页"的循环,每一步都要等浏览器渲染。WebWorld 的思路是:模型内部构建一个网页世界的模拟器,在"脑海"里先跑一遍交互流程,再决定实际操作。
这带来的好处很直接:
- 速度:不需要等浏览器渲染,模拟速度远快于真实操作
- 长程规划:可以在模拟中探索多条路径,选择最优解
- 减少真实环境依赖:不需要真实的网页环境就能训练和测试
模型基于 Qwen3 架构,支持 HTML、XML、Markdown 等多种网页格式输入,支持无障碍(a11y)树解析。Apache 2.0 许可,商用没障碍。
数据与训练
配套的还有一个数据集 Qwen/WebWorldData,包含了合成生成的网页交互轨迹。数据合成 + 指令微调(instruction-tuning)的训练方式意味着:
- 训练数据的质量取决于合成方法的准确性
- 模型学到的"世界知识"是合成数据的投影,不是真实互联网的直接经验
这一点需要保持清醒。世界模型的优势是速度快、可重复,但代价是它学到的"规律"可能和真实网页的行为不完全一致。
能不能用
能跑。Hugging Face 上提供了 vLLM 和 SGLang 的部署脚本,Ollama 也支持。
# vLLM 一行启动
vllm serve "Qwen/WebWorld-32B"
但要说生产级使用,还需要打个问号。WebWorld 目前只有 17 个 likes(写这篇的时候),社区反馈几乎没有。对于一个需要大量真实场景验证的 Agent 模型,这个冷启动数据不太让人放心。
我的看法是:值得关注,但不建议现在就把它接入生产流程。 等社区有人跑过真实场景、踩完坑之后再看。
路线之争
WebWorld 代表了一种有意思的思路——把网页 Agent 从"操作浏览器"的重活中解放出来,让模型自己学会模拟网页行为。这条路线和 Browser-Use、Playwright Agent 那种"直接操作真实浏览器"的方案形成对比。
两种路线各有优劣:
- 世界模型路线:快、可重复、但可能偏离真实环境
- 浏览器自动化路线:慢、依赖真实环境、但结果可靠
最终可能是混合方案——世界模型做快速探索和规划,浏览器自动化做最终验证和执行。
如果 Qwen 后续能在真实网页任务上给出对标数据(比如 WebArena、 VisualWebArena 的跑分),这条路线会更有说服力。
主要来源:
- Qwen/WebWorld-32B, Hugging Face
- Qwen/WebWorld-14B, Hugging Face
- arXiv:2602.14721, OccuBench 论文