网页 Agent 一直有个尴尬的地方:要么依赖浏览器自动化工具,要么直接在 HTML 上跑推理。前者太慢,后者太糙。
Qwen 刚在 Hugging Face 上线了 WebWorld-14B 和 WebWorld-32B,走的是第三条路——世界模型。不是让模型真的去操作浏览器,而是让模型学会"想象"网页交互会发生什么。
核心思路
WebWorld 的标签:web-agent、world-model、simulator、long-horizon。
传统方案是"看到网页→决定操作→执行→看到新网页"的循环。WebWorld 的思路是:模型内部构建网页世界的模拟器,在"脑海"里先跑一遍交互流程,再决定实际操作。
模型基于 Qwen3 架构,Apache 2.0 许可。配套的 Qwen/WebWorldData 数据集包含合成的网页交互轨迹。
我的判断
能跑,vLLM 和 Ollama 都支持。但目前只有 17 个 likes,社区反馈几乎没有。值得关注,不建议现在就接入生产流程。
主要来源:
- Qwen/WebWorld-32B, Hugging Face