C
ChaoBro

Qwen开源WebWorld:用世界模型做网页Agent的新路线

Qwen开源WebWorld:用世界模型做网页Agent的新路线

网页 Agent 一直有个尴尬的地方:要么依赖浏览器自动化工具,要么直接在 HTML 上跑推理。前者太慢,后者太糙。

Qwen 刚在 Hugging Face 上线了 WebWorld-14BWebWorld-32B,走的是第三条路——世界模型。不是让模型真的去操作浏览器,而是让模型学会"想象"网页交互会发生什么。

核心思路

WebWorld 的标签:web-agentworld-modelsimulatorlong-horizon

传统方案是"看到网页→决定操作→执行→看到新网页"的循环。WebWorld 的思路是:模型内部构建网页世界的模拟器,在"脑海"里先跑一遍交互流程,再决定实际操作。

模型基于 Qwen3 架构,Apache 2.0 许可。配套的 Qwen/WebWorldData 数据集包含合成的网页交互轨迹。

我的判断

能跑,vLLM 和 Ollama 都支持。但目前只有 17 个 likes,社区反馈几乎没有。值得关注,不建议现在就接入生产流程。


主要来源: