Qwen 开源 WebWorld：用世界模型做网页 Agent 的新路线

网页 Agent 一直有个尴尬的地方：要么依赖浏览器自动化工具（Playwright、Selenium），要么直接在 HTML 上跑推理。前者太慢，后者太糙。

Qwen 刚在 Hugging Face 上线了 WebWorld-14B 和 WebWorld-32B，走的是第三条路——世界模型（World Model）。简单说，不是让模型真的去操作浏览器，而是让模型学会"想象"网页交互会发生什么。

核心思路

WebWorld 的标签写得很清楚：web-agent、world-model、simulator、long-horizon。

它做的事情和传统网页 Agent 不一样。传统方案是"看到网页→决定操作→执行→看到新网页"的循环，每一步都要等浏览器渲染。WebWorld 的思路是：模型内部构建一个网页世界的模拟器，在"脑海"里先跑一遍交互流程，再决定实际操作。

这带来的好处很直接：

模型基于 Qwen3 架构，支持 HTML、XML、Markdown 等多种网页格式输入，支持无障碍（a11y）树解析。Apache 2.0 许可，商用没障碍。

配套的还有一个数据集 Qwen/WebWorldData，包含了合成生成的网页交互轨迹。数据合成 + 指令微调（instruction-tuning）的训练方式意味着：

这一点需要保持清醒。世界模型的优势是速度快、可重复，但代价是它学到的"规律"可能和真实网页的行为不完全一致。

能跑。Hugging Face 上提供了 vLLM 和 SGLang 的部署脚本，Ollama 也支持。

# vLLM 一行启动
vllm serve "Qwen/WebWorld-32B"

但要说生产级使用，还需要打个问号。WebWorld 目前只有 17 个 likes（写这篇的时候），社区反馈几乎没有。对于一个需要大量真实场景验证的 Agent 模型，这个冷启动数据不太让人放心。

我的看法是：值得关注，但不建议现在就把它接入生产流程。 等社区有人跑过真实场景、踩完坑之后再看。

WebWorld 代表了一种有意思的思路——把网页 Agent 从"操作浏览器"的重活中解放出来，让模型自己学会模拟网页行为。这条路线和 Browser-Use、Playwright Agent 那种"直接操作真实浏览器"的方案形成对比。

两种路线各有优劣：

最终可能是混合方案——世界模型做快速探索和规划，浏览器自动化做最终验证和执行。

如果 Qwen 后续能在真实网页任务上给出对标数据（比如 WebArena、 VisualWebArena 的跑分），这条路线会更有说服力。

主要来源：