C
ChaoBro

Qwen 开源 WebWorld:用世界模型做网页 Agent 的新路线

Qwen 开源 WebWorld:用世界模型做网页 Agent 的新路线

网页 Agent 一直有个尴尬的地方:要么依赖浏览器自动化工具(Playwright、Selenium),要么直接在 HTML 上跑推理。前者太慢,后者太糙。

Qwen 刚在 Hugging Face 上线了 WebWorld-14BWebWorld-32B,走的是第三条路——世界模型(World Model)。简单说,不是让模型真的去操作浏览器,而是让模型学会"想象"网页交互会发生什么。

核心思路

WebWorld 的标签写得很清楚:web-agentworld-modelsimulatorlong-horizon

它做的事情和传统网页 Agent 不一样。传统方案是"看到网页→决定操作→执行→看到新网页"的循环,每一步都要等浏览器渲染。WebWorld 的思路是:模型内部构建一个网页世界的模拟器,在"脑海"里先跑一遍交互流程,再决定实际操作。

这带来的好处很直接:

  • 速度:不需要等浏览器渲染,模拟速度远快于真实操作
  • 长程规划:可以在模拟中探索多条路径,选择最优解
  • 减少真实环境依赖:不需要真实的网页环境就能训练和测试

模型基于 Qwen3 架构,支持 HTML、XML、Markdown 等多种网页格式输入,支持无障碍(a11y)树解析。Apache 2.0 许可,商用没障碍。

数据与训练

配套的还有一个数据集 Qwen/WebWorldData,包含了合成生成的网页交互轨迹。数据合成 + 指令微调(instruction-tuning)的训练方式意味着:

  • 训练数据的质量取决于合成方法的准确性
  • 模型学到的"世界知识"是合成数据的投影,不是真实互联网的直接经验

这一点需要保持清醒。世界模型的优势是速度快、可重复,但代价是它学到的"规律"可能和真实网页的行为不完全一致。

能不能用

能跑。Hugging Face 上提供了 vLLM 和 SGLang 的部署脚本,Ollama 也支持。

# vLLM 一行启动
vllm serve "Qwen/WebWorld-32B"

但要说生产级使用,还需要打个问号。WebWorld 目前只有 17 个 likes(写这篇的时候),社区反馈几乎没有。对于一个需要大量真实场景验证的 Agent 模型,这个冷启动数据不太让人放心。

我的看法是:值得关注,但不建议现在就把它接入生产流程。 等社区有人跑过真实场景、踩完坑之后再看。

路线之争

WebWorld 代表了一种有意思的思路——把网页 Agent 从"操作浏览器"的重活中解放出来,让模型自己学会模拟网页行为。这条路线和 Browser-Use、Playwright Agent 那种"直接操作真实浏览器"的方案形成对比。

两种路线各有优劣:

  • 世界模型路线:快、可重复、但可能偏离真实环境
  • 浏览器自动化路线:慢、依赖真实环境、但结果可靠

最终可能是混合方案——世界模型做快速探索和规划,浏览器自动化做最终验证和执行。

如果 Qwen 后续能在真实网页任务上给出对标数据(比如 WebArena、 VisualWebArena 的跑分),这条路线会更有说服力。


主要来源: