Web Agentにはいつも厄介な問題があった。ブラウザ自動化ツール(Playwright、Selenium)に依存するか、HTML上で直接推論を実行するか。前者は遅すぎる、後者は粗すぎる。
QwenがHugging FaceにWebWorld-14BとWebWorld-32Bを投入した。第三の道——**世界モデル(World Model)**だ。端的に言えば、モデルに実際にブラウザを操作させるのではなく、Webインタラクションが何を生むかを「想像」できるようにする。
コアの考え方
WebWorldのタグは明確だ:web-agent、world-model、simulator、long-horizon。
従来のWeb Agentとは違う。従来は「Webページを見る→操作を決定→実行→新しいWebページを見る」のループで、各ステップでブラウザのレンダリングを待つ必要がある。WebWorldのアプローチ:モデルが内部にWeb世界のシミュレーターを構築し、「頭の中で」インタラクションフローを走らせてから実際の操作を決定する。
直接的なメリット:
- 速度:ブラウザのレンダリング待ち不要。シミュレーションは実際の操作より遥かに速い
- 長期計画:シミュレーションで複数の経路を探索し、最適解を選択できる
- 実環境への依存低減:実際のWeb環境なしで訓練・テスト可能
モデルはQwen3アーキテクチャベース。HTML、XML、MarkdownなどのWebフォーマット入力をサポートし、アクセシビリティ(a11y)ツリー解析にも対応。Apache 2.0ライセンスで商用障壁なし。
使えるか
動く。Hugging FaceにvLLMとSGLangのデプロイスクリプトがあり、Ollamaもサポートしている。
# vLLMで一行起動
vllm serve "Qwen/WebWorld-32B"
ただし本番級使用にはまだ疑問符がつく。WebWorldのlikesは現在17個(執筆時点)、コミュニティフィードバックはほぼゼロ。大量の実场景検証が必要なAgentモデルにとって、このコールドスタートデータは安心できない。
我的看法:值得关注,但不建议现在就把它接入生产流程。 等社区有人跑过真实场景、踩完坑之后再看。
主な情報源:
- Qwen/WebWorld-32B, Hugging Face
- Qwen/WebWorld-14B, Hugging Face