C
ChaoBro

Qwen、WebWorldをオープンソース化:世界モデルによるWeb Agentの新路線

Qwen、WebWorldをオープンソース化:世界モデルによるWeb Agentの新路線

Web Agentにはいつも厄介な問題があった。ブラウザ自動化ツール(Playwright、Selenium)に依存するか、HTML上で直接推論を実行するか。前者は遅すぎる、後者は粗すぎる。

QwenがHugging FaceにWebWorld-14BWebWorld-32Bを投入した。第三の道——**世界モデル(World Model)**だ。端的に言えば、モデルに実際にブラウザを操作させるのではなく、Webインタラクションが何を生むかを「想像」できるようにする。

コアの考え方

WebWorldのタグは明確だ:web-agentworld-modelsimulatorlong-horizon

従来のWeb Agentとは違う。従来は「Webページを見る→操作を決定→実行→新しいWebページを見る」のループで、各ステップでブラウザのレンダリングを待つ必要がある。WebWorldのアプローチ:モデルが内部にWeb世界のシミュレーターを構築し、「頭の中で」インタラクションフローを走らせてから実際の操作を決定する。

直接的なメリット:

  • 速度:ブラウザのレンダリング待ち不要。シミュレーションは実際の操作より遥かに速い
  • 長期計画:シミュレーションで複数の経路を探索し、最適解を選択できる
  • 実環境への依存低減:実際のWeb環境なしで訓練・テスト可能

モデルはQwen3アーキテクチャベース。HTML、XML、MarkdownなどのWebフォーマット入力をサポートし、アクセシビリティ(a11y)ツリー解析にも対応。Apache 2.0ライセンスで商用障壁なし。

使えるか

動く。Hugging FaceにvLLMとSGLangのデプロイスクリプトがあり、Ollamaもサポートしている。

# vLLMで一行起動
vllm serve "Qwen/WebWorld-32B"

ただし本番級使用にはまだ疑問符がつく。WebWorldのlikesは現在17個(執筆時点)、コミュニティフィードバックはほぼゼロ。大量の実场景検証が必要なAgentモデルにとって、このコールドスタートデータは安心できない。

我的看法:值得关注,但不建议现在就把它接入生产流程。 等社区有人跑过真实场景、踩完坑之后再看。


主な情報源: