結論ファースト
WebBrainはブラウザ自動化エージェントのハードルを「クラウドサーバー+APIクレジットが必要」から「16GBのMacBookで動作」に引き下げた。Qwen3.5-9B int4量子化版により、8GB VRAMで動作し、完全オフライン、API費用ゼロ。プライバシーに敏感なシナリオや長期実行タスクにとって重要なブレイクスルーだ。
ハードウェア要件一覧
| ハードウェア構成 | 利用可能な方案 | パフォーマンス期待値 |
|---|---|---|
| 8GB VRAM(MacBook 16GB統一メモリ / RTX 4060/3060/5050) | Qwen3.5-9B int4 | 使用可能、通常のブラウジングタスクに適する |
| 22+ GB VRAM(RTX 3090/4090) | Qwen2.5-VL 完全精度 | より高精度、複雑な視覚タスク |
| RTX 5090 | より大型のモデルを実行可能 | 最高の体験 |
重要なブレイクスルーはint4量子化後の9Bモデルがブラウザエージェントシナリオで利用可能になったこと。チームは22の視覚言語モデルをテストし、最終的にQwen3.5-9Bを最適バランス点として選定した——8GB VRAM制約の下で、視覚理解とウェブ操作能力が大型モデルに最も近い。
WebBrainとは
WebBrainはローカルで実行されるブラウザエージェントで、コア機能は以下を含む:
- 視覚理解:ウェブページのスクリーンショットを直接「見て」、ページレイアウトとコンテンツを理解
- 自動操作:クリック、入力、スクロール、フォームへの入力
- タスク計画:マルチステップのタスク分解と実行
- コンテキストメモリ:ページ間でタスクコンテキストを維持
従来のブラウザ自動化ツール(Selenium、Playwrightなど)との違いは、WebBrainが事前に書かれたスクリプトに依存せず、視覚理解を通じて動的に操作ステップを決定すること。「人がブラウザを操作している」ような体験だ。
なぜQwen3.5-9B int4が選ばれたのか
チームが22の視覚言語モデルの中から行った選択は以下の权衡に基づいている:
| 考慮要素 | Qwen3.5-9B int4 | 他のモデル |
|---|---|---|
| VRAM使用量 | 約5GB | 多くは12GB以上を必要 |
| 視覚理解精度 | ブラウザシナリオで十分 | 大型モデルは限定的な向上 |
| 推論速度 | 8GBカードでスムーズ | 大型モデルは遅延の可能性 |
| オープンソースライセンス | Apache 2.0 | 一部モデルは制限あり |
| エコシステムサポート | Ollama / llama.cpp ネイティブ対応 | 一部はカスタマイズが必要 |
ブラウザエージェントという特定のシナリオにとって、9Bパラメータの視覚理解能力はすでに十分——ボタンの認識、テキストの読み取り、フォーム構造の理解に、数千億パラメータの「汎用知能」は必要ない。
典型的な使用シナリオ
- プライバシーに敏感なデータ収集:ウェブページの内容をクラウドに送信する必要がない
- 長期実行のモニタリングタスク:API費用制限なし、24時間365日ゼロコストで実行
- イントラネット環境の自動化:完全オフライン、企業イントラネットや隔離環境に適する
- 開発デバッグ:ブラウザ自動化ワークフローのローカルでの高速テスト
業界状況の判断
「ローカル化」はAI Agentデプロイメントの重要なトレンドになりつつある:
- コスト:クラウドAPIの長期運用による累積費用は、ハードウェア投資を大幅に上回る可能性がある
- プライバシー:ブラウザ操作は大量の機密データを含み、ローカル処理の方が安全
- 安定性:ネットワーク接続やクラウドサービスの可用性に依存しない
- 制御性:モデルバージョンと実行環境を完全に自律制御
WebBrainはこのトレンドのベンチマークを表している:8GB VRAMという閾値は、最新のノートパソコンの大半とエントリーレベルのGPUユーザーが参加できることを意味する。
アクション提案
- MacBookユーザー:16GBメモリのM1/M2/M3 MacBookで直接実行可能、追加のハードウェア投資ゼロ
- RTX 4060/3060搭載のデスクトップユーザー:VRAMを8GB以上にアップグレードしてデプロイ可能
- 企業のセキュリティチーム:WebBrainをイントラネット自動化テスト方案として評価、クラウドベースのブラウザエージェントを代替
- 長期タスクのニーズがあるユーザー:クラウドAPI費用とローカルハードウェアコストを比較、通常3-6ヶ月で回収可能