今日の Hugging Face Daily Papers 1位は、イェール大学の Arman Cohan チームによる論文「OpenComputer」が占めています。タイトルは非常に学術的に聞こえますが、実際に解決しようとしているのは極めて現実的な課題です。AI agent がパソコン上で実行した操作が、果たして正しいかどうかをどうやって確認するのか?
Computer-use agent(AI にマウスやキーボードを操作させてデスクトップソフトウェアを制御する技術)は、2025〜2026年の大きなトレンドです。しかし、これらの agent の評価は長年の難題でした。OSWorld-Verified などのベンチマークで高スコアを出しても、実際のシナリオでエンドツーエンドのタスクを確実に完了できるとは限りません。
4つのコアコンポーネント
OpenComputer のアーキテクチャは4つのブロックで構成されており、それぞれが既存ソリューションの弱点を補うように設計されています。
1. アプリケーションレベルの状態検証器(State Verifiers)
本論文で最も興味深い部分です。チームは33のデスクトップアプリ(ブラウザ、Office、クリエイティブソフトウェア、開発環境、ファイルマネージャー、コミュニケーションツール)向けにハードコードされた状態検証器を作成し、構造化されたチェックエンドポイントを通じてアプリの実際の状態を検査します。
LLM にスクリーンショットを見せて結果を推測させるのではなく、「ファイルが保存されたか」「メールが送信されたか」「コードがコンパイルされたか」を直接チェックします。
2. 自己進化する検証レイヤー
検証器自体も進化が必要です。OpenComputer は、実行プロセスからのフィードバックを通じて検証器の信頼性を向上させる自己改善レイヤーを導入しました。簡単に言えば、検証器もエラーから学習するということです。
3. タスク生成パイプライン
機械的に検証可能な現実的なデスクトップタスクを自動合成します。1000のタスクは多様なシナリオをカバーしており、単純な「ファイルを開く」から複雑なマルチステップワークフローまで含まれます。
4. 評価ハーネス(Evaluation Harness)
完全な操作軌跡を記録し、監査可能な部分スコア(partial-credit rewards)を計算します。これは単純な「成功/失敗」の二値判断よりもはるかに精緻です。
主要な発見
論文はいくつかの意外な結論を示しています:
- OpenComputer のハードコード検証器と人間の評価との一致度は、LLM-as-judge アプローチを大幅に上回る——特に成功可否がアプリケーションの細かな状態に依存する場合に顕著です
- 最先端の agent(frontier agents)は、部分的なステップは完了できるものの、エンドツーエンドの完了には依然として苦戦している
- オープンソースモデルの OSWorld-Verified 上のスコアと実際の性能には明確な乖離があり、computer automation 分野における持続的なギャップが浮き彫りになっています
なぜ注目すべきか
本論文の価値は、新しいフレームワークを提案した点だけでなく、agent 評価分野の根本的な問題に真正面から向き合った点にあります。私たちが測定しているものは、果たして何なのか?
LLM-as-judge がデフォルトの評価方法となりつつある中で、OpenComputer は実験によって証明しました。具体的なアプリケーションの状態が関わるタスクにおいては、ハードコードされた検証器の方が LLM の判断よりも信頼性が高いのです。これは agent 研究全体にとって重要な示唆を与えます。
さらに、1000のタスクと33のアプリをカバーするその範囲は、現在最も包括的な computer-use agent 評価フレームワークの一つとなっています。
論文URL:arXiv:2605.19769