π-Bench：「主動型」AI 助手の评测——もはや指令を待つだけのツールではない

今の AI 助手は、ほとんどが「あなたが言って、それがやる」モード。チャットウィンドウを開いて、指令を入力、結果が返ってくる。静か、従順、効率的。

しかし本当に使いやすい助手は、ただ指令を待つべきではない。あるアプリを開いた時に、あなたが何をしたいか推測できるべきだ。いくつかのウィンドウを連続して切り替えた後、「何か探していますか？」と積極的に聞くべきだ。

この「受動応答」から「主動预判」への転換は、個人 AI 助手の次の核心方向。しかし問題は：どうやって「主動型」の助手を評価するのか？

Simplified Reasoning チームが本日 HuggingFace Daily Papers に提出した π-Bench 論文は、この問題に答えようとしている。

「主動」の評価は「被動」の評価よりずっと難しい

被動助手の評価は簡単：指令を与えて、出力が正しいか見る。しかし主動助手の評価は、もっと面倒な問題に答える必要がある：

いつ主動すべきか？いつ黙るべきか？预判した意図は正しいか？その提案は役に立ったのか、それとも邪魔になったのか？

π-Bench は評価を長周期ワークフローのシナリオに置く。「一つの指令、一つの返信」の単一ターンインタラクションではなく、助手がユーザーの行動を継続的に観察し、预判し、提案する完全なプロセス。

ユーザーの日常操作のスクリーントラジェクトはノイズに満ちている。ドキュメントを開いて、2 行修正して、閉じる。ブラウザを開いて、質問を検索して、また閉じる。これらの操作の中で、どれが助手が注目すべきシグナルで、どれが無視できる背景ノイズか？

主要來源：