π-Bench：评测"主动型"AI 助手，不再是被动等指令的工具

现在的 AI 助手，大部分还是"你说它做"的模式。你打开聊天窗口，输入指令，它返回结果。安静、听话、高效。

但一个真正好用的助手不应该只等指令。它应该能在你打开某个应用时，猜到你可能要做什么；在你连续切换几个窗口后，主动问一句"你是不是在找什么东西"。

这种从"被动响应"到"主动预判"的转变，是个人 AI 助手下一步的核心方向。但问题来了：怎么评测一个"主动"的助手？它做对了怎么打分？它多管闲事怎么扣分？

Simplified Reasoning 团队今天在 HuggingFace Daily Papers 上提交的 π-Bench 论文，试图回答这个问题。

评测"主动"比评测"被动"难得多

评测一个被动助手很简单：给一个指令，看输出对不对。但评测主动助手，你需要回答几个更麻烦的问题：

它什么时候该主动？什么时候该闭嘴？它预判的意图对不对？它的建议有没有帮上忙还是添了乱？

π-Bench 把评测放在长周期工作流的场景里。不是"一个指令一个回复"的单轮交互，而是一段时间内助手持续观察用户行为、做出预判、提供建议的完整过程。

用户日常操作的屏幕轨迹充满了噪声。你打开了一个文档，改了两行，关掉了。打开浏览器，搜了一个问题，又关掉了。这些操作里，哪些是助手应该关注的信号，哪些是可以忽略的背景噪音？

更复杂的是，用户同时可能在处理多个任务。回邮件、改 PPT、查资料——几条线索交织在一起。助手需要在不确定的状态下做出判断，而且判断的依据只是屏幕截图序列。

这篇论文今天在 HuggingFace 上拿到 45 票。不算高，但方向切中了当前 Agent 评测的一个空白地带。

现有的 Agent 评测大多是任务完成率的统计——给 100 个任务，看能完成几个。但"主动预判"不是任务完成率能衡量的。它需要一套全新的评估框架：时机判断的准确性、建议的相关性、对用户工作流的实际影响。

主动型助手最大的风险不是"不够主动"，而是"太主动"。想象一下，你正在专注写代码，助手每隔两分钟弹一条建议——"你是不是要查这个 API 的文档？"、"我觉得你这里可以用另一个函数"。

这种助手不是帮忙，是干扰。

π-Bench 如果能在这方面给出量化的评估标准——比如定义"主动打扰"的阈值、衡量建议对工作效率的净影响——那它对行业的实际参考价值会大很多。

主要来源：