鼠标指针 1968 年被 Doug Engelbart 发明以来,半个多世纪过去了,它做的事情几乎没变:告诉你屏幕上哪个像素是"当前位置"。
Google DeepMind 在 5 月 12 日发布了一项研究,想改变这件事。
他们的想法很简单:与其让用户把世界拖进 AI 窗口里(打开 ChatGPT,复制粘贴,写 prompt,等回复),不如让 AI 走到用户正在使用的界面里去。具体实现方式是给鼠标指针装上 Gemini 的理解能力——你指向什么,AI 就知道那是什么;你说什么,AI 就在当前上下文里执行。
四个交互原则
DeepMind 提出了四个原则,核心思路是"把传达上下文的负担从用户转移到计算机"。
保持工作流不被打断。 AI 能力应该在所有应用里可用,而不是把你从当前工作拽到一个"AI 窗口"里。指着 PDF 说"生成要点摘要",直接贴进邮件里。指着统计表说"换成饼图",当场就换了。
指和说。 现在的 AI 需要你写详细的 prompt。DeepMind 的方案是:指向屏幕上的元素,AI 自动捕获周围的视觉和语义上下文。你不需要说"请分析文档第三段第二行提到的数据"——你只需要指向它。
用"这个"和"那个"就够了。 人与人交流时很少说完整的长句。"把这个移到这里""那个是什么意思"——靠的是手势和共享上下文来填补语义空白。AI 指针要做的就是理解这种自然 shorthand。
把像素变成可操作的实体。 以前的电脑只知道你指向"坐标 (x,y)"。AI 可以理解你指向的"是什么"——一个地点、一个日期、一个物体。一张手写便签的照片变成可交互的待办清单;旅行视频里暂停的画面变成餐厅预订链接。
这不是 Computer Use,但有关联
你可能已经注意到,这个方向和 Anthropic 的 Computer Use、阿里的 ToolCUA 有交集,但切入点不同。
Computer Use 的思路是"让 AI 学会操作电脑"——给它一个屏幕截图,它输出鼠标点击和键盘输入。DeepMind 的思路是"让人的操作变得更聪明"——你不放弃控制,但每次操作的语义密度提高了十倍。
前者是替代人的操作,后者是增强人的操作。两条路线不矛盾,但哲学不同。
已经在产品里了
DeepMind 在文章末尾提到一个关键信息:这些概念已经开始整合进 Chrome 和新的 Googlebook 笔记本体验。从 5 月 12 日起,Chrome 里的 Gemini 已经支持用指针指向内容来发出简短指令,而不是写完整 prompt。
这意味着这不只是实验室 demo,而是已经开始落地的产品方向。
我的看法
鼠标指针这个切入点选得很聪明。
大多数 AI 交互创新都在做"加"——加语音、加视频、加多模态。DeepMind 在做"减"——减少用户需要表达的上下文量,让指向这个最简单的交互动作承载更多语义。
如果这个方向走通,它可能成为 AI 时代人机交互的基础范式之一。不是所有人都想和 AI"聊天",但所有人都需要"指向某个东西然后让它帮我做点什么"。
不过也有挑战。隐私问题首当其冲——一个能持续理解你屏幕上所有内容的 AI 指针,需要解决"AI 看到了什么、记住了什么"的信任问题。DeepMind 在文章里没有深入讨论这部分,这可能是未来最大的障碍。
主要来源:
- DeepMind: Reimagining the mouse pointer for the AI era
- Google AI Studio 实验 Demo