Google DeepMind 想重新发明鼠标指针：用 Gemini 驱动的 AI 指针长什么样

鼠标指针 1968 年被 Doug Engelbart 发明以来，半个多世纪过去了，它做的事情几乎没变：告诉你屏幕上哪个像素是"当前位置"。

Google DeepMind 在 5 月 12 日发布了一项研究，想改变这件事。

他们的想法很简单：与其让用户把世界拖进 AI 窗口里（打开 ChatGPT，复制粘贴，写 prompt，等回复），不如让 AI 走到用户正在使用的界面里去。具体实现方式是给鼠标指针装上 Gemini 的理解能力——你指向什么，AI 就知道那是什么；你说什么，AI 就在当前上下文里执行。

四个交互原则

DeepMind 提出了四个原则，核心思路是"把传达上下文的负担从用户转移到计算机"。

保持工作流不被打断。 AI 能力应该在所有应用里可用，而不是把你从当前工作拽到一个"AI 窗口"里。指着 PDF 说"生成要点摘要"，直接贴进邮件里。指着统计表说"换成饼图"，当场就换了。

指和说。 现在的 AI 需要你写详细的 prompt。DeepMind 的方案是：指向屏幕上的元素，AI 自动捕获周围的视觉和语义上下文。你不需要说"请分析文档第三段第二行提到的数据"——你只需要指向它。

用"这个"和"那个"就够了。 人与人交流时很少说完整的长句。"把这个移到这里""那个是什么意思"——靠的是手势和共享上下文来填补语义空白。AI 指针要做的就是理解这种自然 shorthand。

把像素变成可操作的实体。 以前的电脑只知道你指向"坐标 (x,y)"。AI 可以理解你指向的"是什么"——一个地点、一个日期、一个物体。一张手写便签的照片变成可交互的待办清单；旅行视频里暂停的画面变成餐厅预订链接。

你可能已经注意到，这个方向和 Anthropic 的 Computer Use、阿里的 ToolCUA 有交集，但切入点不同。

Computer Use 的思路是"让 AI 学会操作电脑"——给它一个屏幕截图，它输出鼠标点击和键盘输入。DeepMind 的思路是"让人的操作变得更聪明"——你不放弃控制，但每次操作的语义密度提高了十倍。

前者是替代人的操作，后者是增强人的操作。两条路线不矛盾，但哲学不同。

DeepMind 在文章末尾提到一个关键信息：这些概念已经开始整合进 Chrome 和新的 Googlebook 笔记本体验。从 5 月 12 日起，Chrome 里的 Gemini 已经支持用指针指向内容来发出简短指令，而不是写完整 prompt。

这意味着这不只是实验室 demo，而是已经开始落地的产品方向。

鼠标指针这个切入点选得很聪明。

大多数 AI 交互创新都在做"加"——加语音、加视频、加多模态。DeepMind 在做"减"——减少用户需要表达的上下文量，让指向这个最简单的交互动作承载更多语义。

如果这个方向走通，它可能成为 AI 时代人机交互的基础范式之一。不是所有人都想和 AI"聊天"，但所有人都需要"指向某个东西然后让它帮我做点什么"。

不过也有挑战。隐私问题首当其冲——一个能持续理解你屏幕上所有内容的 AI 指针，需要解决"AI 看到了什么、记住了什么"的信任问题。DeepMind 在文章里没有深入讨论这部分，这可能是未来最大的障碍。

主要来源：