2026年5月12日Agents Agent-Operable Research

DeepMind 想干掉鼠标指针。替代品是一个会读你屏幕的 AI agent。

Google DeepMind 今天发了一篇博客叫 Reimagining the mouse pointer for the AI era。作者 Adrien Baranes 和 Rob Marchant。框架——鼠标指针 50 年了，是设计来点东西的，不是设计来对 AI 提问的。他们要发的替代品是一个会随着你移动捕获视觉和语义上下文的指针，所以你能指着一段话说「改这个」、指着一张沙发说「放到我客厅里」、指着一张图说「对比这三条线」。

产品化这边。Magic Pointer 在 Googlebook 上发——今天 Android Show 上新公布的 Google 笔记本。Gemini in Chrome 在桌面 Chrome 上发指针上下文功能——hover 一个元素，提问，回答按你指的范围来，不用写长 prompt。Google AI Studio 的实验 demo 展示了指针驱动图片编辑和地图地点发现。

博客里那四条设计原则是 agent 设计含义最有意思的部分。Maintain flow——AI 协助不住在另一个 app 里，住在你光标所在的地方。Show and tell——指针捕获视觉上下文，不用你描述你在看什么。Embrace this and that——「改这个」「移那个」这类自然语言指示代词替代显式选择器。Pixels to actionable entities——AI 把视觉元素转成结构化数据，手写便签变 todo list，餐厅照片变预订链接。

这事为什么是真切换不是 demo 表演。computer-use agent 一直卡在「像素（用户看到的）」和「DOM 或 API 实体（agent 能操作的）」之间的鸿沟上。目前大多数方案是 agent 侧的——更好的视觉模型、accessibility tree 解析、action grounding。DeepMind 把这道桥搬到 OS 层——指针本身成为消歧器，agent 就拿到一个持续接地的「用户说『这个』指的是什么」的引用。这块表面比整个屏幕小得多，信噪比也比自由 prompt 高得多。

看下来。如果 Apple 在一年内在 iOS 或 macOS 里上类似的指针上下文原语，agent UI 这一类目会分裂成两种设计语言——键盘驱动的 prompt+slash 命令，跟指针驱动的上下文+指示代词。现在大多数 agent 产品默认走 prompt 路径。如果指针驱动成为消费者主路径，假设就翻面，几十亿人的交互形状也跟着翻。deepmind.google/blog/ai-pointer。

← 上一篇

Anthropic 今天发了 Claude For Legal。六个 plugin、九个 MCP 连接器，Big Law 已经在真实案件上用了。

Stanford 把 agent 做到比 Docker 快 5 倍，靠的是把「执行轨迹」当成真相之源。

← 返回所有文章

加载中...

DeepMind 想干掉鼠标指针。替代品是一个会读你屏幕的 AI agent。

更多文章

评论