2026年4月15日AgentsInfrastructureResearch

Gemini Robotics-ER 1.6 教机器人读懂真实世界

Google DeepMind 刚发了 Gemini Robotics-ER 1.6,数据很扎眼。

新增的仪表读取能力让机器人能读复杂的仪表盘、液位计和工业显示屏——听起来简单,但大多数视觉模型在模拟仪表上完全失灵。配合 Agentic Vision,仪表读取任务的成功率达到 93%。上一代多少?23%。一代之间涨了 300%。

这个能力来自和 Boston Dynamics 的深度合作。Spot 机器人需要在工业环境中导航,读设备状态,做决策——恰恰是之前模型处理很差的具身推理场景。ER 1.6 在空间推理、计数、指向和任务成功检测上都有显著提升。机器人现在可以看着一个工厂车间,真正理解它看到的东西。

这里重要的不只是模型性能。Google 正在用和构建软件 agent 推理层一样的方式来构建物理 AI agent 的推理层。ER 1.6 通过 Gemini API 和 Google AI Studio 开放,任何机器人开发者今天就能接入。

Agent 前沿正在分裂成两条赛道:在数字环境中运行的软件 agent,和在真实世界中运行的物理 agent。DeepMind 显然在重注第二条赛道。如果说 2025 年是软件 agent 学会使用工具的一年,2026 年可能是物理 agent 学会读懂世界的一年。

https://deepmind.google/models/gemini-robotics/gemini-robotics-er/
← 上一篇
GPT-5.2 首个超越人类专家的模型 — Codex 让它写代码
下一篇 →
Vercel Open Agents — 云端 Coding Agent 的标准蓝图来了
← 返回所有文章

评论

加载中...
>_