【时间/地点/人物】
2026年4月14日,Google DeepMind发布Gemini Robotics-ER 1.6模型。此次发布由Google DeepMind研究人员Laura Graesser和Peng Xu主导,并与机器人公司Boston Dynamics深度合作,将其Spot机器人应用于实际场景测试。
【事件详情】
Gemini Robotics-ER 1.6是Google迄今为止最安全的机器人模型,专注于具身推理能力,让机器人能够以前所未有的精度理解物理环境。该模型在空间推理、多视图理解和任务成功检测方面显著提升,并解锁了全新能力:仪器读取。
通过与Boston Dynamics合作,Spot机器人现在可以读取工业设施中的压力表、液位计、温度计等各种仪表。这项能力源于真实场景需求:工业设施包含大量需要持续监控的仪器,Spot可以自动巡检并准确读取数据。
技术层面,Gemini Robotics-ER 1.6采用代理视觉(agentic vision)技术,将视觉推理与代码执行结合。模型会先放大图像以看清仪表细节,然后使用指向和代码执行估算比例和刻度,最终获得精确读数,并应用世界知识解释含义。对于圆形压力表、垂直液位指示器、数字读数器等各种仪表类型均能准确识别。
【背景】
机器人的具身推理是实现真正自主的关键能力。机器人不仅要遵循指令,更要理解物理世界:从在复杂设施中导航,到解读压力表上的指针位置。Gemini Robotics-ER 1.6作为高级推理模型,可以原生调用Google Search、视觉-语言-动作模型(VLA)或任何第三方用户定义函数来执行任务。
在基准测试中,该模型在指向、计数、成功检测等空间和物理推理任务上显著超越前代Gemini Robotics-ER 1.5和Gemini 3.0 Flash。特别是在安全指令遵循测试中,新模型大幅改进,能够做出更安全的物理决策,例如识别哪些物体可以安全操作(考虑抓取器或材料限制)。
【影响】
1. 工业自动化升级:设施巡检实现完全自主化,减少人工巡检成本和安全风险。
2. 机器人应用拓展:从简单移动任务升级到复杂视觉推理任务,打开新应用场景。
3. 安全标准提升:模型在识别文本和视频中的安全风险方面比基准Gemini 3.0 Flash分别提高6%和10%。
4. 开发者生态完善:模型现已通过Gemini API和Google AI Studio向开发者开放,降低机器人AI应用门槛。
【总结】
Gemini Robotics-ER 1.6的发布标志着具身智能的重要里程碑。通过增强空间推理和多视图理解能力,机器人不再只是执行预设动作的机器,而是能够真正看懂、理解并响应真实世界的智能体。与Boston Dynamics的合作证明了技术从实验室到工业场景的可行性。Spot机器人能够读取复杂仪表的能力,解决了工业巡检的核心痛点。更重要的是,Google将安全性置于核心,该模型在对抗性空间推理任务中对安全政策的遵守程度达到历史最优。Boston Dynamics Spot副总裁兼总经理Marco da Silva的评价道出了关键:仪器读取等能力将让Spot能够完全自主地观察、理解并响应真实世界挑战。对于机器人行业而言,这不仅是技术突破,更是商业化落地的重要一步。开发者现在可以通过Google AI Studio免费试用该模型,加速具身智能应用的普及。
【参考来源】
https://deepmind.google/blog/gemini-robotics-er-1-6/
https://deepmind.google/models/gemini-robotics/
https://developers.googleblog.com/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/
https://blog.google/products-and-platforms/products/gemini/gemini-3-flash/
https://ai.google.dev/gemini-api/docs/robotics-overview
https://aistudio.google.com/prompts/new_chat?model=gemini-robotics-er-1.6-preview
https://github.com/google-gemini/robotics-samples/blob/main/Getting%20Started/gemini_robotics_er.ipynb
https://bostondynamics.com/blog/aivi-learning-now-powered-google-gemini-robotics/
https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/
https://asimov-benchmark.github.io/v2/









