Gemini Robotics:将 AI 带入物理世界

发布于 2025 年 3 月 12 日

作者:

Carolina Parada

分享

从机器人的视角看手。一双机器手将字母块移动到“world”一词下,文字为“Gemini for the Physical”。

推出基于 Gemini 2.0 构建的、专为机器人技术设计的模型 Gemini Robotics

在 Google DeepMind,我们一直在改进我们的 Gemini 模型,使其能够通过跨文本、图像、音频和视频的多模态推理来解决复杂问题。然而,到目前为止,这些能力主要局限于数字领域。为了使 AI 在物理领域对人们有用和有帮助,他们必须展示“具身”推理——类似于人类理解和对周围世界做出反应的能力——并安全地采取行动来完成任务。

今天,我们推出了两个基于 Gemini 2.0 的新 AI 模型,它们为新一代有用的机器人奠定了基础。

第一个是 Gemini Robotics,这是一种先进的视觉-语言-动作 (VLA) 模型,它建立在 Gemini 2.0 的基础上,增加了物理动作作为一种新的输出模态,目的是直接控制机器人。第二个是 Gemini Robotics-ER,这是一个具有高级空间理解能力的 Gemini 模型,使机器人专家能够使用 Gemini 的具身推理 (ER) 能力运行他们自己的程序。

这两种模型都使各种机器人能够执行比以往任何时候都更广泛的现实世界任务。作为我们工作的一部分,我们正在与 Apptronik 合作,利用 Gemini 2.0 构建下一代人形机器人。我们还与一些受信任的测试人员合作,以指导 Gemini Robotics-ER 的未来发展。

我们期待探索我们模型的能力,并继续开发它们,以实现现实世界的应用。

Gemini Robotics:将 AI 带入物理世界

观看 "Gemini Robotics:将 AI 带入物理世界"

我们的工作总结

Gemini Robotics:我们最先进的视觉-语言-动作模型

为了对人们有用和有帮助,机器人技术的 AI 模型需要三个主要品质:它们必须是通用的,这意味着它们能够适应不同的情况;它们必须是交互式的,这意味着它们可以理解并快速响应指令或环境变化;并且它们必须是灵巧的,这意味着它们可以做人们通常可以用他们的手和手指做的那种事情,比如小心地操纵物体。

虽然我们之前的工作展示了在这些领域的进展,但 Gemini Robotics 代表了在所有三个方面的性能上的重大进步,使我们更接近真正的通用机器人。

通用性

Gemini Robotics 利用 Gemini 的世界理解能力来泛化到新的情况,并开箱即用地解决各种任务,包括它在训练中从未见过的任务。 Gemini Robotics 还擅长处理新物体、各种指令和新环境。在 我们的技术报告 中,我们表明,平均而言,与其他最先进的视觉-语言-动作模型相比,Gemini Robotics 在全面的泛化基准测试中将性能提高了一倍以上。

Gemini Robotics:通用

观看 "Gemini Robotics:通用"

Gemini Robotics 世界理解能力的演示。

互动性

为了在我们动态的物理世界中运行,机器人必须能够无缝地与人和他们周围的环境互动,并适应动态变化。

因为它建立在 Gemini 2.0 的基础上,所以 Gemini Robotics 在直觉上是互动式的。它利用 Gemini 的高级语言理解能力,并且可以理解并响应以日常对话语言和不同语言表达的命令。

它可以理解和响应比我们以前的模型更广泛的自然语言指令集,并根据您的输入调整其行为。它还可以持续监控其周围环境,检测环境或指令的变化,并相应地调整其行动。这种控制或“可操纵性”可以更好地帮助人们在从家庭到工作场所的一系列环境中与机器人助手进行协作。

Gemini Robotics:互动

观看 "Gemini Robotics:互动"

如果一个物体从它的手中滑落,或者有人将一个物品移动到周围,Gemini Robotics 会迅速重新规划并继续进行——这是机器人在现实世界中的一项至关重要的能力,因为现实世界中充满了惊喜。

灵活性

构建一个有用的机器人的第三个关键支柱是灵活行动。 人类毫不费力地执行的许多日常任务需要非常精细的运动技能,并且对于机器人来说仍然太困难了。 相比之下,Gemini Robotics 可以处理极其复杂的多步骤任务,这些任务需要精确的操作,例如折叠纸 origami 或将零食装入 Ziploc 袋。

Gemini Robotics:灵巧

观看 "Gemini Robotics:灵巧"

Gemini Robotics 显示出高级别的灵活性

多种具体形式

最后,由于机器人有各种形状和大小,因此 Gemini Robotics 也被设计成可以轻松适应不同的机器人类型。 我们主要在来自双臂机器人平台 ALOHA 2 的数据上训练模型,但我们也证明它可以控制一个双臂平台,该平台基于许多学术实验室中使用的 Franka 机械臂。 Gemini Robotics 甚至可以针对更复杂的具体形式进行专门化,例如由 Apptronik 开发的人形机器人 Apollo,目标是完成现实世界的任务。

Gemini Robotics适用于不同类型的机器人

Gemini Robotics 适用于不同类型的机器人

增强 Gemini 的世界理解能力

除了 Gemini Robotics 之外,我们还推出了一种名为 Gemini Robotics-ER(“具身推理”的缩写)的先进视觉-语言模型。 该模型以机器人技术所必需的方式增强了 Gemini 对世界的理解,特别关注空间推理,并允许机器人专家将其与现有的低级控制器连接起来。

Gemini Robotics-ER 大大提高了 Gemini 2.0 现有的能力,例如指向和 3D 检测。 通过结合空间推理和 Gemini 的编码能力,Gemini Robotics-ER 可以即时实例化全新的功能。 例如,当展示一个咖啡杯时,该模型可以直观地进行适当的两指抓握,以便通过手柄将其拾起,并采取安全的轨迹来接近它。

Gemini Robotics-ER 可以执行控制机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。 在这种端到端设置中,该模型实现了比 Gemini 2.0 高 2 倍-3 倍的成功率。 而且,在代码生成不足的情况下,Gemini Robotics-ER 甚至可以利用上下文学习的力量,遵循少量人类演示的模式来提供解决方案。

Gemini Robotics-ER 擅长于具身推理能力,包括检测物体和指向物体部件,查找相应的点以及在 3D 中检测物体。 这是一个展示这些功能的视觉效果拼贴。 左上方:2D 对象检测,右上方:指向,左下方:多视图对应,右下方:3d 对象检测。

Gemini Robotics-ER 擅长具身推理能力,包括检测物体和指向物体部件,查找相应的点以及在 3D 中检测物体。

负责任地推进 AI 和机器人技术

当我们探索 AI 和机器人技术的持续潜力时,我们正在采用一种分层、整体 的方法来解决我们研究中的安全问题,从低级电机控制到高级语义理解。

机器人和周围人的物理安全是机器人科学中长期存在的、基本的关注点。 这就是为什么机器人专家有经典的措施,例如避免碰撞、限制接触力的大小以及确保移动机器人的动态稳定性。 Gemini Robotics-ER 可以与这些特定于每个特定具体形式的“低级”安全关键控制器连接。 在 Gemini 的核心安全功能的基础上,我们使 Gemini Robotics-ER 模型能够理解在给定上下文中执行潜在操作是否安全,并生成适当的响应。

为了推进学术界和工业界的机器人安全研究,我们还发布了一个新的数据集,以评估和改进具身 AI 和机器人技术中的语义安全。 在之前的工作中,我们展示了受 Isaac Asimov 的机器人三定律启发的 机器人宪法 如何帮助提示 LLM 为机器人选择更安全的任务。 从那时起,我们开发了一个框架来自动生成数据驱动的宪法 - 直接以自然语言表达的规则 - 以引导机器人的行为。 该框架将允许人们创建、修改和应用宪法来开发更安全且更符合人类价值观的机器人。 最后,新的 ASIMOV 数据集 将帮助研究人员严格衡量机器人行动在现实场景中的安全影响。

为了进一步评估我们工作的社会影响,我们与我们负责任的开发和创新团队的专家以及我们的责任和安全委员会(一个致力于确保我们负责任地开发 AI 应用程序的内部审查小组)合作。 我们还就具身 AI 在机器人应用中提出的特定挑战和机遇咨询外部专家。

除了与 Apptronik 的合作之外,我们的 Gemini Robotics-ER 模型还可供受信任的测试人员使用,包括 Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools。 我们期待探索我们模型的功能,并继续开发 AI 以用于下一代更有用的机器人。

致谢

这项工作由 Gemini Robotics 团队开发。 有关作者和致谢的完整列表,请查看 我们的技术报告

页脚链接

关注我们

关于

了解更多

注册以获取有关我们最新创新的更新

电子邮件地址 请输入有效的电子邮件地址 (例如,"name@example.com") 我接受 Google 的条款和条件,并承认我的信息将根据 Google 的隐私政策 使用。 注册 Google