Google 如何构建其 Gemini Robotics 模型
[中文正文内容]
本文讲述了 Google 如何构建其新一代的 Gemini Robotics 模型。
分享
在 Google DeepMind 为最近发布的专门为机器人设计的全新 Gemini 2.0 模型系列做准备时,其机器人负责人 Carolina Parada 召集她的团队再次检查该技术的性能。
他们要求一个双臂 ALOHA 机器人 —— 一对灵活的金属手臂,具有多个关节和钳子状的手,广泛用于研究 —— 使用它从未见过的物体执行它以前从未做过的任务。“我们做了一些随机的事情,比如把我的鞋子放在桌子上,让它把一些笔放进去,”Carolina 说。“机器人花了一点时间来理解任务,然后就完成了。”
在下一个请求中,他们找到一个玩具篮球架和篮球,并要求机器人做一个“扣篮”。Carolina 自豪而高兴地看着它完成了这个动作。
Video format not supportedA GIF shows a black robot arm picking up a small orange ball and placing it into a miniature toy basketball hoop. A prompt, Pick up the basketball and slam dunk it, is written out at the bottom of the GIF.
Carolina 说,目睹扣篮是一个“哇”的时刻。
“我们之前训练过模型来帮助机器人完成特定的任务并理解自然语言,但这是一个进步,”Carolina 说。“机器人从未见过任何与篮球有关的东西,也没有见过这个特定的玩具。但它理解了一些复杂的东西——‘扣篮’——并顺利地执行了动作。第一次尝试就成功了。”
这个全能型机器人由 Gemini Robotics 模型提供支持,该模型是机器人多模态模型系列的一部分。这些模型通过使用特定于机器人的数据进行微调,在 Gemini 2.0 的基础上构建,从而将物理动作添加到 Gemini 的多模态输出(如文本、视频和音频)中。Google 的 CEO Sundar Pichai 在 X 上 宣布新模型 时说:“这一里程碑为下一代机器人技术奠定了基础,这些机器人可以在各种应用中提供帮助。”
Gemini Robotics 模型具有高度的灵巧性、交互性和通用性,这意味着它们可以驱动机器人对新对象、环境和指令做出反应,而无需进一步的训练。鉴于团队的雄心壮志,这很有帮助。
Carolina 说:“我们的使命是构建具身 AI,为机器人提供动力,帮助您完成现实世界中的日常任务。”她对机器人技术的迷恋始于童年的科幻卡通片,并受到自动化家务梦想的推动。“最终,机器人将成为我们与 AI 交互的另一种界面,就像我们的手机或电脑一样——物理世界中的代理。”
00:00
与人一样,机器人需要两个主要功能才能有效和安全地执行任务:理解和做出决策的能力以及采取行动的能力。Gemini Robotics-ER 是一个建立在 Gemini 2.0 Flash 上的“具身推理”模型,专注于前者,它可以识别其面前的元素,定义它们的大小和位置,并预测移动它们所需的轨迹和抓握力。然后,它可以生成代码来执行该操作。我们现在正在向受信任的测试人员和合作伙伴提供此模型。
Google DeepMind 还推出了 Gemini Robotics,这是其最先进的视觉-语言-行动模型,它允许机器人推理场景、与用户交互并采取行动。至关重要的是,它在机器人专家证明棘手的一个领域取得了重大进展:灵巧性。“对人类来说自然的事情对机器人来说是困难的,”Carolina 解释说。“灵巧性既需要空间推理,也需要复杂的物理操作。在整个测试过程中,Gemini Robotics 为灵巧性设定了新的技术水平,以流畅的动作和出色的完成时间解决了复杂的多步骤任务。”
Gemini Robotics-ER 在具身推理能力方面表现出色,包括检测物体和指向物体部件、查找对应点和在 3D 中检测物体。
在 Gemini Robotics 的支持下,机器已经可以准备沙拉、打包孩子的午餐、玩井字游戏,甚至可以折叠一个千纸鹤。
准备可以执行许多不同类型任务的模型是一个挑战——主要是因为它违反了行业内为单个任务反复训练模型直到解决的一般做法。Carolina 说:“相反,我们选择了广泛的任务学习,在大量任务上训练模型。我们预计在一段时间后会出现泛化,我们是对的。”
这两种模型都可以适应多种实施方式,包括学术型机器人,例如双臂 ALOHA 机器,或合作伙伴 Apptronik 开发的类人机器人 Apollo。
这些模型适应不同的实施方式,能够以不同的形式执行诸如打包午餐盒或擦拭白板之类的任务。
这种适应能力是未来机器人可以承担许多不同角色的关键。
Carolina 说:“使用高度通用和有能力的模型的机器人具有广泛而令人兴奋的可能性。它们在设置复杂、精度重要且空间对人类不友好的行业中可能更有用。它们在以人为本的空间(例如家庭)中也可能会有所帮助。那还需要几年时间,但是这些模型正在使我们离目标更近几步。”
听起来有人最终会得到一些家务帮助。