π0.5:一个具备开放世界泛化能力的 VLA 模型
π0.5:一个具备开放世界泛化能力的 VLA 模型 发布于 2025年4月22日 邮箱 research@physicalintelligence.company Kevin Black, Noah Brown, James Darpinian, Karan Dhabalia, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Manuel Galliker, Dibya Ghosh, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Liyiming Ke, Devin LeBlanc, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Allen Ren, Lucy Xiaoyang Shi, Laura Smith, Jost Tobias Springenberg, Kyle Stachowicz, James Tanner, Quan Vuong, Homer Walke, Anna Walling, Haohuan Wang, Lili Yu, Ury Zhilinsky 论文 π0.5.pdf 在过去的几年里,机器人技术取得了长足的进步——它们可以完成令人印象深刻的杂技表演,在舞台上跳舞,听从语言指令,并且在我们自己的一些成果中,可以执行复杂的任务,如叠衣服或清理桌子。但是,机器人技术中最大的挑战不是执行敏捷或灵巧的动作,而是泛化能力:即在新的环境中或使用新的物体时,能够正确执行即使是最简单任务的能力。想象一下,一个需要清理你家的机器人:每个家庭都是不同的,不同的物体放在不同的地方。泛化必须发生在多个层面上。在较低的层面上,机器人必须理解如何拿起勺子(通过把手)或盘子(通过边缘),即使它以前没有见过这些特定的勺子或盘子,甚至它们被放置在一堆脏盘子中。在更高的层面上,机器人必须理解每个任务的语义——将衣服和鞋子放在哪里(理想情况下是在洗衣篮或壁橱里,而不是在床上),以及哪种工具适合擦拭溢出物。这种泛化需要强大的物理技能和对环境的常识性理解,以便机器人可以同时在多个层面上进行泛化,从物理、视觉到语义。而多样化的机器人系统数据有限,使得这一过程更具挑战性。
这就是为什么大多数商业机器人在严格控制的环境中运行,如工厂或仓库:在一个机器人永远不需要冒险进入单个建筑物之外,并且物体及其位置是预先确定的世界中,当前仅提供弱泛化的机器人方法可以非常成功。即使近年来展示的令人印象深刻的机器人敏捷性和灵巧性,通常也旨在在特定环境中工作,通常使用在测试场景或非常相似的环境中收集的数据。但是,如果我们希望机器人成为我们日常生活的一部分,在我们的家庭、杂货店、办公室、医院和其他“混乱”环境中工作,我们需要强大的泛化能力。
我们一直在开发可以泛化到这种混乱环境的机器人基础模型,基于我们的视觉-语言-动作(VLA)模型 π0。虽然 π0 和其他最近的 VLAs 都是在与训练环境非常匹配的环境中进行评估的,但我们开发了一种名为 π0.5 的新模型,该模型对全新的环境表现出有意义的泛化能力。我们相信,这代表着朝着真正可泛化的物理智能迈出的重要一步。我们目前的模型远非完美:它的目标不是完成新的技能或表现出高度的灵巧性,而是泛化到新的设置,例如清理在训练数据中没有见过的全新住宅的厨房或卧室。在我们的实验中,π0.5 可以在全新的住宅中执行各种任务。它并不总是第一次就成功,但它经常表现出一个人在面对新挑战时可能采取的灵活性和足智多谋。
π0.5 执行的单个任务的难度各不相同,从重新排列物体(例如,将盘子放入水槽)到更复杂的行为,例如使用海绵擦拭溢出物。我们在下面展示了这些任务中一些更复杂的阶段,以及本文后面的长时程行为的视频。
它是如何工作的?
π0.5 背后的主要原则是异构数据上的协同训练:通过在各种不同的数据源上训练我们的 VLA 模型,我们可以教它不仅如何在物理上执行各种技能,而且还如何理解每个技能的语义上下文(例如,如果任务是清理厨房,什么是适合拿起和放好的物体,以及将它们放在哪里),推断任务的高级结构(例如,整理床铺所需的步骤),甚至将物理行为从其他机器人转移过来(例如,只有一个手臂或没有移动底座的更简单的机器人,或者来自不太多样化的环境中机器人的数据)。
协同训练在概念上很简单:因为 VLAs 来自通用视觉-语言模型(VLMs),所以它们可以在由动作、图像、文本和其他多模态注释(如边界框)的任意组合组成的示例上进行训练。这包括通用多模态任务,例如图像描述、视觉问答或对象检测,以及面向机器人的任务,例如带有动作的机器人演示,以及“高级”机器人示例,包括用适当的语义行为标记的观察结果(例如,未整理的床的观察结果,带有标签“拿起枕头”)。我们还包括“口头指导”演示,其中一个人通过逐步告诉机器人做什么(使用自然语言)来指导机器人完成复杂的任务。该模型既对要执行的下一个语义步骤进行高级推断,类似于链式思考推理,又进行低级预测以输出到机器人关节的运动命令:
多模态数据
口头指导
“关上微波炉”
子任务命令
“拿起手套”
物体检测
多模态网络数据
机器人动作数据
野外移动机器人
野外静态机器人
办公室静态机器人
通用机器人数据
跨模态 VLA 策略
π0.5 VLA
高层
机器人行动
低层
动作专家
在新住宅中开箱即用部署
我们 π0.5 配方中的协同训练任务的图示,其中包括来自许多不同机器人类型的各种机器人数据源,以及包括高级子任务命令、指令和来自网络的数据的多模态数据。
多模态数据
口头指导
“关上微波炉”
子任务命令
“拿起手套”
物体检测
多模态网络数据
机器人动作数据
野外移动机器人
野外静态机器人
办公室静态机器人
通用机器人数据
跨模态 VLA 策略
π0.5 VLA
高层
机器人行动
低层
动作专家
在新住宅中开箱即用部署
我们 π0.5 配方中的协同训练任务的图示,其中包括来自许多不同机器人类型的各种机器人数据源,以及包括高级子任务命令、指令和来自网络的数据的多模态数据。
虽然协同训练的基本原则并不新鲜,但训练一个可以广泛泛化的 VLA 需要正确的协同训练任务组合。就像一个人需要适当的课程来教他们新工作的概念和实践方面一样,VLAs 需要由协同训练任务混合提供的“课程”,以便在所有必要的抽象级别上实现泛化。在我们的实验中,我们训练了 π0.5 模型的版本,这些版本排除了完整训练混合的不同部分:“no WD”版本排除了多模态 Web Data(问答、字幕和对象检测),“no ME”版本排除了使用非移动机器人收集的Multiple Environment 数据(例如,放置在许多其他住宅中的静态机器人),“no CE”版本排除了作为原始 π0 训练集一部分收集的 Cross Embodiment 数据,而“no ME or CE”版本排除了这两个机器人数据源,仅留下使用与我们在实验中使用的相同机器人收集的移动操作数据(约 400 小时)。
100% 80% 60% 40% 20% 0% 分布内跟随率
分布内跟随率
π0.5: 86% no WD: 86% no CE: 74% no ME: 66% 分布内成功率
分布内成功率
π0.5: 83% no WD: 82% no CE: 67% no ME: 57% OOD 跟随率
OOD 跟随率
π0.5: 94% no WD: 80% no CE: 67% no ME: 33% OOD 成功率
OOD 成功率
π0.5: 94% no WD: 74% no CE: 49% no ME: 31% π0.5 no WD no CE no ME no ME or CE 评估完整的 π0.5 训练混合与排除各种数据源的消融实验相比。 Web 数据 (WD) 对于泛化到分布外对象的影响最大,而来自其他机器人(ME 和 CE)的数据在所有评估条件下都很重要。
我们评估了两个实验条件:完整的清洁任务,例如将盘子放入水槽或清理卧室地板上的物品,以及分布外 (OOD) 评估,该评估要求机器人将提示中指示的特定物体移入抽屉。对于这两个评估,我们测量成功率,取单个子任务的平均值(例如,移动到适当位置的物体百分比),以及语言跟随率,这表示机器人的行为正确符合用户提示的情况的比例。我们可以看到,在所有情况下,来自其他机器人(ME 和 CE)的数据在策略性能方面都产生了很大的影响。在 OOD 案例中,我们还看到了包含网络数据(WD)的显着差异,这大大提高了机器人正确识别数据中没有的新对象类别的能力。有关这些实验的更多详细信息,请参见随附的论文。
为了更好地量化 π0.5 可以实现的泛化程度,我们进行了一项规模研究,其中我们改变了训练数据中看到的各种环境的数量。我们还在这些比较中包含了一个基线模型,该模型除了所有其他数据源之外,还直接在来自测试环境的数据上进行训练。该模型(以水平绿线显示)提供了 VLA 在此场景中的表现,如果消除了泛化到新环境的挑战。
评估性能如何随着训练环境中数量的增加而扩展,同时与训练混合中的其他数据集进行协同训练。当使用所有可用的训练环境(图表中最右边的点)时,我们的模型(黄色)获得的性能与直接在测试环境上训练的基线(绿色)相似。
这些结果不仅表明 π0.5 的泛化性能随着训练集中不同环境的数量稳步提高,而且在仅使用了约 100 个训练环境后,它实际上接近了直接在测试环境上训练的基线模型的性能。这表明我们的配方可以使用相对容易获得的移动操作训练数据来实现有效的泛化。
训练和推理
π0.5 基于 π0 VLA,但因为它是在需要输出各种标签类型的任务上进行协同训练的,包括动作和文本,所以我们可以使用相同的模型来控制机器人,无论是在高层还是在低层。当我们运行 π0.5 时,我们首先要求它输出以文本表示的“高层”动作,然后要求它通过选择适当的机器人运动命令来遵循这个高层动作,形式为 50 步(1 秒)的连续低层关节动作的“动作块”。此方法遵循我们最近开发的 Hi Robot 系统,不同之处在于,相同的模型用于高层决策和低层运动控制,这是一种“链式思考”过程。
该模型本身包括离散的自回归令牌解码和通过流匹配进行的连续解码,如 π0 中所示。离散解码路径用于推断高层动作,而连续流匹配路径用于低层运动命令,如下图所示。
连续动作 -1.70-1.70-1.7 1.251.251.3 3.143.143.1 1.421.421.4 动作专家 (300M) 预训练 VLA 动作专家 (300M) 子任务预测 “拿起枕头” 低层命令 “拿起枕头” 高层提示 “清理卧室” π0.5 使用的高层/低层推理程序的说明。该模型首先生成以语言表达的高层动作,本质上是“告诉自己”它应该采取什么步骤来完成任务,然后使用其流匹配动作专家选择运动命令。 高层提示 “清理卧室” 预训练 VLA 子任务预测 “拿起枕头” 低层命令 “拿起枕头” 连续动作 -1.70-1.70-1.7 1.251.251.3 3.143.143.1 1.421.421.4 动作专家 (300M) π0.5 使用的高层/低层推理程序的说明。该模型首先生成以语言表达的高层动作,本质上是“告诉自己”它应该采取什么步骤来完成任务,然后使用其流匹配动作专家选择运动命令。
泛化到新住宅
我们通过要求 π0.5 控制移动操作者来清理训练数据中从未见过的全新住宅来评估它。对于 VLA 来说,这是一个异常困难的测试:虽然已经有令人印象深刻的 VLA 泛化演示,例如遵循新的语义命令、交互式地遵循人类指令以及将不同的原始技能链接在一起,但这些演示通常发生在与训练数据相同或非常相似的环境中。我们最近的 π0-FAST 模型 能够使用 DROID 设置泛化到新环境,但仅限于移动单个物体等相对简单的技能。我们的实验涉及将配备 π0.5 的机器人放置在一个全新的住宅中,并要求它收起盘子、整理床铺或清理卧室地板。这些是漫长的任务,不仅需要使用复杂的行为(例如使用海绵清洁溢出物),还需要理解任务的语义并将其分解为各个部分,每个阶段都与正确的物体交互。我们在下面的视频中展示了 π0.5 的示例评估。
我们的模型在新的厨房和卧室中完成长时程任务的示例。 所有实验都是在训练数据中没有的住宅中进行的。
这些策略是反应性的,可以处理环境中的可变性和扰动。在下面的视频中,我们测试了当人们干扰机器人时会发生什么。
最后,π0.5 模型可以接受各种粒度级别的语言命令,从“将盘子放入水槽”等高层提示到指示模型拾取特定物体或朝特定方向移动的详细单个命令。我们在下面的视频中展示了一些语言跟随的示例。
语言命令 拿起圆刷拿起银色登山扣拿起黄色漏斗拿起透明安全眼镜拿起绿色烧烤打火机拿起红色打火机拿起黑色手机壳拿起蓝色药瓶拿起吉他形勺子 我们的模型可以遵循各种粒度级别的语言命令。是的,您现在知道了 - 所有实验都是在训练数据中没有的住宅中进行的。
我们在下面包含了来自我们严格的实证评估的详细视频,其中包含我们模型的成功和失败案例的示例。重要的是,与此页面上的所有视频一样,以下视频中的任何场景都不是来自训练数据。所有实验的完整结果可以在完整的文章中找到。
任务 整理床铺将衣服放入洗衣篮将物品放入抽屉将盘子放入水槽将物品放入抽屉(住宅 1)将盘子放入水槽(住宅 2)将衣服放入篮子(住宅 3) 状态 成功 失败
我们接下来该怎么做?
我们表明,即使对于复杂且扩展的机器人技能(如清理厨房或卧室),VLAs 也可以实现广泛的泛化。我们的 π0.5 模型可以使机器人能够清理训练数据中从未见过的全新住宅。 π0.5 远非完美,它经常在高层语义推断和运动命令方面犯错误。但是,通过允许机器人从各种知识来源中学习,我们希望 π0.5 配方将使我们更接近广泛可泛化和灵活的物理智能。还有很多工作要做:虽然我们的机器人可以从口头反馈中改进,但它们将来也可以利用它们的自主经验来通过更少的监督变得更好,或者它们可以在不熟悉的情况下明确请求帮助或建议。在改进知识转移方面,无论是在模型的结构方式的技术方面,还是在我们的模型可以采用的数据源的多样性方面,也还有很多工作要做。
如果您有兴趣合作,请与我们联系。我们特别高兴与正在扩大机器人数据收集规模的公司合作,这些机器人部署用于实际应用,并且希望在自主性方面进行合作。
我们也在招聘!如果您有兴趣加入我们,请与我们联系。
对于对我们的工作、合作或其他查询感兴趣的研究人员,请发送邮件至 research@physicalintelligence.company。