Robot Dexterity 仍然面临挑战

Brian Potter 2025年4月24日

目前,很多人都在尝试制造人形机器人。 Humanoid Robot Guide 列出了 38 家制造商生产的 47 种不同的人形机器人,这篇 Technology Review 的文章 声称全球有 160 家公司正在制造人形机器人。 许多制造商都是初创公司,已经筹集(或正在筹集)数亿美元的风险投资。1X Technologies 已经筹集了大约 1.25 亿美元 的资金,Apptronik 已经筹集了 3.5 亿美元Agility Robotics 正在寻求筹集 4 亿美元。Figure AI 已经筹集了 6.75 亿美元,并计划再筹集 15 亿美元。 自 2015 年以来,人形机器人初创公司已经筹集了超过 72 亿美元

其他制造商是现有公司,也正在尝试人形机器人。 Tesla 正在开发其 Optimus 人形机器人,Unitree 正在开发其 G1,Boston Dynamics 正在开发其 Atlas。 各种中国电动汽车制造商,如 Xpeng、Xiaomi 和 Nio,也在 尝试人形机器人(为什么不呢,因为电动汽车和人形机器人从根本上来说都是电池、电机、传感器和控制电子设备的集合)。

这些人形机器人的能力也越来越强。 Boston Dynamics 多年来一直在 展示 其人形机器人的能力,最新版本的 Atlas 展示了 跑步、爬行、翻筋斗和侧手翻的能力。 Unitree 展示了其 G1 功夫拳击翻转屈腿起立。 Booster Robotics 展示了其 T1 踢足球,EngineAI 展示了其人形机器人进行 精心设计的舞蹈。 虽然不那么引人注目,但现在各种人形机器人都有能力以流畅的、类似人类的步态行走,包括(但不限于)Figure's 02Tesla’s OptimusXpeng’s Iron。 就在上周末,在北京举行了一场人形机器人半程马拉松,21 个人形机器人参加了比赛(尽管只有 6 个完成了比赛,而且是在人类助手的帮助下完成的)。

除了这些演示之外,人形机器人也开始在现场进行测试,以确定它们是否可以做有用的工作。 Agility Robotics 的 Digit 正在 仓库中移动集装箱。 Figure 的 02 机器人正在 BMW 装配厂进行测试,Apptronik 的 Apollo 正在 Mercedes 进行试验。 Unitree 的 G1 正在中国用于 安装和维修 电力组件。 在最近的 TED Talk 中,1X 的 CEO 展示了其 Neo 机器人做家务,如吸尘和浇花,该公司计划 今年晚些时候 开始将 Neo 部署到家庭中(但这似乎是一个收集数据以帮助改善机器人行为的练习,而不是销售一个完善的消费者产品)。

虽然很多能力令人印象深刻,但我仍然觉得机器人的进步有些不平衡。 看到这些机器人以如此类人的方式移动很酷,但正如前 OpenAI 首席研究官 Bob McGrew 指出,“操作是我们需要解决的难题,才能使人形机器人发挥作用,而不是运动。” 人形机器人的价值不在于它是否会跳舞、跑步或翻转,而在于它在现实世界中操纵物体的能力如何。 虽然操作能力正在提高,但似乎还有很长的路要走。

灵巧性是难题

长期以来,机器人一直具有进行极其精确运动的能力。 例如,FANUC 的 这款工业机器人手臂 的重复精度为正负 0.03 毫米。 机器人还可以根据环境反馈改变其动作。这段视频 显示了 delta 机器人快速抓取和移动传送带上随机放置的物体。 同样,当我们查看 焊接机器人 时,我们注意到机器人可以使用各种反馈系统来保持机器人与焊缝对齐。

Delta 机器人拾取传送带上随机放置的物体,通过 YouTube

传统上,机器人一直在努力解决的不是受控的、精确的运动,而是 灵巧性 ,这有点像“以各种方式快速、即时地操纵各种物体的能力”。 人类可以完成你要求他们做的几乎任何物体操作任务——折叠一件衣服,打开一加仑牛奶,用布擦拭溢出物——即使它是一个他们以前从未遇到过的物体和/或任务。 另一方面,对于机器人来说,虽然通常可以自动化任何 特定 任务(给定正确的硬件、足够的时间和足够狭窄的任务定义),但构建一个可以灵活地在新的或高度可变的环境中执行各种动作的机器人要困难得多。 机器人的灵活性随着时间的推移而得到改善(例如,今天编程焊接机器人以遵循新路径要容易得多),但这种灵活性仍然存在于非常窄的可接受变化范围内。 上面的 delta 机器人系统可以抓取随机定位的物体,但如果物体的尺寸和形状发生变化,几乎肯定需要重新编程,即使改变物体的颜色也足以破坏现有的自动化,我也不会感到惊讶。

这是所谓的 Moravec’s Paradox 的一个例子:那些似乎需要大量智能的任务通常相对容易让机器来完成,而对人类来说简单的任务通常非常难以自动化。 让计算机进行微积分是微不足道的,但构建一个可以打开创可贴并贴上的机器人——一个两岁的孩子可以做到的事情——要困难得多。

人形机器人和灵巧性

目前的人形机器人似乎在灵巧性方面取得了进展,但仍然远未达到人类的能力。 在上面的 TED Talk 中,1X 的 Neo 展示了它的能力,机器人首先拿起吸尘器并按下按钮将其打开,但它并没有平稳地按下按钮(它的手指似乎首先错过了按钮,然后滑了过去)。 当 Neo 拿起喷壶时,它很难将手指放在手柄周围并紧紧抓住它,并在完成后缩回手(Neo 最终不得不使用另一只手来帮助它从罐中取出)。 在 另一个视频 中,Neo 在家里操作,Neo 将水倒入壶中制作手冲咖啡,但似乎很难保持水壶稳定,而且似乎无法将壶中的水倒入杯中(人类助手完成了这项工作)。 Neo 很难折叠衬衫(这并不奇怪,因为折叠衣服长期以来都是机器人难以完成的任务),虽然它成功地拿起了一个鸡蛋,但动作是生涩而不精确的。 Neo 还非常笨拙地将鸡蛋容器滑过柜台(它将手放在容器上并移动它,而不是抓住它),并且无法顺利地将鸡蛋从容器中取出。

1X 的 Neo 很难将手从喷壶的手柄中取出,通过 YouTube

除了折叠衬衫(Neo 似乎没有完全折叠)之外,这些任务都不是特别需要灵巧性。 它们都涉及操纵相对较大、刚性的物体,这些物体的行为可预测,不需要大量的精度。 对于更需要灵巧性的任务,很明显 Neo 会更加困难。 值得注意的是,Neo 的动作是通过自动化和远程操作(人类远程控制 Neo)相结合完成的,因此它实际的自主能力甚至比我们看到的还要差。

我使用 Neo 作为我的第一个例子,因为有很多关于它操纵物体的可用镜头,但它的表现似乎与其他人形机器人大致相当。 Figure 的 02、Boston Dynamics 的 Atlas 和 Apptronik 的 Apollo 完成的工厂型任务似乎都涉及以相对简单的方式移动大型刚性物体,而且它们经常在精确、微妙的动作中遇到困难。 02 在固定装置上移动大型零件,固定装置对齐以接收它们(可能允许机器人在放置位置上存在一些不精确性),但值得称赞的是,02 这样做相当流畅和快速。 Apptronik 的 Apollo 在此处显示 将两个零件连接在一起,但我们可以看到它在正确对齐和连接它们方面遇到了一些困难。 Boston Dynamics 的 Atlas 在此处显示 将大型刚性零件从一个容器移动到另一个容器,但是当其中一个零件卡在容器边缘时,机器人在遇到很大阻力之前似乎没有注意到,并且无法在不退后并完全重新开始的情况下修复它。

Apptronik 的 Apollo 试图对齐两个零件,通过 YouTube

机器人灵巧性问题是,人形机器人的演示和部署通常会避免复杂的操纵任务。 例如,Agility 的 Digit 似乎经常配备 简单铰链效应器,能够握住容器的侧面,但仅此而已。 在其他时候,它有 小爪子,能够抓握,但似乎无法进行更复杂的动作。 Unitree 有 很多令人印象深刻的演示,展示了 G1 的运动,但大多数演示都不包括太多(如果有的话)物体操纵(尽管 这段视频 显示它抓取和敲碎坚果,这段视频 展示了新的人形手的某些可能远程操作的能力)。 Boston Dynamics 的 Atlas 演示通常是 没有将任何手或操纵器连接到机器人的情况下完成的。 Tokyo Robotics 的 Torobo 演示 同样是通过将工具直接连接到机器人手臂上完成的,没有任何类型的灵巧效应器。

人形机器人(以及一般的机器人)仍然在灵巧性方面遇到困难,这并不是一个秘密。 机器人专家 Rodney Brooks 最近 预测,到 2036 年以后,可部署的人形机器人的灵巧性与人类相比将是“可悲的”。

有一些看起来令人印象深刻的机器人灵巧性演示的例子。 五年前,OpenAI 展示了 一只机器人手自主解决魔方。 Figure 最近发布了一个演示,展示了两个 02 机器人协同工作,将以前未见过的物体放入厨房中。 这些动作不仅流畅(虽然不是特别快),而且机器人能够处理像意大利面袋这样的可变形物体。 Google DeepMind 有几个视频,展示了由 Gemini 驱动的一对机器人手臂完成需要灵巧性的任务,如 自主操纵正时皮带折叠纸 origami插入电源插座。(但也有一些视频显示了一些困难:在这里,手臂很难将眼镜精确地放入眼镜盒中。) 但我不清楚这些能力在多大程度上超出了受控的演示条件。

我的感觉是,许多 令人印象深刻的机器人能力 是在该特定任务上进行大量训练的结果。 这并非一无是处,但对我来说感觉像是渐进式的、进化式的进步。 我们已经生活在一个几乎任何特定任务都可以通过足够的投资来实现自动化的世界中,而过去的自动化进步通常是关于减少自动化某些特定任务所需的前期投资,而不是完全消除它。 工业焊接机器人遵循特定的、预先编程的路径,但它们被汽车行业采用,因为重新编程机器人以遵循新路径比重新调整固定自动化更容易。 通过大量的、特定于任务的训练使机器人执行任务感觉像是沿着这些方向的另一步。

与此相关的是,通常很难从视频中判断机器人能力的“真实”程度。 总是存在仔细编辑的可能性,使能力看起来比实际更令人印象深刻,或者拍摄许多尝试并仅显示成功的尝试,或者进行远程操作(人类控制机器人的运动)。 我们上面提到,1X 的许多动作实际上都是远程操作的,Tesla 的 Optimus 的大多数看起来令人印象深刻的演示(例如 折叠衬衫)也是远程操作的。 总的来说,我认为如果一个看起来令人印象深刻的机器人演示没有明确说明一项任务是自主完成的,那么很有可能不是。

灵巧性困难

从我所能判断的来看,灵巧操作的困难部分是硬件问题,部分是软件问题。 在硬件方面,当前的机器人操纵器远不如人手那样强大。 人手非常强壮,同时能够进行复杂而精确的运动,用机器人手很难做到这一点。 机器人手通常非常虚弱。普通男性 有足够的握力将 40 公斤或更多的东西从地面抬起(每只手 20 公斤),而强壮的男性可以抬起 100 公斤以上。 相比之下,NASA 的 Robonaut 2 手 的有效载荷能力为 9 公斤,而 Shadow 灵巧手(被称为“世界上最先进的五指机器人手”)的有效载荷能力仅为 4 公斤。

更重要的是,人手非常敏感,能够提供大量的触觉反馈,以帮助指导我们的动作。 人手大约有 17,000 个触觉感受器,并且足够敏感,可以区分 仅相差几纳米 的纹理。 机器人手 正在变得更好正在变得更好,但似乎仍然没有接近人手能做到的事情。这个机器人手,例如,拥有“17 个触觉传感器”,而 Unitree 的这个 有 94 个。

灵巧的机器人手也往往非常昂贵。 Robonaut 2 手显然每个花费大约 25 万美元,而 Shadow 灵巧手 花费大约 10 万美元。 Unitree 的 G1 人形机器人 起价仅为 16,000 美元,但不包括任何手。 在此基础上添加一双手,您将 再花费 16,000 美元,而且这些将是功能较弱、传感器能力有限的 3 指手。(如果我 正确解读规格,3 指 Unitree 手的有效载荷能力仅为 0.5 公斤。)

但获得更好、更便宜的硬件(可能)只是灵巧性问题的一部分。 人类即使没有手也能非常灵巧:截肢者 可以使用挂钩快速而精确地操纵 各种物体。 令人印象深刻的 Gemini 演示也是用非常有限的机器人操纵器完成的。 能够胜任的机器人硬件需要与能够按顺序执行正确动作并根据环境反馈进行调整的软件配对,而现在这种软件似乎仍处于起步阶段。

灵巧性评估

目前 AI 关注的一个热门领域是“评估”:用于评估 AI 模型的能力和胜任力的测试。 我不知道是否有任何针对机器人灵巧性的此类评估,所以下面是我第一次尝试。 这里列出了 21 个需要灵巧性的任务,这些任务对人类来说相对简单,但我认为机器人很难完成。

  1. 戴上一双乳胶手套
  2. 将两根绳子系在一起,打一个紧结,然后解开结
  3. 翻到书中的特定页面
  4. 从牛仔裤的口袋里取出一个特定的物体,而且只能是那个物体
  5. 用蠕虫给鱼钩上饵
  6. 打开一个儿童安全药瓶,倒出两片(且只有两片)药丸
  7. 做一个花生酱和果冻三明治,从一袋未开封的面包和未开封的花生酱和果冻罐开始
  8. 在扑克游戏中充当发牌人(洗牌、发牌、在牌局结束后收回牌)
  9. 组装一块机械表
  10. 从某物上撕下一块透明胶带
  11. 编辫子
  12. 将一小块橡皮泥揉成三个较小的球
  13. 剥橙子
  14. 在梯子高尔夫中得分
  15. 用一个新的插座替换墙上的电源插座
  16. 用悠悠球做猫的摇篮
  17. 组装一个塑料模型,包括从塑料流道上移除零件
  18. 从一个几乎空了的管子里挤出少量牙膏到牙刷上
  19. 在不撕裂第一张纸的情况下启动一卷新的卫生纸
  20. 打开一袋拉链袋米饭,取出一粒米,然后重新密封袋子
  21. 戴上一条带扣的项链

这些都需要快速或精确的运动、根据微妙的触觉反馈调整动作以及操纵小的、易碎的或可变形的物体的某种组合。 完全完成这些任务会令人印象深刻,而且它们完成得越快,机器人的灵巧性就越强。 与 AI 评估一样,理想情况下,这些应该在没有专门针对这些任务训练系统的情况下完成(我没有看过,但如果现在有能够完成这些任务的专用系统,我不会感到惊讶)。

我们将在灵巧性方面看到哪些进展?

人形机器人的灵巧性正在提高,但作为一名非机器人专家,我不清楚它处于什么样的改进轨迹上。 一种可能的路径是,人形机器人遵循像自动驾驶汽车一样的路径:机器人逐渐变得越来越有能力和灵巧,但改进缓慢而费力,解决边缘情况很困难,而且推广非常缓慢。 这可能是我对需要收集大量真实世界训练数据的事物的默认模型,但我可以很容易地想象其他轨迹。 如果软件被证明是性能改进的主要瓶颈,并且像模拟和合成数据这样的东西允许在不需要收集大量真实世界数据的情况下快速提高性能,那么推广可能会更快。 另一方面,我可以想象如果性能改进最终需要从尚不存在的硬件中捕获大量高保真触觉数据,那么进展可能会慢得多。

自动驾驶汽车也可能不是人形机器人部署的最佳参考类别。 考虑到事故的高成本,自动驾驶汽车在可以有效地部署之前需要非常非常可靠,但根据部署位置的不同,对于人形机器人来说可能并非如此,特别是如果故障类似于“错误地移动物体并且需要再次尝试”。 如果替代方案更昂贵或其他方面不受欢迎,缓慢、乏味的任务执行在许多情况下可能是可以接受的。 Roomba 不需要遵循最有效的路径并在最短的时间内清洁地板才能发挥作用,它只需要在大多数时间内自主工作即可。 人形机器人可能与之类似。

当然,即使灵巧性得到提高(或没有提高),也不能保证人形外形因素会胜出。 人形机器人具有明显的优势(它非常适合在为人类工作而设计的世界中),但对于许多任务来说,其他外形因素可能更优越。 所以我仍然远不清楚我们的机器人未来会是什么样子。

感谢 Ben Reinhardt 和 Hersh Desai 阅读了本文草稿并提供了反馈。 所有错误都是我自己的。