LegoGPT:从文本生成物理稳定且可搭建的乐高模型
LegoGPT: 从文本生成物理稳定且可搭建的 LEGO 设计
Ava Pun* Kangle Deng* Ruixuan Liu* Deva Ramanan Changliu Liu Jun-Yan Zhu
Carnegie Mellon University
LegoGPT 能够根据用户提供的文本提示,以端到端的方式生成 LEGO 结构。值得注意的是,我们生成的 LEGO 结构在物理上是稳定且可搭建的。
摘要
我们介绍了 LegoGPT,这是第一个从文本提示生成物理上稳定的 LEGO 积木模型的方法。为了实现这一点,我们构建了一个大规模、物理上稳定的 LEGO 设计数据集,以及与这些设计相关的文字描述。我们训练了一个自回归的大型语言模型,通过预测下一个要添加的积木(即next-token prediction)来生成 LEGO 模型。为了提高生成设计的稳定性,我们在自回归推理过程中采用了一种高效的有效性检查和物理感知的回滚机制,该机制使用物理定律和装配约束来修剪不可行的 token 预测。实验表明,LegoGPT 能够生成稳定、多样且美观的 LEGO 设计,这些设计与输入的文本提示密切相关。我们还开发了一种基于文本的 LEGO 纹理化方法,以生成彩色和具有纹理的设计。我们展示了我们的设计可以由人类手动组装,也可以由机器人手臂自动组装。我们还发布了我们的新数据集,StableText2Lego,其中包含超过 47,000 个 LEGO 结构,这些结构由超过 28,000 个独特的 3D 对象组成,并附有详细的描述,以及我们的代码和模型。
StableText2Lego 数据集
(a) 从一个 ShapeNetCore 网格开始,我们通过将其体素化为 20×20×20 的网格,并应用 legolization 来确定积木的布局,从而生成一个 LEGO 设计。(b) 我们通过随机化积木的布局,同时保持整体形状,来增加每个形状的多个结构变体。(c) 对每个变体进行稳定性分析,以过滤掉物理上不稳定的设计。(d) 为了获得每个形状的相应描述,我们从 24 个不同的视角渲染 LEGO 设计,并使用 GPT-4o 生成详细的几何描述。(e) 我们的 StableText2Lego 数据集中 5 个类别的数据样本。
LegoGPT 流程
(a) 我们的系统将 LEGO 设计标记化为一系列文本 tokens,按照从下到上的光栅扫描方式排序。(b) 我们创建了一个指令数据集,将积木序列与描述配对,以微调 LLaMA-3.2-Instruct-1B。(c) 在推理时,LegoGPT 通过一次预测一个积木的方式,根据文本提示逐步生成 LEGO 设计。对于每个生成的积木,我们执行有效性检查,以确保其格式正确,存在于我们的积木库中,并且不与现有积木发生碰撞。完成设计后,我们验证其物理稳定性。如果结构不稳定,我们通过移除所有不稳定的积木及其后续的积木来回滚到稳定状态,并从该点恢复生成。
从文本逐步生成 LEGO 结构
"一艘拥有细长船体的流线型船只" "一把古典吉他" "一个基本的沙发" "一个带有水平层的书架" "一把高背椅" "一个带扶手的无靠背长凳"
使用机器人自动组装生成的 LEGO 结构(8 倍速)
"一艘拥有细长船体的流线型船只 [...]" "一把不对称的六弦吉他 [...]"
生成的带纹理的 LEGO 模型
"带有苔藓生长的乡村石凳 [...]" "带有火焰喷涂的热棒 [...]" "用再生木材制成的乡村农舍椅子 [...]" "带活树边的核桃木桌子 [...]" "包裹着日本扎染面料的舒适休闲椅 [...]" "具有霓虹紫和蓝色渐变的赛博朋克全息材料 [...]" "用再生木材制成的乡村农舍扶手椅 [...]" "带有深红色和金色的复古花卉织锦 [...]" "带有拱形细节的哥特式大教堂书架,中世纪风格 [...]" "带有障子屏风的日式滑动书柜,传统设计 [...]" "带有雕刻线条的维多利亚式图书馆书架 [...]"
生成的彩色 LEGO 模型
"带有梯形加强筋的客厅吉他 [...]" "金属紫色的电吉他 [...]" "带有雕刻琴身的钢制共鸣器吉他 [...]" "带有琥珀色漆面的旭日色 Les Paul 吉他 [...]"
引用
@article{pun2025legogpt,
title = {Generating Physically Stable and Buildable LEGO Designs from Text},
author = {Pun, Ava and Deng, Kangle and Liu, Ruixuan and Ramanan, Deva and Liu, Changliu and Zhu, Jun-Yan},
journal = {arXiv preprint arXiv:2505.05469},
year = {2025}
}
致谢
感谢 Minchen Li, Ken Goldberg, Nupur Kumari, Ruihan Gao, 和 Yihao Shi 提供的讨论和帮助。我们还要感谢 Jiaoyang Li, Philip Huang, 和 Shobhit Aggarwal 开发的双臂机器人系统。这项工作部分由 Packard Foundation, Cisco Research Grant, 和 Amazon Faculty Award 支持。这项工作也部分由 Carnegie Mellon University 的 Manufacturing Futures Institute 通过 Richard King Mellon Foundation 的拨款支持。KD 由 Microsoft Research PhD Fellowship 资助。网站模板取自 Custom Diffusion (建立在 DreamFusion's project page 之上).