Bolt3D: 秒级生成3D场景

¹Google Research ²VGG, University of Oxford ³Google DeepMind arXiv

TL;DR : 在单个GPU上,通过前馈方式在6.25秒内生成3D场景。

工作原理

给定一个或多个输入图像,我们生成多视角的 Splatter Images。 为此,我们首先使用多视角扩散模型生成场景外观和几何形状。 然后,使用 Gaussian Head 回归 Splatter Images。 来自多个 Splatter Images 的 3D Gaussian 被组合以形成 3D 场景。

一个简短的动画图表描述了该方法。 左侧显示输入图像。 接下来是旋转的 Splatter Images。 右侧是完整的 3D 场景。

Viewer not supported

交互式查看器

点击下面的图片,在您的浏览器中实时渲染 3D 场景。

结果展示

显示更多结果

可变数量的输入视图

Bolt3D 可以接受可变数量的输入图像。 我们的模型在可用时会遵守调节,并在没有任何重投影或修复机制的情况下生成未观察到的场景区域。

1 个输入视图 | 1 视图重建 | 2 个输入视图 | 2 视图重建 ---|---|---|---

Geometry VAE

使用潜在扩散模型生成高质量 3D 场景的关键在于我们的 Geometry VAE,它能够以高精度压缩 pointmaps。 我们凭经验发现,我们的具有 transformer 解码器的 VAE 比具有卷积解码器的 VAE 或预训练用于自动编码图像的 VAE 更适合自动编码 pointmaps。 下面我们使用以下方法可视化彩色点云:(1)来自数据的 Pointmaps,(2)使用我们的 VAE 自动编码的 Pointmaps,(3)使用具有卷积解码器的 VAE 自动编码的 Pointmaps,以及(4)使用预训练的 Image VAE 自动编码的 Pointmaps。

数据 | 我们的 AE | Conv. AE | Image AE ---|---|---|---

与其他方法的比较

将我们的方法 Bolt3D(右)的渲染结果与前馈和基于优化的方法(左)进行比较。 我们的方法为前馈 3D 重建模型提供了生成能力,并显着降低了与基于优化的方法相比的推理成本。 尝试选择不同的方法和场景!

Baseline Bolt3D (ours)

致谢

我们要向 Ben Poole 表示最深切的感谢,感谢他提供的有益建议、指导和贡献。 我们还要感谢 George Kopanas、Sander Dieleman、Matthew Burruss、Matthew Levine、Peter Hedman、Songyou Peng、Rundi Wu、Alex Trevithick、Daniel Duckworth、Hadi Alzayer、David Charatan、Jiapeng Tang 和 Akshay Krishnan 提供的宝贵讨论和见解。 最后,我们感谢 Shlomi Fruchter、Kevin Murphy、Mohammad Babaeizadeh、Han Zhang 和 Amir Hertz 训练了基础的 text-to-image latent diffusion model。 网站模板借用自 CAT3DCAT4D

BibTeX

@article{szymanowicz2025bolt3d,
title={{Bolt3D: Generating 3D Scenes in Seconds}},
author={Szymanowicz, Stanislaw and Zhang, Jason Y. and Srinivasan, Pratul
   and Gao, Ruiqi and Brussee, Arthur and Holynski, Aleksander and
   Martin-Brualla, Ricardo and Barron, Jonathan T. and Henzler, Philipp},
journal={arXiv:2503.14445},
year={2025}
}