Bolt3D:秒级生成3D场景
Bolt3D: 秒级生成3D场景
- Stanislaw Szymanowicz¹𝄒²
- Jason Y. Zhang ¹
- Pratul Srinivasan³
- Ruiqi Gao³
- Arthur Brussee ³
- Aleksander Holynski³
- Ricardo Martin-Brualla¹
- Jonathan T. Barron³
- Philipp Henzler¹
¹Google Research ²VGG, University of Oxford ³Google DeepMind arXiv
TL;DR : 在单个GPU上,通过前馈方式在6.25秒内生成3D场景。
工作原理
给定一个或多个输入图像,我们生成多视角的 Splatter Images。 为此,我们首先使用多视角扩散模型生成场景外观和几何形状。 然后,使用 Gaussian Head 回归 Splatter Images。 来自多个 Splatter Images 的 3D Gaussian 被组合以形成 3D 场景。
一个简短的动画图表描述了该方法。 左侧显示输入图像。 接下来是旋转的 Splatter Images。 右侧是完整的 3D 场景。
Viewer not supported
交互式查看器
点击下面的图片,在您的浏览器中实时渲染 3D 场景。
结果展示
显示更多结果
可变数量的输入视图
Bolt3D 可以接受可变数量的输入图像。 我们的模型在可用时会遵守调节,并在没有任何重投影或修复机制的情况下生成未观察到的场景区域。
1 个输入视图 | 1 视图重建 | 2 个输入视图 | 2 视图重建 ---|---|---|---
Geometry VAE
使用潜在扩散模型生成高质量 3D 场景的关键在于我们的 Geometry VAE,它能够以高精度压缩 pointmaps。 我们凭经验发现,我们的具有 transformer 解码器的 VAE 比具有卷积解码器的 VAE 或预训练用于自动编码图像的 VAE 更适合自动编码 pointmaps。 下面我们使用以下方法可视化彩色点云:(1)来自数据的 Pointmaps,(2)使用我们的 VAE 自动编码的 Pointmaps,(3)使用具有卷积解码器的 VAE 自动编码的 Pointmaps,以及(4)使用预训练的 Image VAE 自动编码的 Pointmaps。
数据 | 我们的 AE | Conv. AE | Image AE
---|---|---|---
与其他方法的比较
将我们的方法 Bolt3D(右)的渲染结果与前馈和基于优化的方法(左)进行比较。 我们的方法为前馈 3D 重建模型提供了生成能力,并显着降低了与基于优化的方法相比的推理成本。 尝试选择不同的方法和场景!
- Flash3D(Feed-forwad, 1-View)
- RealmDreamer (Optimization-based, 1-View)
- CAT3D (Optimization-based, 1-View)
- CAT3D (Optimization-based, 3 View)
Baseline
Bolt3D (ours)
致谢
我们要向 Ben Poole 表示最深切的感谢,感谢他提供的有益建议、指导和贡献。 我们还要感谢 George Kopanas、Sander Dieleman、Matthew Burruss、Matthew Levine、Peter Hedman、Songyou Peng、Rundi Wu、Alex Trevithick、Daniel Duckworth、Hadi Alzayer、David Charatan、Jiapeng Tang 和 Akshay Krishnan 提供的宝贵讨论和见解。 最后,我们感谢 Shlomi Fruchter、Kevin Murphy、Mohammad Babaeizadeh、Han Zhang 和 Amir Hertz 训练了基础的 text-to-image latent diffusion model。 网站模板借用自 CAT3D 和 CAT4D。
BibTeX
@article{szymanowicz2025bolt3d,
title={{Bolt3D: Generating 3D Scenes in Seconds}},
author={Szymanowicz, Stanislaw and Zhang, Jason Y. and Srinivasan, Pratul
and Gao, Ruiqi and Brussee, Arthur and Holynski, Aleksander and
Martin-Brualla, Ricardo and Barron, Jonathan T. and Henzler, Philipp},
journal={arXiv:2503.14445},
year={2025}
}