UniK3D:通用相机单目3D估计 - Luigi Piccinelli
UniK3D 是一种通用相机单目3D估计方法,能够在各种场景和相机下,仅从单张图像预测度量3D场景。它采用球形3D表示,解耦相机和场景几何,并使用与模型无关的光线束表示。UniK3D 解决了传统方法对相机模型假设的依赖,尤其在广角和全景图像中表现出色。在多个数据集的评估中,UniK3D 在3D、深度和相机指标上均表现出先进性能,并在 GitHub 和 HuggingFace Space 上提供了代码和演示。
UniK3D:通用相机单目3D估计
CVPR 2025
Luigi Piccinelli1 Christos Sakaridis1 Mattia Segu1 Yung-Hsu Yang1 Siyuan Li1 Wim Abbeloos3 Luc Van Gool1,2
ETH Zurich1 INSAIT2 Toyota Motor Europe3
简而言之
UniK3D 能够在各个领域和任何相机下,仅从单张图像中估计度量3D场景。UniK3D 在推理时直接从输入图像预测度量3D点,而无需任何附加信息。
摘要
单目3D估计对于视觉感知至关重要。然而,当前的方法由于依赖于过度简化的假设(例如,针孔相机模型或校正图像)而存在不足。这些限制严重约束了它们的通用适用性,导致在具有鱼眼或全景图像的真实场景中表现不佳,并导致大量上下文丢失。为了解决这个问题,我们提出了 UniK3D,这是第一个用于单目3D估计的通用方法,能够对任何相机进行建模。我们的方法引入了一种球形3D表示,可以更好地解耦相机和场景几何,并为不受约束的相机模型实现精确的度量3D重建。我们的相机组件采用了一种新颖的、与模型无关的光线束表示,通过学习到的球面谐波叠加实现。我们还引入了一个角度损失,它与相机模块设计一起,可以防止广角相机的3D输出收缩。在13个不同的数据集上进行的全面零样本评估表明,UniK3D 在3D、深度和相机指标方面都具有最先进的性能,在具有挑战性的大视场和全景设置中获得了显著的提升,同时在传统的针孔小视场领域中保持了最高的精度。GitHub上提供了代码和模型。
视频
请访问 HugginFace Space,对你的图像进行免安装测试!
单目视频3D重建
UniK3D 应用于每个帧,没有应用后处理。
交互式点云
点云是我们模型的输出,对应以下图像:
BibTex
@inproceedings{piccinelli2025unik3d,
title = {{U}ni{K3D}: Universal Camera Monocular 3D Estimation},
author = {Piccinelli, Luigi and Sakaridis, Christos and Segu, Mattia and Yang, Yung-Hsu and Li, Siyuan and Abbeloos, Wim and Van Gool, Luc},
booktitle = {IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2025}
}