UniK3D:通用相机单目3D估计

CVPR 2025

Luigi Piccinelli1 Christos Sakaridis1 Mattia Segu1 Yung-Hsu Yang1 Siyuan Li1 Wim Abbeloos3 Luc Van Gool1,2

ETH Zurich1 INSAIT2 Toyota Motor Europe3

ArXiv Code Cite 🤗 Project

简而言之

UniK3D 能够在各个领域和任何相机下,仅从单张图像中估计度量3D场景。UniK3D 在推理时直接从输入图像预测度量3D点,而无需任何附加信息。

摘要

单目3D估计对于视觉感知至关重要。然而,当前的方法由于依赖于过度简化的假设(例如,针孔相机模型或校正图像)而存在不足。这些限制严重约束了它们的通用适用性,导致在具有鱼眼或全景图像的真实场景中表现不佳,并导致大量上下文丢失。为了解决这个问题,我们提出了 UniK3D,这是第一个用于单目3D估计的通用方法,能够对任何相机进行建模。我们的方法引入了一种球形3D表示,可以更好地解耦相机和场景几何,并为不受约束的相机模型实现精确的度量3D重建。我们的相机组件采用了一种新颖的、与模型无关的光线束表示,通过学习到的球面谐波叠加实现。我们还引入了一个角度损失,它与相机模块设计一起,可以防止广角相机的3D输出收缩。在13个不同的数据集上进行的全面零样本评估表明,UniK3D 在3D、深度和相机指标方面都具有最先进的性能,在具有挑战性的大视场和全景设置中获得了显著的提升,同时在传统的针孔小视场领域中保持了最高的精度。GitHub上提供了代码和模型。

视频

请访问 HugginFace Space,对你的图像进行免安装测试!

单目视频3D重建

UniK3D 应用于每个帧,没有应用后处理

交互式点云

点云是我们模型的输出,对应以下图像:

NarutoScanNet++Poor Things

BibTex

@inproceedings{piccinelli2025unik3d,
  title   = {{U}ni{K3D}: Universal Camera Monocular 3D Estimation},
  author  = {Piccinelli, Luigi and Sakaridis, Christos and Segu, Mattia and Yang, Yung-Hsu and Li, Siyuan and Abbeloos, Wim and Van Gool, Luc},
  booktitle = {IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year   = {2025}
}