UniK3D：通用相机单目3D估计 - Luigi Piccinelli

UniK3D: Universal Camera Monocular 3D Estimation – Luigi Piccinelli

Source | HN Comments

UniK3D 是一种通用相机单目3D估计方法，能够在各种场景和相机下，仅从单张图像预测度量3D场景。它采用球形3D表示，解耦相机和场景几何，并使用与模型无关的光线束表示。UniK3D 解决了传统方法对相机模型假设的依赖，尤其在广角和全景图像中表现出色。在多个数据集的评估中，UniK3D 在3D、深度和相机指标上均表现出先进性能，并在 GitHub 和 HuggingFace Space 上提供了代码和演示。

UniK3D：通用相机单目3D估计

CVPR 2025

Luigi Piccinelli1 Christos Sakaridis1 Mattia Segu1 Yung-Hsu Yang1 Siyuan Li1 Wim Abbeloos3 Luc Van Gool1,2

ETH Zurich1 INSAIT2 Toyota Motor Europe3

ArXiv Code Cite 🤗 Project

简而言之

UniK3D 能够在各个领域和任何相机下，仅从单张图像中估计度量3D场景。UniK3D 在推理时直接从输入图像预测度量3D点，而无需任何附加信息。

摘要

单目3D估计对于视觉感知至关重要。然而，当前的方法由于依赖于过度简化的假设（例如，针孔相机模型或校正图像）而存在不足。这些限制严重约束了它们的通用适用性，导致在具有鱼眼或全景图像的真实场景中表现不佳，并导致大量上下文丢失。为了解决这个问题，我们提出了 UniK3D，这是第一个用于单目3D估计的通用方法，能够对任何相机进行建模。我们的方法引入了一种球形3D表示，可以更好地解耦相机和场景几何，并为不受约束的相机模型实现精确的度量3D重建。我们的相机组件采用了一种新颖的、与模型无关的光线束表示，通过学习到的球面谐波叠加实现。我们还引入了一个角度损失，它与相机模块设计一起，可以防止广角相机的3D输出收缩。在13个不同的数据集上进行的全面零样本评估表明，UniK3D 在3D、深度和相机指标方面都具有最先进的性能，在具有挑战性的大视场和全景设置中获得了显著的提升，同时在传统的针孔小视场领域中保持了最高的精度。GitHub上提供了代码和模型。

视频

请访问 HugginFace Space，对你的图像进行免安装测试！

单目视频3D重建

UniK3D 应用于每个帧，没有应用后处理。

交互式点云

点云是我们模型的输出，对应以下图像：

Naruto ScanNet++ Poor Things

BibTex

@inproceedings{piccinelli2025unik3d,
  title   = {{U}ni{K3D}: Universal Camera Monocular 3D Estimation},
  author  = {Piccinelli, Luigi and Sakaridis, Christos and Segu, Mattia and Yang, Yung-Hsu and Li, Siyuan and Abbeloos, Wim and Van Gool, Luc},
  booktitle = {IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year   = {2025}
}