镜像:图像和视频生成模型的盲点
[中文正文内容]
镜像:图像和视频生成模型的盲点
Ali Borji
·
Follow
5 min read
·
Feb 10, 2025
4
Listen
Share
近年来,图像生成模型取得了显著进展,在创建照片级真实感和富有想象力的视觉效果方面展现了卓越的能力。然而,一个长期存在的挑战依然存在:准确地渲染镜子中的反射。我们通过五个提示,针对五种图像生成模型和四种视频生成模型进行了非正式评估,这些提示同时包含人物和物体。我们的研究结果表明,AI 模型在处理反射时经常遇到困难,生成的图像通常扭曲、不一致或完全不正确。这是数据。
由 Gemini 为提示“两只猫在镜子前玩耍的图像”生成的图像
引言
生成式图像模型,尤其是基于深度学习的模型,在合成各种场景和物体的真实图像方面取得了令人瞩目的成果。从生成人脸到创建奇幻的景观,这些模型已经展示了学习复杂数据分布并生成新颖内容的出色能力。然而,尽管取得了这些进展,一个看似简单的元素——镜子——仍然构成了一个重大挑战。反射受精确的光学定律支配,但在生成的图像中,反射通常显得扭曲、错位或完全缺失。本文探讨了镜子如何对生成模型构成重大挑战,并认为解决这个盲点对于实现更真实、更符合物理规律的图像合成至关重要。
实验与结果
我们选择了一系列生成模型,以评估流行的图像和视频生成模型在合成具有准确镜像反射的内容方面的效果。这些模型都可以公开获取。
图像生成模型
我们评估了五个图像生成模型,包括:
- Gemini,它使用 Imagen 3 作为其生成骨干
- Adobe Firefly
- Bing,它使用 DALL-E 3
- Ideogram
- Freepik.com
这些模型使用以下提示进行评估,其中一些提示包含人物,另一些提示仅包含对象。
- 一位年轻女士在镜子前拿着笔的图像
- 两只猫在镜子前玩耍的图像
- 一把椅子在镜子前的图像
- 一群人在一个有镜子的房间里的图像
- 一个带有镜子的厨房的图像
来自各种模型的结果(下面显示了一些示例)显示了反射和透视问题的一致模式。Gemini 模型在不正确或缺失的反射以及错误的物体放置方面存在问题,尤其是在猫、椅子和厨房场景中。有些错误很微妙,但很明显。
Ideogram 模型通常会生成更高保真度的图像,但也面临着反复出现的问题。手的反射通常不正确,并且对象的反射看起来不一致。它尤其难以处理群体图像和人脸,在反射和图像连贯性方面会犯重大错误。群体图像中的人脸质量较差。
Adobe Firefly 存在更严重的错误,例如物体不自然地延伸到镜子外面以及未对齐或缺失的反射,从而降低了真实感。
Bing Image Creator 通常会生成带有卡通风格的图像,并存在严重的反射问题,错放或扭曲元素。
Freepik 生成的猫的图像显示出很高的视觉质量,但仍然存在类似的反射错误,这突显了模型之间普遍存在的挑战。
由 Ideogram 为提示“两只猫在镜子前玩耍的图像”生成的图像
由 Ideogram 为提示“一把椅子在镜子前的图像”生成的图像
由 Ideogram 为提示“一个带有镜子的厨房的图像”生成的图像
由 Ideogram 为提示“一位年轻女士在镜子前拿着笔的图像”生成的图像
由 Ideogram 为提示“一群人在一个有镜子的房间里的图像”生成的图像
由 Adobe 为提示“一位年轻女士在镜子前拿着笔的图像”生成的图像
有关生成的图像的高分辨率版本,请访问与本文关联的 GitHub 页面以进行进一步检查。
视频生成模型
此外,我们仅使用上一小节中的第一个提示评估了以下文本到视频生成模型。
- veed.io
- pollo.ai (poolo 1.5)
- ltx.studio
- vidnoz.com
这些模型表现出与图像生成模型中观察到的类似问题。除了外观和一致性方面的错误之外,它们还在准确生成反射中的运动方面存在问题。反射的元素通常移动不正确或未能对应于镜像运动的真实物理特性,从而进一步降低了生成的视频的真实感。因此,它们在处理反射方面的整体表现特别差,使得生成的视频明显存在缺陷。
由 veed.io 为提示“一位年轻女士在镜子前拿着笔的图像”生成的两个视频
有关进一步的分析,这些视频可在与本文关联的 GitHub 页面上找到。
总结
反射的挑战突出了一个更深层次的问题:需要改进生成模型中的 3D 场景理解和几何推理。
主要目标是强调这个长期存在的问题,并证明尽管经过多年的持续进步,这些模型仍然难以生成准确的图像!
解决这个盲点需要多管齐下的方法:
- 改进的架构: 探索明确包含几何约束和 3D 场景表示的新型神经网络架构可能会有所帮助。
- 增强的训练数据: 创建更大、更多样化的数据集,并明确标注反射表面和对象关系至关重要。合成数据生成也可能发挥作用。
- 基于物理的渲染集成: 将基于物理的渲染元素集成到生成模型中可以提高反射生成的准确性。
- 显式反射建模: 开发显式建模反射物理的方法,可能通过可微光线追踪或其他技术,可以提供更强大的解决方案。
更广阔的视角: 生成模型未能准确渲染镜像反射突出了它们对物理定律、几何形状和 3D 场景关系的理解的局限性。这个问题影响了医疗成像、自主系统和数字可视化等应用,在这些应用中,精确的空间推理至关重要。它还指出了训练数据和 AI 泛化能力方面的差距。应对这些挑战将需要整合 3D 推理、物理模拟和更多样化的数据集,从而推动 AI 模型朝着更可靠、更符合物理基础的应用发展。
感谢您的阅读!