图像生成领域的新突破:没有大象的图像生成
No elephants: Breakthroughs in image generation
当语言模型学会观察和创造
Ethan Mollick 2025年3月30日
在过去的两周里,先是 Google,然后是 OpenAI,都推出了他们的多模态图像生成能力。这是一件大事。以前,当一个大型语言模型 AI 生成图像时,真正做这项工作的并不是 LLM。相反,AI 会向一个单独的图像生成工具发送文本提示,并向你展示返回的结果。AI 创建文本提示,但另一个不那么智能的系统创建图像。例如,如果提示“给我展示一个房间,里面没有大象,确保对图像进行注释,告诉我为什么不可能有大象”,那么不太智能的图像生成系统会多次看到“大象”这个词,并将它们添加到图片中。因此,AI 图像生成的效果相当平庸,文本扭曲,元素随机;有时很有趣,但很少有用。
另一方面,多模态图像生成让 AI 直接控制图像的生成过程。虽然存在很多变体(而且各公司对其方法保密),但在多模态图像生成中,图像的创建方式与 LLM 创建文本的方式相同,一次一个 token。AI 不是添加单个单词来组成一个句子,而是将图像分成一个个单独的部分来创建,然后将这些部分组合成一个完整的图片。这使得 AI 能够创建更令人印象深刻、更精确的图像。你不仅可以保证没有大象,而且这种图像创建过程的最终结果反映了 LLM 的“思考”智能,以及清晰的写作和精确的控制。
“给我展示一个房间,里面没有大象,确保对图像进行注释,告诉我为什么不可能有大象”的提示在 Microsoft Copilot 的传统图像生成器(左)和 GPT-4o 的多模态模型(右)中的结果。请注意,传统模型不仅显示了多只大象,还出现了扭曲的文本。
虽然这些新图像模型的影响是巨大的(我稍后会提到一些问题),但让我们首先通过一些示例来探索这些系统实际上可以做什么。
图像的 Prompting
在我的书和许多帖子中,我谈到了 Prompt AI 的一个有效方法是像对待人一样对待它,即使它不是人。给出清晰的指示,在你迭代时提供反馈,以及做出决策的适当上下文,这些都有助于人类,也有助于 AI。以前,这只能用文本来完成,但现在你也可以用图像来完成。
例如,我提示 GPT-4o“创建一个关于如何构建一个好的棋盘游戏的信息图”。使用以前的图像生成器,这将导致胡说八道,因为没有智能来指导图像生成,所以单词和图像都会扭曲。现在,我第一次就能得到一个好的初稿。但是,我没有提供关于我在寻找什么的上下文,也没有提供任何附加内容,所以 AI 做出了所有的创意选择。如果我想改变它呢?让我们试试。
首先,我要求它“让图形看起来更超现实”,你可以看到它是如何从最初的草稿中提取概念并更新其外观的。我还有更多的修改想要: “我希望颜色不那么偏泥土色,更像有纹理的金属,保持其他一切不变,还要确保小的项目符号文本更亮,以便更容易阅读。” 我喜欢新的外观,但我注意到引入了一个错误,单词“Define”变成了“Definc”——这表明这些系统,尽管它们很好,但还没有接近完美。 我提示“你把 Define 拼写成了 Definc,请修复”,并得到了一个合理的输出。
但这些模型最吸引人的地方在于,它们能够生成几乎任何图像:“把这个信息图放在一只站在火山前的水獭手中,它应该看起来像一张照片,而且像水獭把这个信息图雕刻在金属片上一样”
为什么就此止步?“现在是晚上,平板电脑被直接照射在平板电脑中心的闪光灯照亮(无需显示闪光灯)”—— 这样的结果比看起来更令人印象深刻,因为它是在没有任何底层照明模型的情况下重新进行照明的。“制作一个水獭的玩偶,包括包装,把棋盘游戏作为侧面的配件之一。称之为“游戏设计水獭”,并给它几个其他配件。” “让一只在飞机上的水獭使用笔记本电脑,他们正在一个名为 OtterExpress 的网站上购买游戏设计水獭的副本。” 令人印象深刻,但不太正确:“修复键盘,使其逼真,并移除他拿着的水獭玩偶。”
正如你所看到的,这些系统并非完美无缺……但也要记住,下面的图片是两年半前“在飞机上使用 wifi 的水獭”提示的结果。最先进的技术正在迅速发展。
但它有什么用呢?
过去几年一直在试图弄清楚文本 AI 模型有什么用,并且新的用例正在不断开发中。基于图像的 LLM 也是如此。图像生成很可能会以我们现在不理解的方式产生非常大的颠覆性影响。尤其是因为你可以上传 LLM 现在可以直接看到和操作的图像。一些示例,都是使用 GPT-4o 完成的(尽管你也可以在 Google 的 Gemini Flash 中上传和创建图像):
我可以拿一张手绘图像,并要求 AI “把它做成 Speedster 能量饮料的广告,确保包装和 Logo 很棒,它应该看起来像一张照片。”(这花了两次提示,第一次它在标签上拼错了 Speedster)。结果不如专业设计师可以创作的那么好,但这是一个令人印象深刻的第一个原型。
我可以给 GPT-4o 两张照片,并提示 “你能把图像中蓝色沙发上的咖啡桌换成白色沙发上的咖啡桌吗?”(请注意,新的玻璃桌面显示了原始图像中没有的部分。另一方面,交换的桌子并不完全相同)。然后我问,“你能让地毯不那么褪色吗?” 同样,有几个细节并不完美,但以前用简单的英语进行这种图像编辑是不可能的。
或者我可以为我那个绝妙的创业想法创建一个即时网站模型、广告概念和推介演示文稿,即无人机按需为你提供鳄梨酱(我很确定它会大受欢迎)。你可以看到这还不能替代人类设计师的见解,但它仍然是一个非常有用的第一个原型。
除此之外,我和其他人还在发现许多其他用途,包括: 可视化食谱、主页、视频游戏纹理、图解诗歌、脱节的独白、照片改进 和 视觉冒险游戏,仅举几例。
复杂性
如果你一直在关注网上关于这些新图像生成器的讨论,你可能已经注意到我没有展示它们最热门的用途 - 进行风格迁移,人们要求 AI 将照片转换为看起来像是为 Simpsons 或由 Studio Ghibli 制作的图像。 这些类型的应用程序突出了使用 AI 进行艺术创作的所有复杂性:使用 AI 复制其他艺术家辛苦赢得的风格是否可以接受? 谁拥有由此产生的艺术作品? 谁从中获利? 哪些艺术家在 AI 的训练数据中,以及使用受版权保护的作品进行训练的法律和道德地位是什么? 这些在多模态 AI 之前都是重要的问题,但现在开发这些问题的答案越来越紧迫。 此外,当然,还有许多其他与多模态 AI 相关的潜在风险。 制作 Deepfake 至少有一年的时间已经变得微不足道,但多模态 AI 使其更容易,包括添加创建各种其他视觉幻觉的能力,例如 虚假收据。 而且我们还不了解多模态 AI 可能给图像生成带来什么偏见或其他问题。
然而,很明显,发生在文本上的事情将发生在图像上,最终会发生在视频和 3D 环境上。 这些多模态系统正在重塑视觉创作的格局,提供强大的新功能,同时对创意所有权和真实性提出合理的问题。 人类和 AI 创作之间的界限将继续模糊,促使我们重新思考在一个任何人都可以通过几个提示生成复杂的视觉效果的世界中,什么构成了原创性。 一些创意职业会适应; 其他一些可能保持不变,还有一些可能会完全转变。 与任何重大的技术转变一样,我们需要经过深思熟虑的框架来驾驭前方复杂的领域。 问题不是这些工具是否会改变视觉媒体,而是我们是否有足够的思考能力来有意识地塑造这种改变。