Visual Reasoning is Coming Soon

我不得不说 – 我喜欢生活在指数级增长的时代。我只要希望某件事存在,在一个月内它就真的实现了!这次是随着 OpenAI 的 4o 图像生成发布而发生的。在这篇博客文章中,我将简要介绍这次发布,以及我为什么认为它非常酷。然后,我将深入探讨一个我认为更令人兴奋的新机会 – visual reasoning(视觉推理)

Visual Reasoning Robot

与其阅读,不如观看? 嘿,我明白 – 有时你只想放松一下看看!看看这个快速视频,我将在其中介绍这篇文章中的所有内容。同样精彩的内容,只是更赏心悦目!

Why Image Manipulation with LLMs Stinks(为什么使用 LLM 进行图像处理很糟糕)

在 Multimodal LLM 中处理图像一直是一件单方面的事情。一方面,你可以将图像放入 LLM 对话中,并让模型对其进行推理,这非常酷。但是,当你要求模型生成图像时,就会出现断连,因为模型所能做的只是用文本描述图像,然后调用外部图像生成工具根据该文本生成图像。文本对于图像来说是一种糟糕的通信媒介,并且生成的图像通常与预期的结果大相径庭,因为 LLM 提供给图像生成工具的简短描述很少能捕捉到对话的完整上下文。

当试图来回处理图像的想法时,问题最为突出。你可以向 LLM 展示一张你猫的图像,然后说“让这只猫戴上侦探帽和单片眼镜”。模型所能做的最好的就是给_某只_猫戴上侦探帽和单片眼镜,而不是给你图像中的那只猫。更糟糕的是,模型甚至看不到它刚刚创建的图像。因此,如果你要求对第一代尝试进行修改,那么后续的生成实际上只是从头开始,并希望对图像生成工具的更详细描述会使情况变得更好……但不会。

Your Cat Bad Cat Generation

左:OpenAI 的宠物猫。右:当要求给它戴上侦探帽和单片眼镜时,传统的 LLM 所能做的最好的事情。

OpenAI's Release Brings True Image Manipulation to LLMs(OpenAI 的发布为 LLM 带来了真正的图像处理能力)

OpenAI 的图像生成发布改变了这一切。OpenAI 最新的 GPT-4o 模型将对话的完整上下文带入图像生成中,并且不是调用外部模型,而是完全相同的 GPT-4o 模型进行图像生成。通过将对话的完整上下文 – 包括之前的图像 – 带入新图像的生成中,你可以生成更加一致的图像。

因此,窃取 OpenAI 的示例,你可以向它展示一张你猫的照片,告诉它给_你的猫_戴上侦探帽,瞧!它奏效了!

Your Cat Good Cat Generation

左:OpenAI 的宠物猫。右:GPT-4o 在被要求给同一只猫戴上侦探帽和单片眼镜时的生成。更加一致!

现在,如果我们可以用这项技术做的只是给我们的猫贴上愚蠢的服装,那么这确实是一个相当蹩脚的成就。但是想想我们在这里的目标。你将能够将手绘的垃圾变成复杂的信息图表和营销材料。你将能够将糟糕的 matplotlib 图表重新格式化为看起来很专业的图,并将其放入幻灯片中。你将能够在购买前虚拟试穿衣服。你将能够从你的照片、游戏素材和 3D 模型创建照片拼贴。你将能够编辑你的度假照片以删除那个眨眼的人。你将能够拍摄你客厅的照片并尝试不同的家具布置和配色方案。你将能够拍摄你花园的照片并获得有关在哪里种植新花卉的建议。当你可以在对话的完整上下文中处理图像时,可能性是无穷无尽的。

Visual Reasoning will be the Real Innovation(视觉推理将是真正的创新)

以上所有内容只是接下来要发生的事情的序言。模型在花费时间进行推理时表现更好。这是因为模型没有内部独白。虽然人类在回答问题之前会暂停并思考,但模型必须生成 token 才能进行思考。但是到目前为止,模型只能在单词空间中进行推理,而单词不适合推理许多类型的现实世界问题。但是很快,模型新的图像处理能力将推动一种新的推理形式。目前,这种能力主要用于图像编辑。很快,模型将能够可视化不同的场景并对周围的世界进行视觉推理。

Demoing Visual Reasoning(演示视觉推理)

让我们现在尝试一个示例,并了解视觉推理将如何工作。对于我们的实验,我们将使用 Matthew Berman 的杯子里的弹珠问题 – 这是他在玩新模型时使用的推理挑战之一:

我把一颗弹珠放在玻璃杯里。然后将玻璃杯倒置并放在桌子上。然后拿起玻璃杯并放入微波炉中。弹珠在哪里?

这是一个很棒的问题,因为它需要关于物体如何在世界中工作的常识知识,并且它特别适合这篇文章,因为它需要空间推理来推断到新的场景。我用文本向新的 GPT-4o 询问了这个问题的一个变体:

我在桌子上放了一个盘子,旁边放了一个玻璃杯。我在盘子上放了一颗弹珠。然后我拿起弹珠,把它掉进玻璃杯里。然后我将玻璃杯倒置并放在盘子上。然后,我拿起玻璃杯并放入微波炉中。弹珠在哪里?

我添加了一个额外的物品,一个盘子,只是为了增加一点复杂性。这是它给我的答案:

弹珠在微波炉里,在玻璃杯里。

以下是发生了什么事情的分解:

你把一颗弹珠放在盘子上。

拿起弹珠并将其放入玻璃杯中 – 现在弹珠在玻璃杯中。

将玻璃杯倒置并将其放在盘子上 – 除非玻璃杯是密封的或者弹珠以某种方式卡住了,否则弹珠会掉到盘子上。

然后你拿起玻璃杯(现在是空的)并将其放入微波炉中。

所以在这一点上:

玻璃杯在微波炉里。

弹珠在盘子上,在微波炉外面。

但是你问:弹珠在哪里?你没有说你再次拿起它,所以根据你所说的,弹珠在盘子上,不在微波炉里。

想要重新运行它或添加任何曲折吗?

这实际上是一个非常奇怪的答案。它立即回答 – 不正确 – 然后进行事后 chain-of-thought(思维链)推理并得出正确的答案,但忽略了它完全自相矛盾的事实。

现在让我们做一个视觉增强版本的 chain-of-thought(思维链)推理,并演示空间推理将如何提高模型的推理能力。

Problem Statement 问题陈述图像

我使用以下提示(包括以视觉方式思考的额外要求)提示它:

我要拿起弹珠,把它放进玻璃杯里,把玻璃杯倒扣在盘子上,拿起玻璃杯,然后把玻璃杯放进微波炉里。

问题是,弹珠在哪里?

使用图像逐步解决此问题,以想象每一步发生的事情。对于每一步,首先说明步骤,然后生成与该步骤之后场景外观相对应的图像。然后用英语总结图像,突出显示解决问题的重要方面。

以下是模型提供的推理响应:

Step 1

步骤 1:拿起弹珠。

在图像中,弹珠尚未移动,但我们即将拿起它并将其放入玻璃杯中。

Step 2

步骤 2:将弹珠放入玻璃杯中。

在图像中,弹珠现在在玻璃杯中,并且盘子是空的。

Step 3

步骤 3:将玻璃杯倒扣在盘子上。

在图像中,玻璃杯现在倒扣在盘子上,将弹珠困在里面。

Step 4

步骤 4:拿起玻璃杯。

在图像中,手正在将玻璃杯从盘子上抬起。弹珠留在盘子上,因为它不再被包含。

Step 5

步骤 5:将玻璃杯放入微波炉中。

在图像中,玻璃杯现在在微波炉中,弹珠在底部。

最终答案:弹珠在微波炉内,在玻璃杯的底部。

所以......嗯......值得注意的是,我们制作了一些非常一致的图像,然后_完全_得到了错误的答案。我们非常接近了!在步骤 4 中,模型承认弹珠不再包含在玻璃杯中。不幸的是,当玻璃杯在微波炉中时,模型想象弹珠不知何故跟着它。

Training Models to Think Visually(训练模型以视觉方式思考)

我认为未能正确使用 visual reasoning(视觉推理)是因为该模型尚未针对 visual reasoning(视觉推理)进行_训练_。

谁知道 OpenAI 如何训练这些模型,但根据他们的首次亮相帖子,迄今为止的训练几乎肯定与 visual reasoning(视觉推理)无关。该帖子中的示例 – 虽然非常令人印象深刻 – 是关于更好地渲染文本和更好地遵循说明。但是所有说明都遵循与图像处理而不是推理相关的示例。相反,我们需要开始_专门_训练模型以执行 visual reasoning(视觉推理)。

对于 visual reasoning(视觉推理)练习,我们可以在类似于上述弹珠示例的序列上进行监督微调。例如,为了更多地了解物理世界,我们可以向模型展示 Slinkys 下楼梯、篮球运动员投篮或人们将鸟舍锤在一起的顺序图片。我们可以让模型通过让它看到来自社交互动的一系列文本和图像,并让它预测下一场景的肢体语言和面部表情来变得更具社交意识。我们可以通过让模型解决七巧板或让他们可视化当一个装置旋转 90 度时会是什么样子来进行空间推理训练。如果你思考很长时间,很容易就能提出很多这样的想法 – visual reasoning(视觉推理)是我们生活的大部分的核心。

但是我们从哪里获得所有这些训练数据?对于空间和物理推理任务,我们可以利用计算机图形学来生成合成数据。这种方法特别有价值,因为模拟提供了一个受控环境,我们可以在其中创建具有已知结果的场景,从而可以轻松验证模型的预测。但我们还需要真实的例子。幸运的是,我们可以利用网上大量的视频内容。虽然初始数据集可能需要人工注释,但很快模型本身就能够处理视频及其转录本来自动提取训练示例。考虑一下网上所有的操作视频 – 创作者通常会在演示之前解释他们要做什么。我们可以使用这些来创建训练对:给定当前场景和口头描述,让模型预测接下来会发生什么。

顺便说一句 – 我认为视频将成为我们最丰富的新训练数据来源,而我们现在才真正开始利用它。但是谁拥有网络上所有的视频内容?YouTube... Google。我想这对于 Gemini 模型的未来来说非常好。你不觉得吗?

From Chain-of-Thought to Reasoning Models(从思维链到推理模型)

早在 2022 年,我们就认识到 LLM 从 chain-of-thought(思维链)推理中获益。如果一个模型正在做出草率的判断并急于得出不正确的解决方案,那么通常会添加“让我们逐步思考”,希望获得更好的输出,并且通常会得到它。很快,人们发现了更深入的推理方法。特别是,Tree of Thoughts 鼓励模型思考解决问题的多种可能方法,根据感知到的可行性对它们进行排名,然后应用程序将帮助引导模型以最佳方式通过路径并朝着问题解决方案前进。

借助 OpenAI 的 o1 模型和此后不久发布的几个模型,进行这种 tree-of-thoughts(思维树)推理的能力已内置到模型中。在提供最终解决方案之前,模型现在可能会在特殊的“思考”标签中思考问题。根据 DeepSeek(比 OpenAI 更透明),他们的 R1 模型已经通过一种具有可验证问题的强化学习形式进行了训练,因此可以奖励该模型以有效地思考其解决问题的_可验证_正确解决方案。有趣的是,并且让人想起 tree-of-thoughts(思维树),这些模型可以将自己思考到死胡同 – 认识到他们搞砸了 – 后退并回到更好的课程以解决问题。

进入 visual reasoning(视觉推理)。在未来的一年中,模型将接受监督微调,以开发场景预测能力 – 给定当前场景和提出的更改,他们将学习可视化结果。例如,他们将能够在 3D 空间中 mentaly 旋转物体,或者预测人们在社交场合中的反应。随着使用具有可验证结果的场景进行训练的进行,模型将开发出更复杂的推理能力。他们将能够观察他们的环境,制定计划,mentaly 模拟不同行动的后果,并从将他们的预测与真实世界的结果进行比较中学习。这种进步对于机器人技术而言将是特别具有变革意义的,在机器人技术中,与环境的物理交互需要强大的视觉理解和规划。

目前,visual reasoning(视觉推理)存在一个明显的问题 – 图像创建是一个非常缓慢的过程。但是,就像我们现在世界上的其他一切一样,这将很快变得更快,更可行。但是即使视觉处理仍然很慢,训练模型推理图像的行为本身也会改善视觉/空间问题的文本推理。更重要的是,图像的内部表示似乎是在几个粒度级别上创建的 – 一个小的模糊图像,然后是一个精细的高清图像。你在使用 ChatGPT 时看到的图像是后者,高清图像。也许 visual reasoning(视觉推理)可以利用模糊图像 – 它将更快地生成并有助于推理过程。

Conclusion(结论)

我对即将发生的事情感到兴奋!就像过去 4 年的每一刻一样,我们正处于一个根本性发现的边缘,这个发现将改变我们的世界 – 一个很快就会实现的根本性发现。我不认为这会让我们失望。能力越来越强的_视觉_推理模型将能够更好地理解我们的工作 – 不仅可以理解物理物体的力学,还可以理解阅读社交线索,以及我们所做的任何其他使用视觉对我们有用的事情!然后 2026 年将是机器人年...

Terminator

Hey, and if you liked this post, then maybe we should be friends!(嘿,如果你喜欢这篇文章,那么我们也许应该成为朋友!)