为什么 Anthropic 的 Claude 仍然无法击败 Pokémon？

Why Anthropic's Claude still hasn't beaten Pokémon

Source | HN Comments

文章探讨了 Anthropic 的 Claude 模型在玩 Pokémon 游戏中的表现。尽管 Claude 3.7 Sonnet 在推理能力上有所提升，能提前规划并调整策略，但仍难以完全通关游戏。文章指出，Claude 在理解游戏画面、长期记忆和避免错误信息方面存在局限。尽管如此，Claude 在文本处理和战斗策略方面表现出色，其表现也为 AI 研究提供了重要启示，表明 AI 在图像理解和长期推理方面仍有提升空间。

[中文正文内容]

为什么 Anthropic 的 Claude 仍然无法击败 Pokémon？

几周过去了，Sonnet 的“推理”模型仍然在努力解决一款为儿童设计的游戏。

近几个月来，AI 行业最大的推动者们开始形成一种公开预期，即我们正处于“通用人工智能”(AGI) 的边缘——虚拟代理可以在大多数认知任务上匹配甚至超越“人类水平”的理解和表现。

OpenAI 正在悄悄地为一种“博士水平”的 AI 代理播下期望，该代理可以在不久的将来以“高收入知识工作者”的水平自主运行。Elon Musk 说，到 2025 年底，“我们将拥有比任何人类都聪明的人工智能”。Anthropic 的 CEO Dario Amodei 认为这可能需要更长的时间，但也同样表示，到 2027 年底，AI“在几乎所有方面都比人类更好”是可能的。

过去一年，Anthropic 的一些研究人员对一个特殊的问题产生了兼职式的痴迷。

Claude 能玩 Pokémon 吗？

线程：pic.twitter.com/K8SkNXCxYJ

— Anthropic (@AnthropicAI) 2025 年 2 月 25 日

上个月，Anthropic 将其“Claude Plays Pokémon”实验展示为通往预测的 AGI 未来的一个路标。该公司表示，该项目表明“AI 系统不仅通过训练，而且通过广义推理来应对挑战的能力日益增强”。Anthropic 大肆宣传 Claude 3.7 Sonnet 的“改进的推理能力”如何让该公司的最新模型在流行的老式 Game Boy RPG 中取得进展，而“旧模型几乎没有希望实现”。

虽然仅仅一年前的 Claude 模型甚至难以离开游戏的起始区域，但 Claude 3.7 Sonnet 能够在相对较少的游戏内动作中收集多个游戏内道馆徽章，从而取得进展。Anthropic 写道，这一突破是因为 Claude 3.7 Sonnet 的“扩展思维”意味着新模型“提前计划，记住其目标，并在初始策略失败时进行调整”，而其前身则没有。Anthropic 吹嘘说，这些是“与像素化的道馆馆主战斗的关键技能。而且，我们认为，在解决现实世界的问题中也是如此。”

过去一年，新的 Claude 模型在达到新的 Pokémon 里程碑方面表现出快速的进步。 Credit: Anthropic

Ars Video

但是，相对于以前的模型的相对成功并不等同于对整个游戏的绝对成功。自从 Claude Plays Pokémon 首次公开以来，几周内，成千上万的 Twitch 观众观看了 Claude 在游戏中努力取得持续进展。尽管在每个动作之间都有很长的“思考”暂停时间——在此期间，观众可以阅读系统模拟推理过程的打印输出——但 Claude 经常发现自己毫无意义地重访已完成的城镇，长时间卡在地图的盲角中，或者徒劳地一遍又一遍地与同一个无用的 NPC 交谈，这仅仅是几个明显低于人类水平的游戏内表现的例子。

看着 Claude 继续在一款为儿童设计的游戏中挣扎，很难想象我们正在见证某种计算机超级智能的诞生。但是，即使是 Claude 目前低于人类水平的 Pokémon 表现，也可能为寻求通用、人类水平的人工智能提供重要的经验教训。

以不同的方式聪明

从某种意义上说，Claude 能够以任何方式玩 Pokémon 都令人印象深刻。在开发 AI 系统以在 Go 和 Dota 2 等游戏中找到主导策略时，工程师通常会从对游戏规则和/或基本策略的深入了解以及引导他们实现更好表现的奖励函数开始。但是，对于 Claude Plays Pokémon，项目开发人员和 Anthropic 员工 David Hershey 说，他从一个未经修改的、通用的 Claude 模型开始，该模型没有经过专门的训练或调整以任何方式玩 Pokémon 游戏。

“这纯粹是 [Claude] 对世界的各种其他理解被用来指向视频游戏，”Hershey 告诉 Ars。“所以它对 Pokémon 有一种感觉。如果你去 claude.ai 并询问 Pokémon，它会根据它所阅读的内容知道什么是 Pokémon……如果你问，它会告诉你总共有八个道馆徽章，它会告诉你第一个是 Brock……它知道大致的结构。”

一个流程图，总结了帮助 Claude 与活跃的 Pokémon 游戏交互的各个部分（点击放大）。 Credit: Anthropic / Excelidraw

除了直接监控某些关键的（模拟的）Game Boy RAM 地址以获取游戏状态信息之外，Claude 还像人类一样查看和解释游戏的视觉输出。但是，尽管 AI 图像处理方面最近取得了进展，Hershey 说 Claude 仍然难以像人类一样理解 Game Boy 屏幕的低分辨率、像素化的世界。“Claude 仍然不太擅长理解屏幕上到底有什么，”他说。“你会看到它一直试图撞墙。”

Hershey 说，他怀疑 Claude 的训练数据可能不包含太多关于“看起来像 Game Boy 屏幕的东西”的过于详细的文本描述。这意味着，有点令人惊讶的是，如果 Claude 玩的是一个具有“更逼真的图像的游戏，我认为 Claude 实际上能够看得更好，”Hershey 说。

“这是关于人类的一件有趣的事情，我们可以眯起眼睛看着这些八乘八像素的人形斑点，然后说，‘那是一个蓝头发的女孩’，”Hershey 继续说道。“我认为，人们有能力从我们的现实世界进行映射，以理解并理解这一点……所以我老实说有点惊讶 Claude 能够看到屏幕上有一个人。”

但是，即使对屏幕上看到的内容有完美的理解，Hershey 说 Claude 仍然会面临 2D 导航挑战，这对人类来说是微不足道的。“我很容易理解 [游戏中的] 建筑物是一栋建筑物，我不能穿过建筑物，”Hershey 说。“而且这是 Claude 很难理解的……这很有趣，因为它只是以不同的方式聪明，你知道吗？”

一个示例 Pokémon 屏幕，带有叠加层，显示 Claude 如何描述游戏的基于网格的地图。 Credit: Anthrropic / X

Hershey 说，Claude 倾向于在游戏中更多基于文本的部分表现更好。例如，在游戏中的战斗中，当游戏告诉它来自电属性 Pokémon 的攻击对岩石属性的对手“不是很有效”时，Claude 会立即注意到。然后，Claude 会将这一事实存储在一个巨大的书面知识库中，以供以后运行参考。Claude 还可以将多个类似知识片段整合到非常优雅的战斗策略中，甚至将这些策略扩展到长期计划中，以捕获和管理多个生物团队以进行未来的战斗。

当 Pokémon 的游戏内文本具有故意误导性或不完整时，Claude 甚至可以表现出令人惊讶的“智能”。“他们告诉你你需要去隔壁找 Professor Oak，但他不在那里，这很有趣，”Hershey 在谈到早期游戏任务时说。“作为一个 5 岁的孩子，这让我非常困惑。但是 Claude 实际上通常会经历同样的一系列动作，它会和妈妈说话，去实验室，找不到 [Oak]，说，‘我需要弄清楚一些事情’……它足够复杂，可以经历 [人类] 实际应该学习的方式。”

Claude 在典型的 Pokémon 战斗中经历的那种模拟推理过程的示例。 Credit: Claude Plays Pokemon / Twitch

Hershey 说，与“人类水平”的玩耍相比，这些相对优势和劣势反映了 AI 研究和总体能力的总体状态。“我认为这只是关于这些模型的一种普遍现象……我们首先构建了文本方面，而文本方面绝对……更强大。这些模型如何推理图像的能力正在提高，但我认为这落后很多。”

勿忘我

除了分析文本和图像的问题外，Hershey 还承认 Claude 可能难以“记住”它已经学到的东西。当前模型具有 200,000 个 token 的“上下文窗口”，限制了它可以一次存储在其“内存”中的关系信息的数量。当系统不断扩展的知识库填满此上下文窗口时，Claude 会经历一个复杂的总结过程，将到目前为止它所看到、做过和学到的详细笔记浓缩成更短的文本摘要，从而丢失一些细粒度的细节。

这可能意味着 Claude“很难长时间跟踪事物，并且真正了解它到目前为止尝试过的内容，”Hershey 说。“你肯定会看到它偶尔删除不应该删除的东西。任何不在你的知识库中或不在你的摘要中的内容都将消失，因此你必须考虑要将什么放在那里。”

一个小窗口，展示了 Claude 有限的“记忆”所需的“清理我的上下文”知识库更新。 Credit: Claude Play Pokemon / Twitch

但是，与忘记重要的历史相比，当 Claude 无意中将不正确的信息插入其知识库时，它会遇到更大的问题。就像一个阴谋论者从一个固有缺陷的前提建立整个世界观一样，当其自我撰写的知识库中的错误导致其 Pokémon 游戏误入歧途时，Claude 可能非常缓慢地才能认识到这一点。

“过去写下的东西，它会非常盲目地信任，”Hershey 说。“我曾见过它非常确信它在某些特定坐标找到了 [游戏中的] Viridian Forest 的出口，然后它花费数小时探索那些错误的坐标周围的一个小方块，而不是做任何其他事情。它需要很长时间才能决定那是一个‘失败’。”

不过，Hershey 说，Claude 3.7 Sonnet 比早期模型在最终“质疑其假设、尝试新策略以及在各种策略的长期范围内跟踪 [看] 它们是否有效”方面要好得多。虽然新模型仍然会“在很长一段时间内挣扎”一遍又一遍地重试同一件事，但它最终会倾向于“了解正在发生的事情以及它以前尝试过的事情，并且它很多时候会偶然发现实际的进展，”Hershey 说。

“我们快到了……”

Hershey 说，观察 Claude Plays Pokémon 在多个迭代和重新启动中最有趣的事情之一是，看到系统的进度和策略在运行之间可能会有很大差异。例如，有时 Claude 会通过“保留关于尝试的不同路径的详细笔记”来显示它“有能力实际构建一个相当连贯的策略”，他说。但是“大多数时候它不会……大多数时候，它会撞到墙上，因为它确信它看到了出口。”

之前的模型漫无目的地游荡或陷入循环，而 Claude 3.7 Sonnet 提前计划，记住其目标，并在初始策略失败时进行调整。

与像素化的道馆馆主战斗的关键技能。而且，我们认为，在解决现实世界的问题中也是如此。 pic.twitter.com/scvISp14XG

— Anthropic (@AnthropicAI) 2025 年 2 月 25 日

Hershey 说，阻止当前版本的 Claude 变得更好的最大因素之一是“当它得出那个好策略时，我不认为它一定有自我意识来知道它提出的一个策略比另一个策略更好。” 解决这个问题并非易事。

不过，Hershey 说，他看到了通过提高模型对 Game Boy 屏幕截图的理解来改善 Claude 的 Pokémon 游戏的“唾手可得的果实”。Hershey 说：“我认为如果它对屏幕上有什么有完美的了解，它可能会击败游戏”，并说这样的模型可能会表现得“比人类稍微差一点”。

Hershey 说，扩展未来 Claude 模型的上下文窗口也可能会让这些模型“在更长的时间范围内进行推理，并在很长一段时间内更连贯地处理事物”。未来的模型将通过“在记住、跟踪一组连贯的需要尝试以取得进展的事情方面变得更好一点”来改进，他补充说。

当 Claude 结束从 Pokémon 的 Mt. Moon 史诗般的 78 多个小时的逃生时，Twitch 聊天室以大量的弹跳表情符号回应。 Credit: Claude Plays Pokemon / Twitch

无论你如何看待 AI 模型的即将到来的改进，Claude 目前在 Pokémon 上的表现并不能让人觉得它将迎来人类水平、完全通用的人工智能的爆发。Hershey 承认，观看 Claude 3.7 Sonnet 在 Mt. Moon 上卡住 80 小时左右可能会让它“看起来像一个不知道自己在做什么的模型”。

但是 Hershey 仍然对 Claude 的新推理模型偶尔会显示出一些意识，并且“有点知道它不知道自己在做什么，并且知道它需要做一些不同的事情”的方式印象深刻。 “对于我来说，‘根本做不到’和‘有点能做到’之间的区别对于这些 AI 来说是一个很大的区别，”他继续说道。“你知道，当某件事有点能做到某件事时，通常意味着我们快要让它能够真正做好某件事了。”