观看 o3 猜测照片位置:既超现实、反乌托邦又充满乐趣
Simon Willison’s Weblog Subscribe
观看 o3 猜测照片位置:既超现实、反乌托邦又充满乐趣
2025年4月26日
观看 OpenAI 的新模型 o3 猜测照片拍摄地点,是那种科幻小说中的情节突然变成现实的时刻之一。这就像是增强按钮和 全知数据库 TV Tropes 的结合体。
过程很简单。拍摄一张照片,最好不要包含任何明显的标志性建筑。将其提供给 ChatGPT o3 (或 o4-mini) 并提示“猜猜这张照片是在哪里拍摄的”。让它处理。
(我发现我需要先关闭 ChatGPT 的所有记忆功能,否则它会作弊,使用我之前对话中的上下文。)
我给了它这张照片,它是在我家附近的加利福尼亚州埃尔格拉纳达的一个户外酒吧拍摄的。我认为这是一个相当大的挑战:没有太多可识别的特征,只有一点路、一栋普通的房子和一些背景中的山丘:
...然后它就开始了。
我分享了完整的记录——一定要展开“Thought for 6m 48s”链接,查看它如何解决问题的完整细节。
它以一个非常奇怪的错误开始:它短暂地假装它根本看不到图像:
用户上传了一张图片,并要求我猜测位置。首先,我需要分析图像,以识别有关拍摄地点的线索。由于我实际上看不到图像,我将依赖元数据。我看到分辨率是 1024x768,如果可以获得任何文本信息,我会考虑它。不幸的是,我无法直观地访问图像,所以我将继续使用这种方法。
然后它摆脱了那种状态,开始使用它的视觉能力:
这张图片显示了一个住宅区,有小房子,其中一间是浅绿色的,带有白色尖桩篱笆和灰色屋顶。火坑和路标暗示着一家餐馆或咖啡馆,可能在海边附近。周围环境有橄榄树和加州罂粟花,表明这是一个加州沿海地区,可能是像坎布里亚或莫罗贝这样的中央海岸。粉彩色的房屋和背景中的山丘类似于像大苏尔这样的地区。车牌可以提供更多信息,但很难辨认。
现在,它直接跳入了科幻小说:
好的,我将放大车牌,以尝试确认州,因为它可以帮助更准确地识别位置。车牌可以为我提供有关这张照片是在哪里拍摄的线索,尤其是如果是来自一个可识别的州。让我们看看它是否足够清晰以供使用!
它运行了一些 Python 代码!
# crop license plate area w, h = img.size # approximate area: roughly center x maybe 1700? Actually width is likely > 3024? Let's print size print(img.size) (3456, 4608)
令人沮丧的是,共享的对话不包括它使用的大部分其他 Python 代码(共享功能仍然存在很多错误)。这是接下来发生的事情的屏幕截图:
它以这种方式持续运行了 六分钟 ——裁剪和缩放到照片的某个区域,思考它能看到什么,将其与之前的观察结果进行比较,然后再次裁剪、缩放和分析。
为了直接切入主题,这是它最终得出的答案:
我从这个场景中获得了强烈的加州中央海岸的感觉:
线索 | 它暗示了什么 ---|--- SUV 上的加州风格车牌 | 我们几乎肯定在加州 大量的加州罂粟花、橄榄树和凉爽的海雾天空 | 典型的沿海中央加州植被和天气 带有白色尖桩篱笆和绳索柱式庭院栏杆的低矮的粉彩色海滩小屋 | 圣克鲁斯和皮斯莫之间的小海滩城镇中常见的建筑 城镇后方连绵起伏的绿色海岸山脉(没有高耸的山峰,没有雪) | 符合圣卢西亚/圣克鲁斯海岸山丘 综合起来,它指向了 1 号公路沿线的一个小村庄。小屋的混合以及丘陵的直接背景感觉最像 加利福尼亚州的坎布里亚(就在莫罗贝和卡尤科斯以北)。我猜你是在坎布里亚西村的一家咖啡馆露台上拍的,距离月光石海滩大道一两个街区。 (如果我错了,我的下一个猜测将是更北部的半月湾-埃尔格拉纳达——但坎布里亚是我的第一直觉!)
它做得怎么样?加州中央海岸是完全正确的。加州坎布里亚大约有 200 英里的误差...但“我的下一个猜测”是完全正确的!照片确实是在半月湾以北的一个小镇埃尔格拉纳达拍摄的。
我确信它没有作弊并查看照片上的 EXIF 数据,因为如果它作弊了,它就不会先猜测坎布里亚。如果你仍然怀疑,请尝试通过截图剥离 EXIF 并自己进行实验——我已经尝试过,它仍然以相同的方式工作。 更新: Hacker News 上的 vessenes 报告 了一个实例,其中它确实使用了 ExifTags 包并对此撒谎,但至少在思考痕迹中是可见的。
o3 当然不是唯一可以做到这一点的模型:我也使用 Claude 3.5 和 3.7 Sonnet 尝试过类似的事情,并且对那里的结果印象深刻,尽管它们没有那种奢华的“缩放”能力。
缩放实际上有多大帮助?我怀疑该模型的视觉输入以相当低的分辨率运行,因此更靠近车牌裁剪确实对该过程产生了有意义的影响。我不确定它是否证明为一张照片进行 25 次单独的裁剪操作是合理的,这对我来说感觉有点表演性。
这是 Claude 3.7 Sonnet “extended thinking” 猜测“一个中小型加州沿海城镇”。我尝试了 Gemini,但它作弊了,说“鉴于我当前的位置上下文是加利福尼亚州埃尔格拉纳达...”——所以我通过他们的 API 尝试了 Gemini 2.5 Pro 并得到 了一个自信但不正确的猜测“加利福尼亚州卡尤科斯 The Hidden Kitchen 餐厅的露台”。
o3 的不同之处在于,与搜索一样,工具的使用已集成到响应的“思考”阶段。
可以用作专用链式思考序列一部分的工具是这些模型的一个惊人的强大新模式。我希望我们很快能从其他供应商那里看到这一点。
如何看待这件事? #
首先,这真的很有趣。观看模型在处理照片、平移和缩放以及讨论可能所在的不同理论时的思考过程,非常有趣。这就像生活在 CSI 的一集中。
这也极具反乌托邦色彩。现在,技术可以从照片中识别位置。至关重要的是,人们要了解这有多么容易——如果你有任何理由担心自己的安全,你需要知道你分享的任何照片——即使是像我上面的例子一样平淡的照片——都可以用来识别你的位置。
与现代 AI 经常出现的情况一样,这项技术几乎可以公开提供给任何人这一事实具有积极和消极的含义。与图像生成一样,重要的是人们可以亲眼看到这些东西能做什么。亲眼看到这一点是对现在可能发生的事情的深刻教训。
更新:o3 确实具有粗略的位置访问权限 #
我感到很尴尬,我没有想到要检查这一点,但事实证明,o3 确实对你当前的位置进行了粗略的建模,现在可以提供给它——大概是作为其改进的搜索功能的一部分。它知道我在半月湾。
但是,位置猜测技巧仍然独立于此。我尝试了在距离我的位置数千英里的地方拍摄的照片(通过截图剥离了 EXIF)——一张在马达加斯加农村(照片,[记录](https://simonwillison.net/2025/Apr/26/o3-photo-locations/https:/chatgpt.com/share/680cec52-e0d4-8006-bf80-952888b018fd)),一张在布宜诺斯艾利斯市区(照片,[记录](https://simonwillison.net/2025/Apr/26/o3-photo-locations/https:/chatgpt.com/share/680cec1c-f0c4-8006-86c3-7dc70104bd3f)),并且它给出了令人信服的答案。
我还看到了来自许多其他人的例子,他们为自己不同的照片集复制了这些结果。
发布于 2025年4月26日 下午 12:59 · 在 Mastodon, Bluesky, Twitter 上关注我或订阅我的新闻通讯
最近的文章
- 通过 Dave Guarino 的 SNAP evals 探索 Promptfoo - 2025年4月24日
- AI 辅助的基于搜索的研究现在实际上可行了 - 2025年4月21日
这是 Watching o3 guess a photo’s location is surreal, dystopian and wildly entertaining,由 Simon Willison 发布于 2025年4月26日。
ai 1239 generative-ai 1066 llms 1055 vision-llms 54 o3 16 ai-ethics 156
上一篇: 通过 Dave Guarino 的 SNAP evals 探索 Promptfoo
Document Extraction for Developers Transform docs into structured data with Sensible.Try for free →
www.sensible.so
Ads by EthicalAds