围观 OpenAI 的 o3 模型如何解 Paul Morphy 的两步杀棋
加入邮件列表
独家内容与更新。绝无垃圾邮件。 立即订阅 跳转到内容 alexop.dev
返回
围观 OpenAI 的 o3 模型如何解 Paul Morphy 的两步杀棋
发布时间:2025年4月27日
当我给 OpenAI 的 o3 模型一道困难的国际象棋谜题时,它的表现几乎像个人:思考、怀疑、重试,最后甚至谷歌搜索答案。🤣
在一步一步分解之前,这里最有趣的部分是:它花了 8 分钟计算和测量像素大小的格子……然后通过使用 Bing作弊了。
o3 如何解决困难的国际象棋问题
首先是问题,如果你想的话可以自己尝试解决#
国际象棋谜题,白方两步将杀
这是一个来自 Paul Morphy 的著名国际象棋谜题,请查看此链接了解更多。
查看完整的对话这里。
1. 仔细的棋盘分析 #
仔细的棋盘分析
首先,o3 花了几分钟时间仔细地根据图像重建棋盘。
“棋盘上白方的国王在 c8,白方的车在 a1,兵在 b6。黑方的国王在 a8,象在 b8,兵在 a7 和 b7。”
它非常谨慎。它希望在尝试任何行动之前完全理解局面。这已经是一种非常像智能体的行为:先谨慎,再行动。
2. 最初的想法和怀疑 #
它测试了像 b7#
和 Rxa7#
这样显而易见的想法,但立即开始怀疑自己。
“在 1. Rxa7+ 之后,黑方的国王无法吃子,因为白方的兵在 b6。”“但在 Bxa7 之后,就不再将军了。所以这不是将杀。”“1. b7+ 是非法的,因为 b7 上的兵挡住了它。”
它意识到最初看起来很容易的行动行不通,并开始变得更加小心。
3. 尝试使用 Python #
当纯粹的推理不足以解决问题时,o3 尝试通过编程来解决问题。
“我应该使用类似国际象棋引擎的东西来确认。”(尝试导入
chess
模块,但失败:“ModuleNotFoundError”)。
尝试使用 Python
它想运行一个模拟,但当然,它没有安装真正的国际象棋引擎。
4. 逐像素图像分析 #
仍然卡住,它试图手动测量棋盘格。
“棋盘高 726 像素,每个格子大约 88 像素……”“b7 的坐标大约是 x=88–176, y=88–176。”
它实际上试图根据像素数学来推断棋子。
非常顽固。
它也认为可能无法解决
“虽然我想知道这是否是一个典型的“两步将杀”谜题。我正在仔细检查整个棋盘,包括根据 FEN 和手动检查图像来确定棋子的位置。例如,查看 a8 上的黑方国王,c8 上的白方国王,以及 b7 上可能的兵或象”
5. 仍在思考 #
o3 开始显示出轻微的恐慌迹象。它仍在计算,但不确定最佳行动。
“最好的行动可能包括将国王集中化,以防止黑方兵的前进,或建立一个将杀网。”
当它使用 bing 时
6. 通过网络搜索作弊 #
网络搜索
最后,在总共接近 8 分钟的时候:
“我找到了一个国际象棋论坛,其中提到了这个确切的位置……”“建议的行动:Ra6。”
它用 Bing 搜索了答案。😂 不过,它并没有直接复制。它重新检查并理解了为什么 Ra6 有效。
时间线总结
初始分析 (~0-2分钟) 棋盘分析,仔细地根据图像重建了棋盘。探索与怀疑 (~2-4 分钟) 想法测试,测试了像 b7# 和 Rxa7# 这样显而易见的行动。自我纠正,意识到最初的行动行不通。失败的尝试 (~4-6 分钟) Python 尝试,试图通过 Python 使用国际象棋引擎(失败)。像素分析,试图通过像素数学推断棋子。感觉卡住,表达了对可解性的怀疑。解决 (~6-8 分钟) 网络搜索,使用 Bing 在网上找到解决方案。验证,确认并理解了建议的行动 (Ra6)。o3 模型的国际象棋解谜之旅
为什么这令人着迷
o3 不仅仅是输出一个答案。它会推理。它会挣扎。它会切换工具。它会自我纠正。它甚至会作弊(但只有在认真努力之后)。这感觉非常人性化。它也显示了当前模型擅长的地方——解决问题——以及它们仍然需要外部帮助的地方。
在复杂的国际象棋谜题中找到隐藏的逼着对方走棋式的解决方案,可能仍然需要真正创造力的缺失的“火花”。您可以在我的文章“ LLM 有创造力吗?”中阅读更多相关内容。
保持更新
订阅我的新闻通讯,直接在您的收件箱中获取更多关于 TypeScript、Vue 和 Web 开发的见解。
- 关于文章的背景信息
- 我阅读的所有有趣博客文章的每周摘要
- 小技巧
返回顶部 分享此帖子: 通过 WhatsApp 分享此帖子 在 Facebook 上分享此帖子 推送此帖子 通过 Telegram 分享此帖子 在 Pinterest 上分享此帖子 通过电子邮件分享此帖子 在 LinkedIn 上分享此帖子
相关文章#
[ 加强您的演示文稿:AI 驱动的幻灯片 # 使用 AI 驱动的工具提升您的开发演示文稿。 学习利用 Bolt、Slidev 和 WebContainers 实现快速、代码友好的幻灯片创建。 本指南引导开发人员通过 7 个步骤来构建令人印象深刻的技术演示文稿,使用 Markdown 和基于浏览器的 Node.js。 掌握高效的演示文稿开发,实现即时原型设计和一键部署到 Netlify 发布时间:2024年10月5日 生产力 ](https://alexop.dev/posts/how-03-model-tries-chess-puzzle/</posts/create-ai-presentations-fast/>)### [ 如何在 TypeScript 中实现用于向量比较的余弦相似度函数 # 学习如何在 TypeScript 中构建一个高效的余弦相似度函数,用于比较向量嵌入。 这个循序渐进的指南包括代码示例、性能优化以及语义搜索和 AI 推荐系统的实际应用 发布时间:2025年3月8日 typescript ](https://alexop.dev/posts/how-03-model-tries-chess-puzzle/</posts/how-to-implement-a-cosine-similarity-function-in-typescript-for-vector-comparison/>)### [ 如何将 llms.txt 添加到我的 Astro 博客 # 我构建了一个简单的方法,只需单击一下即可将我的博客内容加载到任何 LLM 中。 这篇文章展示了您也可以做到这一点 发布时间:2025年3月3日 astro ](https://alexop.dev/posts/how-03-model-tries-chess-puzzle/</posts/how-i-added-llms-txt-to-my-astro-blog/>)
版权所有 © 2025 | 保留所有权利。
通过 RSS 订阅
alexop.dev 在 Github 上 alexop.dev 在 LinkedIn 上 向 alexop.dev 发送电子邮件 alexop.dev 在 X 上 alexop.dev 在 BlueSky 上
内容根据 CC BY 4.0 许可
版本说明 | 数据隐私