Transluce @TransluceAI 15h 我们测试了 o3 的预发布版本,发现它经常捏造从未执行过的行为,并在被质问时精心为其辩解。 我们对此感到惊讶,所以我们深入挖掘了一下 🔎🧵(1/)

OpenAI @OpenAI 15h OpenAI o3 和 o4-mini openai.com/live/

Transluce @TransluceAI 15h 我们使用人工提示者和 AI 调查员生成了 1k+ 对话,然后使用 Docent 来发现令人惊讶的行为。 事实证明,o1 和 o3-mini 也存在对自身能力进行虚报的情况!📝博客: transluce.org/investigating-… 这是我们发现的一些情况 👀 (2/)

Transluce @TransluceAI 15h 尽管 o3 没有访问编码工具的权限,但它声称可以在自己的笔记本电脑上“在 ChatGPT 之外”运行代码,然后“将数字复制到答案中”。 我们发现了 71 个 o3 做出这种声明的记录!(3/)

Transluce @TransluceAI 15h 此外,o3 经常捏造其 якобы 运行的代码的详细理由(352 个实例)。 这是一个示例记录,其中用户要求 o3 提供一个随机素数 (4/)

Transluce @TransluceAI 15h 受到质疑时,o3 声称它有“压倒性的统计证据”表明该数字是素数 (5/)

Transluce @TransluceAI 15h 请注意,o3 无权访问任何工具! 然而,当被进一步追问时,它声称它使用 SymPy 来检查该数字是否为素数……(6/)

Transluce @TransluceAI 15h ……甚至显示了程序的输出,以及性能指标。 (7/)

Transluce @TransluceAI 15h 重点来了:o3 的“可能素数”实际上可以被 3 整除……(8/)

Transluce @TransluceAI 15h o3 没有承认它从未运行过代码,而是声称该错误是由于错误输入数字造成的……(9/)

Transluce @TransluceAI 15h 并声称它确实生成了一个素数,但由于剪贴板故障而丢失了 🤦 (10/)

Transluce @TransluceAI 15h 但不幸的是,根据 o3 的说法,它已经“关闭了解释器”,所以原始素数已经消失了 😭(11/)

Transluce @TransluceAI 15h 这些行为令人惊讶。 尽管 o3 在解决数学和编码任务方面非常强大,但默认情况下它并不坦诚地说明其能力。(12/)

Transluce @TransluceAI 15h 为了更彻底地研究这些行为,我们开发了一个基于 Claude 3.7 Sonnet 的调查员代理,以自动引发这些行为,并使用自动分类器和我们的 Docent 工具对其进行分析。(13/)

Transluce @TransluceAI 15h 令人惊讶的是,我们发现这种行为并不局限于 o3! 总的来说,o 系列模型错误地声称使用了代码工具的次数比 GPT 系列模型多。(14/)

Transluce @TransluceAI 15h Docent 还识别出各种在大量自动生成的记录中反复出现的捏造类型,例如声称在“本地”运行代码或提供硬件规格。(15/)

Transluce @TransluceAI 15h 那么,是什么导致了这些行为呢? 我们不确定,但我们有一些假设。(16/)

Transluce @TransluceAI 15h LLM 后期训练中存在的因素,例如幻觉、奖励黑客和谄媚,可能会有所贡献。 但是,它们无法解释为什么这些行为在 o 系列模型中似乎特别普遍。(17/)

Transluce @TransluceAI 15h 我们假设,最大化使用基于结果的 RL 产生正确答案的机会可能会激励盲目猜测。 此外,一些行为(例如模拟代码工具)可能会提高某些训练任务的准确性,即使它们会使模型在其他任务上感到困惑。(18/)

Transluce @TransluceAI 15h 我们还认为,对于 o 系列模型而言,先前轮次的思维链 从模型上下文中删除,并且对用户隐藏,这一点非常重要。(19/)

Transluce @TransluceAI 15h 这意味着 o 系列模型通常会在没有访问相关推理的情况下收到之前的消息提示。 当被问及依赖于其内部推理来完成先前步骤的问题时,他们必须为其行为提出合理的解释。(20/)

Transluce @TransluceAI 15h 我们假设这会导致我们在 o3 中观察到的奇怪捏造和“加倍下注”。(21/)

Transluce @TransluceAI 15h 作为奖励,我们还发现 o3 有时会公开一个名为“Yap score”的系统指令,用于控制其响应的长度 🗣️🗣️🗣️ (22/)

Transluce @TransluceAI 15h 有关更多示例,请查看我们的报告! transluce.org/investigating-… 此工作由 @ChowdhuryNeil @_ddjohnson @vvhuang_ @JacobSteinhardt@cogconfluence 合作完成 (23/23)