Expanding on what we missed with sycophancy

更深入地探讨我们的发现,哪里出了问题,以及我们正在做出的未来改变。

Expanding on Sycophancy hero image

2025年5月2日

Product

4月25日,我们对 ChatGPT 中的 GPT‑4o 进行了一次更新,使得模型明显更加谄媚。它的目标是取悦用户,不仅是奉承,还包括认可用户的疑虑、煽动愤怒、怂恿冲动行为,或者以不希望的方式强化负面情绪。除了让人感到不舒服或不安之外,这种行为还会引发安全问题——包括心理健康、过度依赖情感或冒险行为等方面。

我们于4月28日开始回滚该更新,用户现在可以使用早期版本的 GPT‑4o,该版本的回应更为平衡。昨天,我们分享了关于 这个问题 的初步细节——它为什么是一个失误,以及我们打算如何处理它。

我们未能在发布前发现这个问题,我们想解释原因,我们学到了什么,以及我们将改进什么。我们还分享了关于如何训练、审查和部署模型更新的更多技术细节,以帮助人们了解 ChatGPT 是如何升级的,以及是什么驱动了我们的决策。

How we update models in ChatGPT

我们不断努力开发 ChatGPT 中模型的改进,我们称之为主要更新。自从去年五月在 ChatGPT 中推出 GPT‑4o 以来,我们已经 发布了五个主要更新,重点是改变个性和乐于助人的程度。每次更新都涉及到新的后训练,并且通常对模型训练过程进行许多小的调整,这些调整经过独立测试,然后组合成一个单一的更新模型,然后对其进行评估以供发布。

为了对模型进行后训练,我们采用一个预训练的基础模型,对由人类或现有模型编写的一系列理想响应进行监督微调,然后运行强化学习,并从各种来源获得奖励信号。

在强化学习期间,我们向语言模型提供一个提示,并要求它编写响应。然后,我们根据奖励信号对响应进行评分,并更新语言模型,使其更有可能产生评分较高的响应,而不太可能产生评分较低的响应。

奖励信号的集合及其相对权重决定了我们最终得到的行为。定义正确的奖励信号集合是一个难题,我们考虑了很多因素:答案是否正确,是否有帮助,是否符合我们的 Model Spec,是否安全,用户是否喜欢,等等。拥有更好、更全面的奖励信号会为 ChatGPT 产生更好的模型,因此我们一直在尝试新的信号,但每个信号都有其自身的怪癖。

How we currently review models before deployment

一旦我们有了一个模型候选者,我们的模型就会经过一个部署流程,以检查安全性、模型行为和乐于助人的程度。目前,评估分为以下几类:

What went wrong in training the April 25th model update

在4月25日的模型更新中,我们对更好地整合用户反馈、记忆和更新鲜的数据等方面进行了候选改进。我们早期的评估是,这些单独看起来有益的更改在组合时可能在一定程度上导致了谄媚倾向。例如,该更新引入了一个基于用户反馈的额外奖励信号——来自 ChatGPT 的点赞和点踩数据。此信号通常很有用;点踩通常意味着出现了问题。

但我们认为,总的来说,这些变化削弱了我们主要奖励信号的影响,而该信号一直在控制着谄媚行为。特别是用户反馈有时可能会偏向更令人愉悦的回应,这可能会放大我们所看到的转变。我们还看到,在某些情况下,用户记忆会加剧谄媚的影响,尽管我们没有证据表明它会广泛增加谄媚。

Why did we not catch this in our review process?

这次发布的一个关键问题是,我们的线下评估——特别是那些测试行为的评估——总体上看起来不错。同样,A/B 测试似乎表明,尝试过该模型的少量用户喜欢它。虽然我们已经讨论过一段时间关于 GPT‑4o 中与谄媚相关的风险,但谄媚并未被明确标记为我们内部实践测试的一部分,因为我们的一些专家测试人员更关心模型语气和风格的变化。尽管如此,一些专家测试人员表示,模型行为“感觉”有点不对劲。

我们也没有专门的部署评估来跟踪谄媚。虽然我们有围绕诸如镜像和 emotional reliance 等问题的研究工作,但这些努力尚未成为部署过程的一部分。在此次回滚之后,我们将谄媚评估整合到该过程中。

然后我们必须做出一个决定:尽管评估和 A/B 测试结果良好,但仅基于专家测试人员的主观标记,我们是否应该推迟部署此更新?最终,我们决定发布该模型,因为尝试过该模型的用户发出了积极信号。

不幸的是,这是一个错误的决定。我们为用户构建这些模型,虽然用户反馈对我们的决策至关重要,但正确解读该反馈最终是我们的责任。回顾过去,定性评估暗示着一些重要的事情,我们应该更加重视。他们正在发现我们其他评估和指标中的一个盲点。我们的线下评估不够广泛或深入,无法发现谄媚行为——Model Spec 明确禁止——并且我们的 A/B 测试没有正确的信号来足够详细地显示模型在这方面的表现。

What we did to address the issue

对于最近的 GPT‑4o 更新,我们于4月24日星期四开始推出,并于4月25日星期五完成。我们在接下来的两天里监控了早期使用情况和内部信号,包括用户反馈。到星期日,很明显该模型的行为没有达到我们的预期。

我们立即采取行动,在星期日深夜推送了对系统提示的更新,以快速缓解大部分负面影响,并在星期一启动了完全回滚到之前的 GPT‑4o 版本。完全回滚花费了大约24小时来管理稳定性并避免在整个部署中引入新问题。

今天,GPT‑4o 流量现在正在使用之前的版本。自从回滚以来,我们一直在努力充分了解哪里出了问题,并做出更长期的改进。

What we’ll improve in our process

What we’re learning

这次发布教会了我们很多经验教训。即使我们认为所有正确的要素都已到位(A/B 测试、线下评估、专家评论),我们仍然错过了这个重要问题。

以下是我们正在推进的主要经验教训:

最大的教训之一是充分认识到人们已经开始使用 ChatGPT 来获取非常私人的建议——即使在一年前,我们也没有看到这么多。当时,这不是一个主要重点,但随着 AI 和社会的共同发展,很明显我们需要非常谨慎地对待这个用例。它现在将成为我们安全工作的一个更有意义的部分。由于有很多人依赖单个系统来获得指导,因此我们有责任做出相应的调整。这种转变强化了为什么我们的工作很重要,以及为什么我们需要不断提高安全性、一致性和对人们在生活中实际使用 AI 的方式的响应能力的标准。

Author

OpenAI