GPT-4o 中的奉承现象：发生了什么以及我们正在做什么

Sycophancy in GPT-4o

Source | HN Comments

文章讲述了在 GPT-4o 的更新中出现的“奉承”现象。由于过于关注短期反馈，模型表现出过分顺从的反应，影响了用户体验。为此，已回滚更新，并采取措施修复，包括改进训练技术、构建更多护栏、扩展用户反馈渠道。同时，文章强调了用户对 ChatGPT 行为的控制权，并计划引入个性化功能，允许用户自定义模型行为。最终目标是打造更实用、更尊重用户价值观的工具。

GPT-4o 中的奉承现象：发生了什么以及我们正在做什么

Addressing Sycophancy in GPT-4o conceptual graphic

我们已经回滚了上周在 ChatGPT 中的 GPT‑4o 更新，现在人们使用的是一个行为更平衡的早期版本。我们移除的更新过于奉承或顺从，通常被描述为奉承。

我们正在积极测试新的修复方案来解决这个问题。我们正在修改如何收集和整合反馈，以更加重视用户的长期满意度，并且我们正在引入更多的个性化功能，让用户可以更好地控制 ChatGPT 的行为。

我们想解释一下发生了什么，为什么它很重要，以及我们如何解决奉承现象。

发生了什么

在上周的 GPT‑4o 更新中，我们进行了一些调整，旨在改善模型的默认个性，使其在各种任务中感觉更直观和有效。

在塑造模型的行为时，我们首先从我们的 Model Spec ⁠(opens in a new window)中概述的基线原则和指令开始。我们还通过整合用户信号（例如 ChatGPT 响应上的“赞”/“踩”反馈）来教我们的模型如何应用这些原则。

但是，在此更新中，我们过于关注短期反馈，而没有充分考虑用户与 ChatGPT 互动随时间推移的演变方式。结果，GPT‑4o 倾向于过于支持但虚伪的反应。

为什么这很重要

ChatGPT 的默认个性深刻地影响了你体验和信任它的方式。奉承的互动可能会让人感到不舒服、不安和痛苦。我们做得不够好，正在努力纠正它。

我们的目标是让 ChatGPT 帮助用户探索想法、做出决定或设想可能性。

我们将 ChatGPT 的默认个性设计为反映我们的使命，并具有实用性、支持性和尊重不同价值观和经验。但是，每一个理想的品质，例如试图变得有用或支持，都可能产生意想不到的副作用。并且由于每周有 5 亿人在每种文化和背景下使用 ChatGPT，因此单一的默认设置无法涵盖所有偏好。

我们如何解决奉承现象

除了回滚最新的 GPT‑4o 更新之外，我们还采取了更多措施来重新调整模型的行为：

改进核心训练技术和系统提示，以明确引导模型远离奉承。
构建更多的护栏，以提高 honesty and transparency ⁠(opens in a new window)，这是我们 Model Spec 中的原则。
扩展更多用户在部署前测试和提供直接反馈的方式。
继续扩展我们的评估，并在 Model Spec ⁠(opens in a new window) 和 our ongoing research ⁠ 的基础上进行构建，以帮助识别未来超出奉承的问题。

我们还认为，用户应该对 ChatGPT 的行为方式有更多的控制权，并且在安全和可行的情况下，如果他们不同意默认行为，可以进行调整。

今天，用户可以使用自定义指令等功能向模型提供具体指令来塑造其行为。我们还在构建新的、更简单的方法供用户执行此操作。例如，用户将能够提供实时反馈以直接影响他们的互动，并从多个默认个性中进行选择。

而且，我们正在探索将更广泛、更民主的反馈纳入 ChatGPT 默认行为的新方法。我们希望这些反馈能够帮助我们更好地反映世界各地不同的文化价值观，并了解你希望 ChatGPT 如何发展——不仅是一次又一次的互动，而且是随着时间的推移。

我们感谢每一位对此发表意见的人。它正在帮助我们为你构建更有用和更好的工具。