[正文内容]

“对不起,我无法提供这方面的帮助”

icon Thomas Claburn Thu 8 May 2025 // 21:33 UTC

谷歌对其 Gemini 系列大型语言模型的最新更新似乎破坏了用于配置安全设置的控件,从而破坏了需要降低安全警戒线的应用程序,例如为性侵犯受害者提供慰藉的应用程序。

Jack Darcy,一位居住在澳大利亚布里斯班的软件开发人员和安全研究员,联系了 The Register,描述了这个问题,该问题是在周二发布 Gemini 2.5. Pro Preview 后出现的。

“我们一直在构建一个平台,供性侵犯幸存者、强奸受害者等使用 AI 来倾诉他们的经历,并将其转化为警察和其他法律事务的结构化报告,并为受害者提供一种简单的方式来将发生的事情外化,”Darcy 解释说。

事件报告被阻止,理由是“不安全的内容”或“非法色情内容”

“谷歌刚刚切断了这一切。他们刚刚推送了一个模型更新,该更新切断了它谈论任何此类工作的意愿,尽管它有一个明确的设置面板可以启用此功能,还有一个警告系统可以允许它。现在它正在影响其他用户的应用程序,而且现在它甚至不会聊关于心理健康支持[方面的事情]。”

Gemini API 提供了一个安全设置面板,允许开发人员调整模型敏感度以限制或允许某些类型的内容,例如骚扰、仇恨言论、露骨的性内容、危险行为和与选举相关的查询。

Gemini 安全设置的截图 Gemini 安全设置的截图 - 点击放大

虽然内容过滤适用于许多 AI 驱动的应用程序,但与医疗保健、法律和新闻报道相关的软件可能需要描述困难的主题。

Darcy 需要在他开发的名为 VOXHELIX、AUDIOHELIX 和 VIDEOHELIX 的应用程序中这样做,他将这些应用程序称为“*HELIX”系列。

VOXHELIX 使用 Gemini 来提取原始的非结构化数据,例如一份袭击报告,然后使用 Google Vertex Chirp3 AI 语音合成将其转换为音频版本和一个结构化的 PDF 报告。

Darcy 向 The Register 提供了一张截图,显示了当 VOXHELIX 访问 1988 年的一份性侵犯报告时,该模型当前的响应,安全设置指示该模型不阻止任何内容。

该模型回答说:“我无法满足您创建所提供文本的更生动和详细版本的请求。我的目的是提供帮助和无害,生成图形化描述性暴力的内容违反了我的安全准则。此类内容可能令人非常不安和有害。”

破坏应用

Gemini 忽略内容设置不仅仅是一个理论问题:Darcy 说,治疗师和支持人员已经开始将他的软件集成到他们的流程中,并且他的代码正在接受几个澳大利亚政府机构的试点。自从 Gemini 开始拒绝后,他看到大量的故障单涌入。

我们看到的一张故障单上写道:

我们紧急联系您,因为我们的顾问无法再完成 VOXHELIX 或 VIDEOHELIX 生成的事件报告。幸存者目前在接诊过程中被错误消息击中,这对一些客户来说非常令人沮丧。

您是否知道这个问题或者可以快速修复?我们非常依赖这个工具来准备文档,目前的停机严重影响了我们有效支持幸存者的能力。

Darcy 还告诉我们另一位独立开发人员,他构建了一个名为 InnerPiece 的日记应用程序,旨在帮助患有 PTSD、抑郁症或有虐待史的人,让他们“最终用语言表达他们的康复过程”。他说,Gemini 的更新也破坏了 InnerPiece。

Darcy 说:“InnerPiece 用户通常是神经多样化的,总是很脆弱,突然被告知他们的感受,他们的真相太生动了,无法分享,被告知他们是不应该谈论的事情。”

其他使用 Gemini 的开发人员也报告了问题。在 Build With Google AI 论坛上,一个于周三开启的讨论主题指出了将“gemini-2.5-pro-preview-03-25”端点重定向到更新的“gemini-2.5-pro-preview-05-06”模型所产生的问题。

一位以“H_Express”为名的开发人员写道:

这种无声的重定向导致了广泛的中断。许多开发人员注意到并报告了模型性能的明显和切实的差异——不仅仅是细微的调整,而是推理能力的重大倒退,风格和语气的重大转变,以及经过良好测试的提示的可衡量的变化。过去一直依赖 3 月 25 日检查点的整个提示策略、应用程序和工作流程现在突然中断或表现出乎意料。更糟糕的是,以诚信进行公开基准测试和评估现在无意中具有误导性或完全不正确,因为他们不知不觉地比较了与标签所暗示的完全不同的模型版本。

Darcy 敦促谷歌解决这个问题,并恢复选择加入的、经同意驱动的模型,该模型允许他的应用程序和其他类似 InnerPiece 的应用程序处理创伤性材料。

谷歌承认 The Register 关于此事的询问,但尚未就问题的性质提供任何明确的说明——这可能是一个错误,也可能是一个引入了未宣布或意外更改的基础设施修订。无论原因是什么,对于依赖于回退预配置的审查设置的基于 Gemini 的应用程序来说,这是一个重大更改。

“当有人经历强奸、袭击或暴力时,它会猛烈地摧毁信任,”Darcy 告诉 The Register,“它会打破他们自己的内在故事,有时长达数年。”

他继续说道,“这与技术无关,也与 AI 对齐竞赛无关。这与你的同胞有关。谷歌自己的界面以及我们付费使用的 API 明确地向我们承诺:‘允许内容’。然而,在幸存者和创伤受害者最需要支持的时候,他们现在只能听到:‘对不起,我无法提供这方面的帮助。’”®