理解使用 Differential Privacy 了解 Apple Intelligence 的聚合趋势
内容类型高亮 | 发布于 2025 年 4 月 14 日 研究领域 Privacy
理解使用 Differential Privacy 了解 Apple Intelligence 的聚合趋势
在 Apple,我们相信隐私是一项基本人权。我们致力于在保护用户隐私的同时,为用户提供卓越的体验。多年来,我们一直使用诸如 differential privacy 等技术,作为我们可选加入的设备分析计划的一部分。这使我们能够深入了解我们产品的使用方式,从而改进它们,同时通过防止 Apple 查看这些用户的个人级别数据来保护用户隐私。
这种在保护隐私的同时了解使用情况的需求也存在于 Apple Intelligence 中。我们的原则之一是,Apple 在训练我们的基础模型时,不使用用户的私人个人数据或用户互动,并且对于互联网上公开可用的内容,我们会应用过滤器来删除个人身份信息,例如社会安全号码和信用卡号码。在这篇文章中,我们将分享我们如何开发新技术,使 Apple 能够发现使用趋势和聚合洞察,以改进由 Apple Intelligence 提供支持的功能,而不会向 Apple 泄露个人行为或独特内容。
改进 Genmoji
我们一直在将 differential privacy 应用于 Apple Intelligence 的一个领域是 Genmoji。对于选择与 Apple 共享设备分析的用户,我们使用 differential privacy 方法来识别流行的提示和提示模式,同时提供数学保证,确保不会发现独特或罕见的提示,并且特定提示无法链接到个人用户。
了解流行的提示非常重要,因为它可以帮助 Apple 根据最能代表真实用户参与类型的提示来评估我们模型的更改和改进。例如,了解我们的模型在用户请求包含多个实体的 Genmoji(例如“戴牛仔帽的恐龙”)时的表现,有助于我们改进对此类请求的响应。
这种方法的工作原理是随机轮询参与设备,询问他们是否见过某个特定片段,设备会匿名地以噪声信号做出响应。通过噪声,我们的意思是设备可能会提供片段是否被看到的真实信号,或者为替代片段或根本没有匹配项提供随机选择的信号。通过校准设备发送随机选择的响应的频率,我们确保在可以发现该词之前,需要数百人使用相同的词。因此,Apple 只会看到常用提示,无法看到与任何特定设备关联的信号,并且不会恢复任何独特的提示。此外,Apple 从设备接收到的信号未与 IP 地址或任何可以链接到 Apple Account 的 ID 相关联。这可以防止 Apple 将信号与任何特定设备相关联。
Apple 目前使用 differential privacy 来改进 Genmoji,在即将发布的版本中,我们还将使用这种方法,并具有相同的隐私保护,用于 Image Playground、Image Wand、Memories Creation 和 Apple Intelligence 中的 Writing Tools,以及 Visual Intelligence 中。
使用合成数据改进文本生成
对于诸如摘要或 writing tools 之类的 Apple Intelligence 功能,这些功能作用于较长的句子或整个电子邮件消息,因此我们用来理解 Genmoji 之类的短提示中的趋势的方法效果不佳,因此我们需要一种新方法来理解趋势,同时坚持我们的隐私标准,这意味着不收集任何个人用户的内容。为了应对这一挑战,我们可以扩展 最近的研究 来创建有用的合成数据,这些数据代表真实用户数据中的聚合趋势,而无需从设备收集任何实际电子邮件或文本。
创建合成数据是为了模仿用户数据的格式和重要属性,但不包含任何实际的用户生成内容。在创建合成数据时,我们的目标是生成在主题或风格上与真实内容足够相似的合成句子或电子邮件,以帮助改进我们的摘要模型,而无需 Apple 从设备收集电子邮件。创建合成电子邮件消息的一种方法是使用大型语言模型 (LLM)。
在一个特定主题上创建单个合成电子邮件只是第一步。为了改进我们的模型,我们需要生成一组涵盖消息中最常见主题的许多电子邮件。为了管理具有代表性的合成电子邮件集,我们首先创建一组关于各种主题的大量合成消息。例如,我们可能会创建一条合成消息“您想明天上午 11:30 打网球吗?”这是在不了解单个用户电子邮件的情况下完成的。然后,我们推导出每个合成消息的表示形式,称为嵌入,该嵌入捕获消息的一些关键维度,如语言、主题和长度。然后将这些嵌入发送到少量选择加入设备分析的用户设备。
然后,参与设备选择少量最近的用户电子邮件并计算它们的嵌入。然后,每个设备决定哪个合成嵌入最接近这些样本。使用 differential privacy,Apple 就可以了解所有设备中最常选择的合成嵌入,而无需了解任何给定设备选择了哪个合成嵌入。然后,这些最常选择的合成嵌入可用于生成训练或测试数据,或者我们可以运行其他管理步骤来进一步优化数据集。例如,如果关于打网球的消息是最重要的嵌入之一,则可以生成一条将“tennis”替换为“soccer”或其他运动的类似消息,并将其添加到下一轮管理集中 (参见图 1)。此过程使我们能够改进合成电子邮件的主题和语言,从而帮助我们训练模型,以在电子邮件摘要等功能中创建更好的文本输出,同时保护隐私。
我们在创建合成数据以改进文本生成时应用的核心隐私保护与用于 Genmoji 的保护非常相似。只有选择发送设备分析信息给 Apple 的用户才会参与。抽样电子邮件的内容永远不会离开设备,也不会与 Apple 共享。参与设备只会发送一个信号,表明哪个变体最接近设备上的抽样数据,并且 Apple 了解哪些选定的合成电子邮件在所有设备上选择得最多,而不是任何单个设备选择了哪个嵌入。Genmoji 中使用的相同系统也用于此处,以确定适当的噪声量,并仅与 Apple 共享聚合统计信息。由于这些保护措施,Apple 可以构建反映聚合趋势的合成数据,而无需收集或读取任何用户电子邮件内容。然后,可以使用此合成数据在更具代表性的数据上测试我们模型的质量,并确定摘要等功能的改进领域。
如上所述,我们在 beta 软件版本中使用合成数据来改进电子邮件中的文本生成。我们很快将开始与选择加入设备分析的用户一起使用合成数据来改进电子邮件摘要。
结论
凭借我们多年使用 differential privacy 等技术的经验,以及诸如合成数据生成之类的新技术,我们能够在使用户选择加入设备分析程序时改进 Apple Intelligence 功能,同时保护用户隐私。这些技术使 Apple 能够了解总体趋势,而无需了解任何个人的信息,例如他们使用的提示或电子邮件的内容。随着我们不断推进机器学习和 AI 的最新技术以增强我们的产品体验,我们将继续致力于开发和实施尖端技术来保护用户隐私。
相关阅读和更新。
在 Apple 生态系统中结合机器学习和同态加密
在 Apple,我们相信隐私是一项基本人权。我们保护用户隐私的工作受到一系列隐私原则的指导,其中一项原则是优先使用设备端处理。通过在用户的设备上本地执行计算,我们有助于最大限度地减少与 Apple 或其他实体共享的数据量。当然,用户可能会请求由机器学习 (ML) 提供支持的设备端体验,这些体验可以得到丰富…… 查看高亮详细信息
推出 Apple 的设备端和服务器基础模型
在 2024 年的 Worldwide Developers Conference 上,我们推出了 Apple Intelligence,这是一种深入集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中的个人智能系统。
Apple Intelligence 由多个功能强大的生成模型组成,这些模型专门用于用户日常任务,并且可以根据用户的当前活动进行即时调整。内置于 Apple Intelligence 中的基础模型已经过微调,可用于用户体验,例如编写和改进文本、确定通知的优先级和摘要、为与家人和朋友的对话创建有趣图像,以及执行应用内操作以简化跨应用的交互。 查看高亮详细信息
探索机器学习的机会。
我们在机器学习方面的研究每天都在取得新突破。 与我们合作