arXiv:2504.05652 (cs) [提交于 2025 年 4 月 8 日]

标题:糖衣炮弹:良性生成解锁 LLM 越狱

作者:Yu-Hang Wu, Yu-Jie Xiong, Jie-Zhang

查看由 Yu-Hang Wu、Yu-Jie Xiong 和 Jie-Zhang 撰写的题为 Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking 的论文的 PDF 版本 查看 PDF HTML (实验性)

摘要:大型语言模型(LLMs)在各种应用中变得越来越重要。然而,它们仍然受到越狱攻击的威胁,攻击者通过精心设计的提示来操纵模型,使其产生恶意输出。分析越狱方法可以帮助我们深入了解 LLMs 的弱点并加以改进。在本文中,我们通过分析模型输出在输入上的注意力权重以及后续输出在先前输出上的注意力权重,揭示了大型语言模型(LLMs)中的一个漏洞,我们称之为防御阈值衰减(Defense Threshold Decay, DTD):随着模型生成大量良性内容,其注意力权重从输入转移到先前的输出,使其更容易受到越狱攻击。为了证明 DTD 的可利用性,我们提出了一种新的越狱攻击方法,即糖衣炮弹(Sugar-Coated Poison, SCP),该方法通过良性输入和对抗性推理诱导模型生成大量良性内容,随后产生恶意内容。为了减轻此类攻击,我们引入了一种简单而有效的防御策略,即 POSD,该策略在保留模型泛化能力的同时,显著降低了越狱成功率。 主题:| 密码学与安全 (cs.CR); 计算与语言 (cs.CL) ---|--- 引用方式:| arXiv:2504.05652 [cs.CR] (或 arXiv:2504.05652v1 [cs.CR] 对于此版本) https://doi.org/10.48550/arXiv.2504.05652 点击了解更多由 DataCite 发布的 arXiv DOI

提交历史

来自:Yuhang Wu Wu Yuhang [查看电子邮件] [v1] 2025 年 4 月 8 日星期二 03:57:09 UTC (1,885 KB) 全文链接:

访问论文:

查看由 Yu-Hang Wu、Yu-Jie Xiong 和 Jie-Zhang 撰写的题为 Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking 的论文的 PDF 版本