多 Token Attention 机制研究
arXiv:2504.00927 (cs) [2025年4月1日提交]
标题: Multi-Token Attention
作者: Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar
查看由Olga Golovneva 和其他三位作者撰写的题为Multi-Token Attention的论文的PDF HTML (实验性)
摘要: Soft attention 是驱动 LLM 在给定上下文中定位相关部分的关键机制。 然而,单个 attention 权重仅由单个 query 和 key token 向量的相似性决定。 这种“single token attention” 限制了用于区分相关部分与上下文其余部分的信息量。 为了解决这个问题,我们提出了一种新的 attention 方法,即 Multi-Token Attention (MTA),它允许 LLM 同时基于多个 query 和 key 向量来调节它们的 attention 权重。 这是通过对 query、key 和 head 应用卷积操作来实现的,允许附近的 query 和 key 相互影响彼此的 attention 权重,从而实现更精确的 attention。 因此,我们的方法可以使用更丰富、更细致的信息来定位相关上下文,这些信息可以超过单个向量的容量。 通过广泛的评估,我们证明 MTA 在一系列流行的基准测试中实现了增强的性能。 值得注意的是,它在标准语言建模任务以及需要在长上下文中搜索信息的任务上优于 Transformer 基线模型,在这些任务中,我们提出的方法利用更丰富信息的能力被证明特别有益。
主题: | 计算与语言 (cs.CL) ---|--- 引用为: | arXiv:2504.00927 [cs.CL] (或 arXiv:2504.00927v1 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2504.00927 通过 DataCite 获取更多 arXiv 发布的 DOI (待注册)
提交历史
来自: Olga Golovneva [查看 email] [v1] 2025年4月1日星期二 15:59:32 UTC (2,692 KB)