Computer Science > Computation and Language

arXiv:2407.12034 (cs) [提交于 2024年6月30日 (v1), 最近修订于 2024年11月5日 (此版本, v2)]

Title:Understanding Transformers via N-gram Statistics

Authors:Timothy Nguyen

Abstract:基于 Transformer 的大型语言模型 (LLM) 在语言方面表现出极高的能力,但对其工作原理的精确理解仍然难以捉摸。一种揭示 Transformer 预测神秘性的方法是,用简单的模板函数来描述它们如何依赖于上下文。本文朝着这个方向迈出了第一步,考虑由训练数据的简单 N-gram 统计形成的函数族(即规则)。通过研究这些规则集与 Transformer 预测的近似程度,我们获得了一系列新的发现:一种在训练期间检测过拟合的简单方法,无需使用保留集;一种定量测量 Transformer 如何在训练过程中从学习简单到更复杂的统计规则的指标;一个模型方差标准,用于衡量 Transformer 预测何时倾向于由 N-gram 规则描述;以及关于 Transformer 在 N-gram 规则集变得越来越复杂时,如何被 N-gram 规则集近似的洞察。在后一个方向上,我们发现对于 TinyStories 和 Wikipedia 上 LLM 的 79% 和 68% 的下一个 token 分布,它们的前 1 个预测与我们的 N-gram 规则集提供的预测一致。 Comments: | NeurIPS 2024. 数据集和 N-gram 统计数据已开源: this https URL ---|--- Subjects: | Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG) Cite as: | arXiv:2407.12034 [cs.CL] (or arXiv:2407.12034v2 [cs.CL] for this version) https://doi.org/10.48550/arXiv.2407.12034 Focus to learn more arXiv-issued DOI via DataCite

Submission history

From: Timothy Nguyen [view email] [v1] Sun, 30 Jun 2024 22:18:49 UTC (2,496 KB) [v2] Tue, 5 Nov 2024 10:24:42 UTC (3,325 KB)