arXiv:2412.09871 (cs) [于 2024 年 12 月 13 日提交]

作者:Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer

摘要:我们介绍了 Byte Latent Transformer (BLT),这是一种新的字节级 LLM 架构,它首次在规模上匹配了基于 tokenization 的 LLM 性能,并在推理效率和鲁棒性方面实现了显著改进。BLT 将字节编码为动态大小的 patches,这些 patches 作为主要的计算单元。Patches 的分割基于下一个字节的熵,在数据复杂性增加的地方分配更多的计算和模型容量。我们提出了第一个 FLOP 控制的字节级模型扩展研究,参数高达 8B,训练字节高达 4T。我们的结果证明了在没有固定词汇表的情况下扩展在原始字节上训练的模型的可能性。由于在数据可预测时动态选择长 patches,训练和推理效率都得到了提高,同时在推理和长尾泛化方面也得到了质的改进。总的来说,对于固定的推理成本,BLT 通过同时增加 patch 和模型大小,显示出比基于 tokenization 的模型更好的扩展性。

主题:| 计算与语言 (cs.CL) ---|--- 引用为:| arXiv:2412.09871 [cs.CL] (或 arXiv:2412.09871v1 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2412.09871 通过 DataCite 深入了解 arXiv 发布的 DOI