arXiv:2504.12285 (cs) [2025年4月16日提交]

标题: BitNet b1.58 2B4T Technical Report

作者: Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei

查看由 Shuming Ma 和其他 7 位作者撰写的题为 BitNet b1.58 2B4T Technical Report 的论文的 PDF 版本。 查看PDF HTML (实验性)

摘要: 我们介绍了 BitNet b1.58 2B4T,这是首个开源的原生 1-bit 大语言模型 (LLM),规模达到 20 亿参数。该模型在包含 4 万亿个 token 的语料库上训练,并在涵盖语言理解、数学推理、编码能力和对话能力的基准测试中进行了严格评估。我们的结果表明,BitNet b1.58 2B4T 在性能上与类似规模的领先的开源、全精度 LLM 相当,同时在计算效率方面具有显着优势,包括显着减少的内存占用、能源消耗和解码延迟。为了方便进一步的研究和采用,模型权重通过 Hugging Face 发布,并提供适用于 GPU 和 CPU 架构的开源推理实现。

评论: | 工作进行中 ---|--- 主题: | 计算与语言 (cs.CL); 机器学习 (cs.LG) 引用为: | arXiv:2504.12285 [cs.CL] (或 arXiv:2504.12285v1 [cs.CL] 用于此版本) https://doi.org/10.48550/arXiv.2504.12285 通过 DataCite 了解更多关于 arXiv 发布的 DOI (等待注册)

提交历史

来自: Shuming Ma [查看邮件] [v1] 2025年4月16日 17:51:43 UTC (67 KB)

全文链接:

访问论文:

查看由 Shuming Ma 和其他 7 位作者撰写的题为 BitNet b1.58 2B4T Technical Report 的论文的 PDF 版本