arXiv:2410.03730 (cs) [提交于 2024 年 9 月 30 日 (v1), 最近修订于 2024 年 10 月 15 日 (此版本,v2)]

标题: Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs

作者:Mehdi Ali 等 39 位作者

查看 PDF HTML (实验性)

摘要:我们提出了两个多语言 LLM,旨在支持欧盟所有 24 种官方语言,从而拥抱欧洲的语言多样性。 我们的模型在包含约 60% 非英语数据的数集上进行训练,并利用自定义的多语言 tokenizer,解决了现有 LLM 主要关注英语或少数高资源语言的局限性。 我们详细介绍了模型的发展原则,即数据组成、tokenizer 优化和训练方法。 这些模型在多语言基准测试中表现出竞争优势,它们在欧洲版本的 ARC, HellaSwag, MMLU 和 TruthfulQA 上的表现就证明了这一点。 主题:| 计算与语言 (cs.CL); 人工智能 (cs.AI); 机器学习 (cs.LG) ---|--- 引用为:| arXiv:2410.03730 [cs.CL] (或 arXiv:2410.03730v2 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2410.03730 Focus to learn more arXiv-issued DOI via DataCite

提交历史

来自:Mehdi Ali [查看电子邮件] [v1] 2024 年 9 月 30 日星期一 16:05:38 UTC (391 KB) [v2] 2024 年 10 月 15 日星期二 17:09:40 UTC (4,358 KB) 全文链接:

访问论文:

查看 Mehdi Ali 和其他 38 位作者题为“Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs”的论文的 PDF 文件