Teuken-7B-Base 和 Teuken-7B-Instruct:迈向欧洲 LLM 的一步
arXiv:2410.03730 (cs) [提交于 2024 年 9 月 30 日 (v1), 最近修订于 2024 年 10 月 15 日 (此版本,v2)]
标题: Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs
作者:Mehdi Ali 等 39 位作者
摘要:我们提出了两个多语言 LLM,旨在支持欧盟所有 24 种官方语言,从而拥抱欧洲的语言多样性。 我们的模型在包含约 60% 非英语数据的数集上进行训练,并利用自定义的多语言 tokenizer,解决了现有 LLM 主要关注英语或少数高资源语言的局限性。 我们详细介绍了模型的发展原则,即数据组成、tokenizer 优化和训练方法。 这些模型在多语言基准测试中表现出竞争优势,它们在欧洲版本的 ARC, HellaSwag, MMLU 和 TruthfulQA 上的表现就证明了这一点。 主题:| 计算与语言 (cs.CL); 人工智能 (cs.AI); 机器学习 (cs.LG) ---|--- 引用为:| arXiv:2410.03730 [cs.CL] (或 arXiv:2410.03730v2 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2410.03730 Focus to learn more arXiv-issued DOI via DataCite
提交历史
来自:Mehdi Ali [查看电子邮件] [v1] 2024 年 9 月 30 日星期一 16:05:38 UTC (391 KB) [v2] 2024 年 10 月 15 日星期二 17:09:40 UTC (4,358 KB) 全文链接:
访问论文:
查看 Mehdi Ali 和其他 38 位作者题为“Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs”的论文的 PDF 文件