Teuken-7B-Base 和 Teuken-7B-Instruct：迈向欧洲 LLM 的一步

Teuken-7B-Base and Teuken-7B-Instruct: Towards European LLMs

Source | HN Comments

文章介绍了两个多语言 LLM：Teuken-7B-Base 和 Teuken-7B-Instruct，旨在支持欧盟所有 24 种官方语言。这两个模型在包含约 60% 非英语数据的多语言数据集上训练，并使用自定义多语言 tokenizer。文章详细阐述了模型的数据组成、tokenizer 优化和训练方法。结果表明，这些模型在欧洲版本的 ARC, HellaSwag, MMLU 和 TruthfulQA 等多语言基准测试中表现出色，解决了现有 LLM 侧重英语或少数高资源语言的局限性。

arXiv:2410.03730 (cs) [提交于 2024 年 9 月 30 日 (v1), 最近修订于 2024 年 10 月 15 日 (此版本，v2)]

标题: Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs

作者：Mehdi Ali 等 39 位作者

查看 PDF HTML (实验性)

摘要：我们提出了两个多语言 LLM，旨在支持欧盟所有 24 种官方语言，从而拥抱欧洲的语言多样性。我们的模型在包含约 60% 非英语数据的数集上进行训练，并利用自定义的多语言 tokenizer，解决了现有 LLM 主要关注英语或少数高资源语言的局限性。我们详细介绍了模型的发展原则，即数据组成、tokenizer 优化和训练方法。这些模型在多语言基准测试中表现出竞争优势，它们在欧洲版本的 ARC, HellaSwag, MMLU 和 TruthfulQA 上的表现就证明了这一点。主题：| 计算与语言 (cs.CL); 人工智能 (cs.AI); 机器学习 (cs.LG) ---|--- 引用为：| arXiv:2410.03730 [cs.CL] (或 arXiv:2410.03730v2 [cs.CL] 对于此版本) https://doi.org/10.48550/arXiv.2410.03730 Focus to learn more arXiv-issued DOI via DataCite

提交历史

来自：Mehdi Ali [查看电子邮件] [v1] 2024 年 9 月 30 日星期一 16:05:38 UTC (391 KB) [v2] 2024 年 10 月 15 日星期二 17:09:40 UTC (4,358 KB) 全文链接：

访问论文：

查看 Mehdi Ali 和其他 38 位作者题为“Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs”的论文的 PDF 文件