Meta

Large Language Model

Llama 4 模型家族:原生多模态 AI 创新的新纪元

2025年4月5日 • 12 分钟阅读

关键要点

随着越来越多的人继续使用人工智能来增强他们的日常生活,领先的模型和系统能够公开可用非常重要,这样每个人都可以构建个性化体验的未来。今天,我们很高兴地宣布支持整个 Llama 生态系统的最先进的模型套件。我们正在推出 Llama 4 Scout 和 Llama 4 Maverick,这是首批具有前所未有的上下文长度支持的开源原生多模态模型,也是我们首批使用专家混合 (MoE) 架构构建的模型。我们还在预览 Llama 4 Behemoth,它是世界上最智能的 LLM 之一,也是我们迄今为止最强大的模型,可作为我们新模型的老师。

这些 Llama 4 模型标志着 Llama 生态系统新纪元的开始。我们在 Llama 4 系列中设计了两种高效的模型,Llama 4 Scout,一个拥有 16 个专家的 170 亿活跃参数模型,以及 Llama 4 Maverick,一个拥有 128 个专家的 170 亿活跃参数模型。前者安装在单个 H100 GPU(具有 Int4 量化)上,而后者安装在单个 H100 主机上。我们还训练了一个教师模型 Llama 4 Behemoth,它在专注于 STEM 的基准测试(如 MATH-500 和 GPQA Diamond)上优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。虽然我们尚未发布 Llama 4 Behemoth,因为它仍在训练中,但我们很高兴分享有关我们方法的更多技术细节。

我们仍然相信,开放性能够推动创新,对开发者、对 Meta 以及对世界都有好处。我们今天在 llama.comHugging Face 上提供 Llama 4 Scout 和 Llama 4 Maverick 的下载,以便每个人都可以继续使用我们的最新技术构建新的体验。我们还将在未来几天内通过我们的合作伙伴提供它们。您还可以从今天开始在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上试用带有 Llama 4 的 Meta AI。

这仅仅是 Llama 4 系列的开始。我们认为,最智能的系统需要能够采取广义的行动,与人类自然地交谈,并解决他们以前从未见过的具有挑战性的问题。在这些领域为 Llama 提供超能力将为我们平台上的用户带来更好的产品,并为开发人员提供更多机会来创新下一个大型消费者和业务用例。我们将继续研究和原型化模型和产品,我们将在 4 月 29 日的 LlamaCon 上分享更多关于我们愿景的信息—— 注册以了解更多信息

无论您是构建在我们的模型之上的开发人员,还是将它们集成到您的工作流程中的企业,或者只是对 AI 的潜在用途和好处感到好奇,Llama 4 Scout 和 Llama 4 Maverick 都是为您的产品添加下一代智能的最佳选择。今天,我们很高兴分享更多关于其开发的四个主要部分的信息,并深入了解我们的研究和设计过程。我们也很期待看到社区使用我们的新 Llama 4 模型构建的令人难以置信的新体验。

预训练

这些模型代表了 Llama 的精华,以极具吸引力的价格提供多模态智能,同时优于尺寸更大的模型。构建下一代 Llama 模型需要我们在预训练期间采用几种新方法。

我们的新 Llama 4 模型是我们首批使用专家混合 (MoE) 架构的模型。在 MoE 模型中,单个 token 仅激活总参数的一小部分。对于训练和推理,MoE 架构的计算效率更高,并且在给定的固定训练 FLOPs 预算下,与密集模型相比,可提供更高的质量。

例如,Llama 4 Maverick 模型具有 17B 个活跃参数和 400B 个总参数。我们使用交替的密集层和专家混合 (MoE) 层来实现推理效率。 MoE 层使用 128 个路由专家和一个共享专家。每个 token 都被发送到共享专家,也被发送到 128 个路由专家之一。因此,虽然所有参数都存储在内存中,但在服务这些模型时仅激活总参数的一个子集。这通过降低模型服务成本和延迟来提高推理效率 - Llama 4 Maverick 可以在单个 H100 DGX 主机上运行以方便部署,或者可以使用分布式推理以实现最大效率。

Llama 4 模型采用原生多模态设计,结合了早期融合,可将文本和视觉 token 无缝集成到统一的模型主干中。早期融合是一大进步,因为它使我们能够使用大量未标记的文本、图像和视频数据联合预训练模型。我们还改进了 Llama 4 中的视觉编码器。这基于 MetaCLIP,但与冻结的 Llama 模型结合单独训练,以更好地使编码器适应 LLM。

我们开发了一种新的训练技术,我们将其称为 MetaP,它使我们能够可靠地设置关键模型超参数,例如每层学习率和初始化比例。我们发现,选择的超参数可以在不同的批量大小、模型宽度、深度和训练 token 值之间很好地传递。 Llama 4 通过在 200 种语言上进行预训练(包括超过 100 种语言,每种语言超过 10 亿个 token),以及总体上比 Llama 3 多 10 倍的多语言 token,从而支持开源微调工作。

此外,我们专注于高效的模型训练,使用 FP8 精度,而不会牺牲质量并确保高模型 FLOPs 利用率 - 在使用 FP8 和 32K GPU 预训练我们的 Llama 4 Behemoth 模型时,我们实现了 390 TFLOPs/GPU。训练的总体数据混合包括超过 30 万亿个 token,这比 Llama 3 预训练混合多一倍以上,并且包括各种文本、图像和视频数据集。

我们继续在所谓的“中期训练”中训练模型,以使用新的训练方法(包括使用专门数据集的长上下文扩展)来提高核心功能。这使我们能够在提高模型质量的同时,还为 Llama 4 Scout 解锁了同类最佳的 10M 输入上下文长度。

对我们的新模型进行后训练

我们最新的模型包括更小和更大的选项,以适应各种用例和开发人员需求。 Llama 4 Maverick 在图像和文本理解方面提供了无与伦比的行业领先性能,从而可以创建弥合语言障碍的复杂 AI 应用程序。作为我们用于通用助手和聊天用例的产品主力模型,Llama 4 Maverick 非常适合精确的图像理解和创意写作。

在对 Llama 4 Maverick 模型进行后训练时,最大的挑战是在多个输入模态、推理和对话能力之间保持平衡。对于混合模态,我们提出了一种精心策划的课程策略,与单个模态专家模型相比,不会降低性能。对于 Llama 4,我们通过采用不同的方法来改进我们的后训练管道:轻量级监督微调 (SFT) > 在线强化学习 (RL) > 轻量级直接偏好优化 (DPO)。一个关键的教训是,SFT 和 DPO 可能会过度约束模型,限制在线 RL 阶段的探索,并导致次优的准确性,尤其是在推理、编码和数学领域。为了解决这个问题,我们删除了超过 50% 的被 Llama 模型标记为简单的数据,并对剩余的更难的集合进行了轻量级 SFT。在随后的多模态在线 RL 阶段,通过仔细选择更难的提示,我们能够在性能上取得阶跃式变化。此外,我们实施了一种连续在线 RL 策略,我们交替训练模型,然后使用它来持续过滤和仅保留中等到高难度的提示。事实证明,这种策略在计算和准确性权衡方面非常有利。然后,我们进行了轻量级 DPO 来处理与模型响应质量相关的极端情况,有效地实现了模型智能和对话能力之间的良好平衡。管道架构和具有自适应数据过滤的连续在线 RL 策略最终都创造了一个行业领先的通用聊天模型,具有最先进的智能和图像理解能力。

作为通用 LLM,Llama 4 Maverick 包含 170 亿个活跃参数、128 个专家和 4000 亿个总参数,与 Llama 3.3 70B 相比,以更低的价格提供高质量。 Llama 4 Maverick 是同类最佳的多模态模型,在编码、推理、多语言、长上下文和图像基准测试中超过了类似的 GPT-4o 和 Gemini 2.0 等模型,并且在编码和推理方面与更大的 DeepSeek v3.1 具有竞争力。

我们较小的模型 Llama 4 Scout 是一个通用模型,具有 170 亿个活跃参数、16 个专家和 1090 亿个总参数,可提供同类最先进的性能。 Llama 4 Scout 显著增加了支持的上下文长度,从 Llama 3 中的 128K 增加到行业领先的 1000 万个 token。这开启了一个充满可能性的世界,包括多文档摘要、解析广泛的用户活动以实现个性化任务以及推理庞大的代码库。

Llama 4 Scout 使用 256K 上下文长度进行预训练和后训练,这使基础模型具有高级长度泛化能力。我们在诸如使用“大海捞针检索”进行文本检索以及超过 1000 万个代码 token 的累积负对数似然 (NLL) 等任务中展示了引人注目的结果。 Llama 4 架构的一个关键创新是使用交错的注意力层 没有位置嵌入。此外,我们采用注意力的 推理时温度缩放来增强长度泛化。我们称之为 iRoPE 架构,其中“i”代表“交错”注意力层,突出显示支持“无限”上下文长度的长期目标,而“RoPE”指的是 旋转位置嵌入 用于大多数层。

我们训练了我们的两个模型,使用了各种图像和视频帧剧照,以便让他们能够广泛了解视觉,包括时间活动和相关图像。这使得能够在多图像输入上与文本提示一起轻松交互,以进行视觉推理和理解任务。这些模型在最多 48 张图像上进行了预训练,并且我们已经在后训练中测试了最多 8 张图像,取得了良好的效果。

Llama 4 Scout 也是图像接地的同类最佳,能够将用户提示与相关的视觉概念对齐,并将模型响应锚定到图像中的区域。这使得 LLM 可以更精确地进行视觉问答,以更好地理解用户的意图并定位感兴趣的对象。 Llama 4 Scout 在编码、推理、长上下文和图像基准测试中也超过了类似的模型,并且提供了比以前的所有 Llama 模型更强大的性能。

这些新模型是重要的构建块,将有助于实现人际连接的未来。为了保持我们对开源的承诺,我们将 Llama 4 Maverick 和 Llama 4 Scout 提供在 llama.com 和 Hugging Face 上下载,并将在最广泛使用的云和数据平台、边缘芯片和全球服务集成商中提供。

将 Llama 推向新的规模:2T Behemoth

我们很高兴分享 Llama 4 Behemoth 的预览,Llama 4 Behemoth 是一个教师模型,展示了同类模型中的高级智能。 Llama 4 Behemoth 也是一个多模态专家混合模型,具有 288B 个活跃参数、16 个专家和近 2 万亿个总参数。它为数学、多语言和图像基准测试的非推理模型提供最先进的性能,是教授较小的 Llama 4 模型的完美选择。我们从 Llama 4 Behemoth 中共同蒸馏了 Llama 4 Maverick 模型作为教师模型,从而在终端任务评估指标中实现了实质性的质量改进。我们开发了一种新颖的蒸馏损失函数,该函数通过训练动态地权衡软目标和硬目标。在预训练期间从 Llama 4 Behemoth 进行共同蒸馏可以分摊资源密集型前向传递的计算成本,这些前向传递需要计算学生训练中使用的大部分训练数据的蒸馏目标。对于学生训练中包含的其他新数据,我们在 Behemoth 模型上运行了前向传递以创建蒸馏目标。

对具有 2 万亿个参数的模型进行后训练也是一个重大挑战,需要我们从数据规模开始,彻底改革和改进配方。为了最大限度地提高性能,我们必须修剪 95% 的 SFT 数据,而不是较小模型的 50%,才能实现必要的质量和效率关注。我们还发现,进行轻量级 SFT,然后进行大规模强化学习 (RL) 可以更大程度地提高模型的推理和编码能力。我们的 RL 配方侧重于通过使用策略模型执行 pass@k 分析并制作增加提示硬度的训练课程来采样硬提示。我们还发现,动态过滤掉训练期间具有零优势的提示并构建具有来自多个能力的混合提示的训练批次,对于提高数学、推理和编码的性能起着重要作用。最后,从各种系统指令中进行采样对于确保模型保留其推理和编码的指令遵循能力并能够在各种任务中表现良好至关重要。

由于其空前的规模,扩展具有 2 万亿个参数的 RL 模型还需要改进我们的底层 RL 基础设施。我们优化了 MoE 并行化的设计以提高速度,从而加快了迭代速度。我们开发了一个完全异步的在线 RL 训练框架,该框架增强了灵活性。与现有的分布式训练框架(牺牲计算内存以将所有模型堆叠在内存中)相比,我们的新基础设施能够灵活地将不同的模型分配给单独的 GPU,从而根据计算速度在多个模型之间平衡资源。与前几代相比,这种创新使训练效率提高了约 10 倍。

安全措施和保护

我们的目标是开发最有用和最有帮助的模型,同时防止和减轻最严重的风险。我们使用我们的开发者使用指南:AI 保护中概述的最佳实践构建了 Llama 4。这包括在模型开发的每一层集成缓解措施,从预训练到后训练,再到可调系统级缓解措施,从而保护开发人员免受对抗用户的侵害。通过这样做,我们使开发人员能够为他们的 Llama 支持的应用程序创建有用、安全和适应性强的体验。

预训练和后训练缓解措施

对于预训练,我们使用数据过滤与其他数据缓解措施相结合来保护模型。对于后训练,我们应用一系列技术来确保我们的模型符合对用户和开发人员有帮助的策略,包括在每个阶段提供正确级别的安全数据。

系统级方法

在系统级别,我们开源了几种安全措施,可以帮助识别和防范潜在有害的输入和输出。这些工具可以集成到我们的 Llama 模型和与其他第三方工具一起使用:

我们从开发人员那里了解到,当这些工具可以根据他们的应用程序进行定制时,它们是最有效和最有帮助的。我们为开发人员提供了一个开放的解决方案,以便他们可以根据自己的需求创建最安全和最有效的体验。我们还将继续与全球合作伙伴合作,创建使开源社区受益的行业范围的系统标准。

评估和红队演练

我们以可控和可重复的方式对各种场景和用例中的模型进行系统测试。这将生成我们重新纳入后训练的数据。

我们使用跨一系列主题的对抗性动态探测,通过自动化和手动测试来对我们的模型进行压力测试。我们在理解和评估潜在的模型风险方面取得了进展。这方面的一个例子是我们新开发的生成式攻击代理测试 (GOAT)。通过使用 GOAT,我们模拟中等技能对抗性参与者的多回合交互来解决传统红队演练的局限性,从而帮助我们提高测试覆盖率并更快地发现漏洞。通过将自动化添加到我们的测试工具包中,GOAT 使我们专业的红队演练人员能够专注于更新颖的对抗性领域,而自动化则专注于已知风险领域。这使得该过程更加高效和有效,并且使我们能够构建更好的风险定量和定性图景。

解决 LLM 中的偏见

众所周知,所有领先的 LLM 都存在偏见问题——具体来说,它们在有争议的政治和社会话题上历史上都倾向于左翼。这是由于互联网上可用的训练数据的类型造成的。

我们的目标是从我们的 AI 模型中消除偏见,并确保 Llama 可以理解和阐明有争议问题的双方。作为这项工作的一部分,我们将继续使 Llama 更加响应灵敏,以便它可以回答问题,可以响应各种不同的观点而不进行判断,并且不会偏袒某些观点而不是其他观点。

我们在本次发布中对这些工作进行了改进 - Llama 4 的表现明显优于 Llama 3,并且与 Grok 相当:

我们对迄今为止取得的进展感到自豪,并将继续致力于实现消除模型中总体偏见的目标。

探索 Llama 生态系统

虽然模型智能化很重要,但人们也希望模型能够以个性化的方式以类似人类的速度回复。作为我们迄今为止最先进的模型,Llama 4 经过优化以满足这些需求。

当然,模型是将这些体验变为现实的更大生态系统的一部分。我们专注于完整的堆栈,其中包括新的产品集成。我们很高兴继续与我们的合作伙伴和开源社区进行的对话,并且与往常一样,我们迫不及待地看到人们在新的 Llama 生态系统中构建的丰富体验。

立即在 llama.comHugging Face 上下载 Llama 4 Scout 和 Llama 4 Maverick 模型。在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上试用使用 Llama 4 构建的 Meta AI。

这项工作得到了我们在 AI 社区中合作伙伴的支持。我们要感谢并感谢(按字母顺序排列):Accenture、Amazon Web Services、AMD、Arm、CentML、Cerebras、CloudFlare、Databricks、Deepinfra、DeepLearning.AI、Dell、Deloitte、Fireworks AI、Google Cloud、Groq、Hugging Face、IBM Watsonx、Infosys、Intel、Kaggle、Mediatek、Microsoft Azure、Nebius、NVIDIA、ollama、Oracle Cloud、PwC、Qualcomm、Red Hat、SambaNova、Sarvam AI、Scale AI、Scaleway、Snowflake、TensorWave、Together AI、vLLM、Wipro。

加入我们,追求 AI 的可能性。

查看所有空缺职位

相关帖子

![](https://scontent-atl3-2.xx.fbcdn.net/v/t39.2365-6/480457472_530944076174486_7354825982659691759_n.png?_nc_cat=104&ccb=1-7&_nc_sid=e280be&_nc_ohc=3nPoNkfSjMsQ7kNvwFKPuiO&_nc_oc=AdmH5zr_2LpchO07cpjttiAlgRNDy6Gz9jwyolEzo11EKOZnkubrfoPtb3G4e3O2en8&_nc_zt=14&_nc_ht=scontent-atl3-2.xx&_nc_gid=3u1rIOuaFrSuNEy9PTgHMQ&oh