INTELLECT-2 发布:首个通过全球分布式强化学习训练的 32B 参数模型

我们很高兴发布 INTELLECT-2,这是首个通过全球分布式强化学习训练的 32B 参数模型。与传统的中心化训练方法不同,INTELLECT-2 使用完全异步的 RL,在一个动态的、异构的、无需许可的计算贡献者集群上训练一个推理语言模型。

为了支持这种独特的基础设施上的训练,我们从头构建了各种组件:我们推出了 PRIME-RL,这是一个专为分布式异步强化学习而设计的训练框架,它基于诸如 TOPLOC (验证来自不受信任的推理工作者的 rollout) 和 SHARDCAST (有效地将策略权重从训练节点广播到推理工作者) 等创新组件。

除了基础设施组件,我们还提出了对标准 GRPO 训练方案和数据过滤技术的修改,这些修改对于实现训练稳定性和确保我们的模型成功学习其训练目标至关重要,从而改进了 QwQ-32B。

我们将 INTELLECT-2 以及我们的代码和数据开源,希望能促进去中心化训练领域的更多开放研究。

去中心化训练的范式转变

使用强化学习进行测试时计算扩展已成为大型语言模型 (LLM) 的一个新扩展维度,它允许模型花费更多时间进行推理,从而实现改进。

然而,强化学习训练通常是中心化的,需要大型的、位于同一地点的 GPU 集群和快速的互连速度。借助 INTELLECT-2,我们展示了一种范式转变:强化学习本质上更加异步,并且非常适合去中心化的、全球分布式的计算。

训练基础设施

我们介绍了以下用于训练 INTELLECT-2 的关键开源基础设施组件:

训练方案

实验

我们报告了两个主要实验的结果:TARGET-SHORT,这是一个使用短目标长度训练高效推理模型的实验运行;以及 TARGET-LONG,我们使用较长目标长度的主运行。

未来工作

INTELLECT-2 是朝着以去中心化方式训练的开放前沿推理模型迈出的第一步。在接下来的几个月里,我们将致力于:

查看技术报告以了解更多详细信息:primeintellect.ai/intellect-2

加入我们

INTELLECT-2 证明了全球去中心化 RL 是可行的。现在,我们专注于工具辅助推理、众包更高质量的数据以及优化我们的基础设施和训练方案,以构建前沿开放模型。

如果您想与我们一起构建开源和去中心化的 AGI,请加入我们。