INTELLECT-2 发布：首个通过全球分布式 RL 训练的 32B 模型

Intellect-2 Release: The First 32B Model Trained Through Globally Distributed RL

Source | HN Comments

INTELLECT-2 是首个通过全球分布式强化学习训练的 32B 参数模型。它采用完全异步的 RL，在动态、异构的计算集群上训练推理语言模型。为了实现去中心化训练，文章介绍了 PRIME-RL 框架、SHARDCAST 和 TOPLOC 等关键组件，并改进了 GRPO 训练方案和数据过滤技术。实验结果表明模型在数学和编码任务上有所提升。文章开源了 INTELLECT-2 及相关代码和数据，并展望了未来工作，包括增加推理计算比例、工具调用、众包 RL 任务等，旨在推动去中心化 AI 的发展。

INTELLECT-2 发布：首个通过全球分布式强化学习训练的 32B 参数模型

我们很高兴发布 INTELLECT-2，这是首个通过全球分布式强化学习训练的 32B 参数模型。与传统的中心化训练方法不同，INTELLECT-2 使用完全异步的 RL，在一个动态的、异构的、无需许可的计算贡献者集群上训练一个推理语言模型。

为了支持这种独特的基础设施上的训练，我们从头构建了各种组件：我们推出了 PRIME-RL，这是一个专为分布式异步强化学习而设计的训练框架，它基于诸如 TOPLOC (验证来自不受信任的推理工作者的 rollout) 和 SHARDCAST (有效地将策略权重从训练节点广播到推理工作者) 等创新组件。

除了基础设施组件，我们还提出了对标准 GRPO 训练方案和数据过滤技术的修改，这些修改对于实现训练稳定性和确保我们的模型成功学习其训练目标至关重要，从而改进了 QwQ-32B。

我们将 INTELLECT-2 以及我们的代码和数据开源，希望能促进去中心化训练领域的更多开放研究。

详细技术报告：primeintellect.ai/intellect-2
Hugging Face 上的 INTELLECT-2
- 试用聊天界面：chat.primeintellect.ai
prime-rl：我们的异步 RL 框架

去中心化训练的范式转变

使用强化学习进行测试时计算扩展已成为大型语言模型 (LLM) 的一个新扩展维度，它允许模型花费更多时间进行推理，从而实现改进。

然而，强化学习训练通常是中心化的，需要大型的、位于同一地点的 GPU 集群和快速的互连速度。借助 INTELLECT-2，我们展示了一种范式转变：强化学习本质上更加异步，并且非常适合去中心化的、全球分布式的计算。

训练基础设施

我们介绍了以下用于训练 INTELLECT-2 的关键开源基础设施组件：

PRIME-RL：
- 完全异步的强化学习框架，专为去中心化训练而设计。将 rollout 生成、模型训练和权重广播分离。它支持跨异构、不可靠的网络进行训练。
- 训练器实现使用 PyTorch FSDP2，推理使用 vLLM，验证器使用 SYNTHETIC-1 中引入的 GENESYS 模式。
SHARDCAST：一个通过基于 HTTP 的树形拓扑网络分发大型文件的库，可有效地将更新后的模型权重传播到去中心化的推理工作者。
TOPLOC：
- 一种用于高效可验证推理的局部敏感哈希方案。它可以检测模型推理中的篡改或精度变化，并且可以在不确定的 GPU 硬件上可靠地工作。
- 推理工作者生成 rollout，这些 rollout 文件通过签名的 URL 上传，链上事件触发 TOPLOC 验证器来检查它们；被接受的文件输入到训练器，而无效的文件会被削减并将提交节点从池中移除。
Protocol Testnet：提供聚合和协调全球计算资源的 инфраструктура。
- 基于 Rust 的编排器和发现服务协调无需许可的工作者——节点自动注册并进行硬件检查、心跳检测，并在编排器安排工作负载、跟踪健康状况并记录池所有权和贡献时，拉取 Docker 容器任务。

训练方案

训练数据和奖励：
- 来自 NuminaMath-1.5, Deepscaler 和 SYNTHETIC-1 的 285k 个可验证任务 (数学和编码)。
- 二元任务奖励 + 长度奖励允许用户在推理时预算 thinking tokens。
两步异步 RL： 新策略权重的广播与正在进行的推理和训练完全重叠——消除了通信瓶颈。
双边 GRPO 裁剪： 通过双边 token 概率比率裁剪来缓解梯度峰值，从而稳定训练。
高级数据过滤： 结合离线和在线过滤来选择具有挑战性的任务，从而显着提高模型学习效率。
积极的梯度裁剪： 解决大规模梯度范数升级问题，提供更高的训练稳定性。

实验

我们报告了两个主要实验的结果：TARGET-SHORT，这是一个使用短目标长度训练高效推理模型的实验运行；以及 TARGET-LONG，我们使用较长目标长度的主运行。

计算利用率： 在两个主要实验中，我们通过两步异步强化学习成功地将通信与计算重叠。
奖励轨迹：
- 在整个训练过程中，我们看到了任务奖励的显着改善，这表明该模型提高了其在数学和编码问题上的表现。我们还看到了长度惩罚的减少，但比我们在消融实验中看到的要慢得多。
基准性能： 我们能够提高 QwQ-32B 在数学和编码基准测试中的性能。
总的来说，由于 QwQ-32B 已经通过 RL 进行了广泛的训练，因此除了我们在训练数据集上的改进之外，很难在基准测试中获得大量的普遍改进。为了看到更强的改进，可能需要更好的基础模型 (例如现在可用的 Qwen3) 或更高质量的数据集和 RL 环境。

未来工作

INTELLECT-2 是朝着以去中心化方式训练的开放前沿推理模型迈出的第一步。在接下来的几个月里，我们将致力于：

增加推理与训练计算的比率
- 推理是令人尴尬地并行的且无需通信，因此将更多 FLOP 用于推理的更复杂的 RL 环境非常适合去中心化训练。
工具调用和多轮 RL
- 为了充分利用推理时计算来进行科学和研究进展，我们需要在模型的推理链中构建内置工具——网络搜索、Python 解释器等。
众包 RL 任务和环境
- 我们相信开源在这里具有独特的优势。分布式 RL 仍处于早期阶段，通过正确的社区和贡献，开源 AI 可以超越封闭的实验室。
模型合并和 DiLoCo
- 融合独立训练的 RL 模型——无论是在最后还是通过 DiLoCo 持续进行——以创建一个单一的统一模型，将去中心化 RL 扩展到更多的计算。

查看技术报告以了解更多详细信息：primeintellect.ai/intellect-2

加入我们

INTELLECT-2 证明了全球去中心化 RL 是可行的。现在，我们专注于工具辅助推理、众包更高质量的数据以及优化我们的基础设施和训练方案，以构建前沿开放模型。

如果您想与我们一起构建开源和去中心化的 AGI，请加入我们。