推理效率重定义!腾讯推出“Hunyuan-T1”——首个 Mamba 驱动的超大模型

日期:2025-03-21

介绍

强化学习开创了大型语言模型后训练阶段的新扩展范式,这一突破正日益受到业界的关注。随着 OpenAI 的 O 系列模型和 DeepSeek R1 的相继发布,这些模型所展示的出色性能充分证明了强化学习在优化过程中的关键作用。

今年 2 月中旬,Hunyuan 团队在腾讯 Yuanbao APP 上推出了基于中等规模 Hunyuan 基座的 Hunyuan T1-Preview (Hunyuan-Thinker-1-Preview) 推理模型,为用户带来了极致且快速的深度思考体验。

今天,我们非常高兴地宣布,Hunyuan 大型模型系列的深度思考模型已成功升级到 Hunyuan-T1 官方版本。该模型基于 TurboS 快速思考基座,这是我们在 3 月初发布的世界首个超大规模 Hybrid-Transformer-Mamba MoE 大型模型。通过大规模的后训练,其推理能力得到了显著扩展,并进一步与人类偏好对齐。

与之前的 T1-preview 模型相比,Hunyuan-T1 在整体性能上有了显著提升,是行业领先的尖端强推理大型模型。

基于 TurboS,T1 在深度推理方向上展现出独特的优势。TurboS 的长文本捕获能力有助于 TurboS 有效解决长文本推理中经常遇到的上下文丢失和长距离信息依赖问题。其次,其 Mamba 架构专门优化了长序列的处理能力。通过高效的计算方法,它可以在确保捕获长文本信息能力的同时,显著降低计算资源的消耗。在相同的部署条件下,解码速度提高了 2 倍。

在模型的后训练阶段,我们将 96.7% 的计算能力投入到强化学习训练中,专注于提高纯推理能力和优化与人类偏好的对齐。

我们收集了世界科学和推理问题,涵盖数学/逻辑推理/科学/代码等。这些数据集涵盖了从基本数学推理到复杂科学问题解决的所有内容。结合 ground-truth 真实反馈,我们确保模型在面对各种推理任务时都能展现出卓越的能力。

在训练计划方面,我们采用了课程学习方法,逐步增加数据难度,同时逐步扩展模型的上下文长度,使模型在提高推理能力的同时,学习高效地使用 tokens 进行推理。

关于训练策略,我们参考了经典强化学习策略,如数据回放和周期性策略重置,这显著提高了模型训练的长期稳定性超过 50%。在与人类偏好对齐的阶段,我们采用了统一的奖励系统反馈方案,即自我奖励(基于早期版本的 T1-preview 对模型输出进行全面评估和评分)+ 奖励模式,引导模型自我提升。模型在响应中显示出更丰富的内容细节和更有效的信息。

除了在 MMLU-pro、CEval、AIME、Zebra Logic 等各种公共基准以及其他中英文知识和竞赛级数学与逻辑推理指标上取得与 R1 相当或略好的结果之外,Hunyuan-T1 在内部人工评估数据集上的表现也与 R1 相当。在文化和创意指令遵循、文本摘要和代理能力方面略有优势。

从综合评估指标来看,Hunyuan-T1 的整体性能可以与一流的尖端推理模型相媲美。在综合能力评估方面,T1 在 MMLU-PRO 上仅次于 O1,获得了 87.2 的高分。该测试集涵盖了人文、社会科学、科学和工程等 14 个领域的题目,主要测试模型对广泛知识的记忆和理解。此外,还有 GPQA-diamond,它专注于专业领域知识和复杂的科学推理,主要包括物理、化学和生物学领域的博士级难题。T1 取得了 69.3 的分数。

在科学和工程领域,我们测试了需要强大推理能力的场景,如编码、数学和逻辑推理。在 LiveCodeBench 的代码评估中,T1 达到了 64.9 的分数。同时,T1 在数学方面也表现出色。特别是在 MATH-500 上,它取得了 96.2 的优异成绩,紧随 DeepSeek R1 之后,展示了 T1 在解决数学问题方面的综合能力。此外,T1 在多项对齐任务、指令遵循任务和工具利用任务中表现出非常强的适应性。例如,T1 在 ArenaHard 任务中取得了 91.9 的分数。

模型效果

注:表中其他模型的评估指标来自官方评估结果。对于官方评估结果中未包含的部分,来自 Hunyuan 内部评估平台的结果。

Previous Privacy Policy, Terms of Use. Copyright © 1998 - 2025 Tencent. All Rights Reserved. Tencent Corporation Limited.