Skywork-OR1：全新 SOTA 32B 规模的开放权重推理模型

Skywork-OR1: new SOTA 32B thinking model with open weight

Source | HN Comments

该文章介绍了 `Skywork-OR1` 系列开放权重推理模型，包括 `Skywork-OR1-Math-7B`、`Skywork-OR1-32B-Preview` 和 `Skywork-OR1-7B-Preview`。这些模型在数学和代码推理方面表现出色，尤其 `Skywork-OR1-Math-7B` 在 AIME24 和 AIME25 上的表现优于同等规模模型。文章提供了模型权重、训练数据和代码的链接，并介绍了评估方法和快速开始的指南。

SkyworkAI/Skywork-OR1

main Branches Tags Go to file Code

Folders and files

Name| Name| Last commit message| Last commit date
---|---|---|---
.github/workflows| .github/workflows
assets| assets
docker| docker
docs| docs
examples| examples
or1_data/eval| or1_data/eval
or1_script| or1_script
patches| patches
scripts| scripts
tests| tests
verl| verl
.gitignore| .gitignore
.readthedocs.yaml| .readthedocs.yaml
.style.yapf| .style.yapf
LICENSE| LICENSE
Notice.txt| Notice.txt
README.md| README.md
pyproject.toml| pyproject.toml
ray_prepro.py| ray_prepro.py
requirements.txt| requirements.txt
setup.py| setup.py
View all files

🤔 Skywork-OR1 (Open Reasoner 1)

✊ 释放强化学习在数学和代码推理中的力量 🤖

🔥 最新动态

2025年4月13日：我们发布了 Skywork-OR1(Open Reasoner 1) 系列模型，包括 Skywork-OR1-Math-7B，Skywork-OR1-32B-Preview 和 Skywork-OR1-7B-Preview。我们开源了：
- 🤗 模型权重: Skywork-OR1-Math-7B(https://huggingface.co/Skywork/Skywork-OR1-Math-7B), Skywork-OR1-32B-Preview(https://huggingface.co/Skywork/Skywork-OR1-32B-Preview), Skywork-OR1-7B-Preview(https://huggingface.co/Skywork/Skywork-OR1-7B-Preview)
- 🤗 训练数据: Skywork-OR1-RL-Data(https://huggingface.co/datasets/Skywork/Skywork-OR1-RL-Data) (即将推出)
- 🧑‍💻 代码: Skywork-OR1(https://github.com/SkyworkAI/Skywork-OR1)
- 我们还发布了一个 Notion Blog，分享详细的训练方案和广泛的实验结果、分析和见解，致力于帮助社区更好地研究、理解和推动开放推理模型的发展前沿。

📖 概览

Skywork-OR1-Math-7B 在多阶段训练管道中的 AIME24 分数与训练步数。

Skywork-OR1(Open Reasoner 1) 模型系列由强大的数学和代码推理模型组成，这些模型使用大规模的基于规则的强化学习，并经过精心设计的数据集和训练方案进行训练。该系列包括两个通用推理模型——Skywork-OR1-7B-Preview 和 Skywork-OR1-32B-Preview，以及一个数学专用模型 Skywork-OR1-Math-7B。

Skywork-OR1-Math-7B(https://huggingface.co/Skywork/Skywork-OR1-Math-7B) 专门针对数学推理进行了优化，在 AIME24 上的得分为 69.8，在 AIME25 上的得分为 52.3，远超所有类似规模的模型。
Skywork-OR1-32B-Preview(https://huggingface.co/Skywork/Skywork-OR1-32B-Preview) 在数学任务（AIME24 和 AIME25）和编码任务 (LiveCodeBench) 上实现了 6710亿参数 Deepseek-R1 的性能。
Skywork-OR1-7B-Preview(https://huggingface.co/Skywork/Skywork-OR1-7B-Preview) 在数学和编码场景中均优于所有类似规模的模型。

最终版本将在两周后发布。

📊 评估

我们使用 AIME24、AIME25 和 LiveCodeBench 评估我们的模型。我们没有使用先前工作中常用的 Pass@1，而是引入了 Avg@K 作为主要指标。该指标稳健地衡量了模型在 K 个独立尝试中的平均表现，减少了随机性的影响，并提高了结果的可靠性。我们认为 Avg@K 能够更好地反映模型的稳定性和推理一致性。

我们在下表中包含了详细的结果。

Model | AIME24 (Avg@32) | AIME25 (Avg@32) | LiveCodeBench (8/1/24-2/1/25) (Avg@4)
---|---|---|---
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 39.2 | 37.6
Light-R1-7B-DS | 59.1 | 44.3 | 39.5
DeepSeek-R1-Distill-Qwen-32B | 72.9 | 59.0 | 57.2
TinyR1-32B-Preview | 78.1 | 65.3 | 61.6
QwQ-32B | 79.5 | 65.3 | 61.6
DeepSeek-R1 | 79.8 | 70.0 | 65.9
Skywork-OR1-Math-7B | 69.8 | 52.3 | 43.6
Skywork-OR1-7B-Preview | 63.6 | 45.8 | 43.9
Skywork-OR1-32B-Preview | 79.7 | 69.0 | 63.9

🎯 快速开始

安装

Docker 环境：

docker pull whatcanyousee/verl:vemlp-th2.4.0-cu124-vllm0.6.3-ray2.10-te2.0-megatron0.11.0-v0.0.6
# 启动所需的 Docker 镜像:
docker run --runtime=nvidia -it --rm --shm-size="10g" --cap-add=SYS_ADMIN -v <image:tag>
# 在容器内，安装 Skywork-OR1
git clone https://github.com/SkyworkAI/Skywork-OR1.git && cd Skywork-OR1 && pip3 install -e .

Conda 环境：

# 安装 Python 3.10 环境.
conda create -n verl python==3.10
conda activate verl
# 安装 RLLM 依赖.
pip3 install torch==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip3 install flash-attn --no-build-isolation
git clone https://github.com/SkyworkAI/Skywork-OR1.git
cd Skywork-OR1
pip3 install -e .

训练 ⚙️

训练脚本正在整理中，将在 1-2 天内提供。请继续关注。

评估 ⚖️

我们提供了评估脚本来重现 Skywork-OR1-Series 的结果。

AIME24 和 AIME25

AIME24 和 AIME25 的评估数据已在我们的 GitHub 存储库中提供。

# Evalation AIME24
MODEL_PATH=Skywork/Skywork-OR1-32B-Preview \
DATA_PATH=or1_data/eval/aime24.parquet \
SAMPLES=32 \
TASK_NAME=Aime24_Avg$SAMPLES-Skywork_OR1_Math_7B \
bash ./or1_script/eval/eval_32b.sh
# Evalation AIME25
MODEL_PATH=Skywork/Skywork-OR1-Math-7B \
DATA_PATH=or1_data/eval/aime25.parquet \
SAMPLES=32 \
TASK_NAME=Aime25_Avg$SAMPLES-Skywork_OR1_Math_7B \
bash ./or1_script/eval/eval_7b.sh

LiveCodeBench

对于 Livecodebench，请从 Hugging Face 下载数据。

# 下载 LCB
huggingface-cli download Skywork/LiveCodeBench --repo-type=dataset --local-dir or1_data/eval/livecodebench
unzip or1_data/eval/livecodebench/livecodebench.zip -d or1_data/eval/livecodebench/
mv or1_data/eval/livecodebench/livecodebench/* or1_data/eval/livecodebench/
# Evalation LCB
MODEL_PATH=Skywork/Skywork-OR1-Math-7B \
DATA_PATH=or1_data/eval/livecodebench/livecodebench_2408_2502.parquet \
SAMPLES=4 \
TASK_NAME=LiveCodeBench_Avg$SAMPLES-Skywork_OR1_Math_7B \
bash ./or1_script/eval/eval_7b.sh

📄 技术报告

我们的技术报告即将发布。敬请关注！

🙏 鸣谢

我们的模型都是基于 DeepSeek-R1-Distill-Qwen-7B(https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B) 和 DeepSeek-R1-Distill-Qwen-32B(https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B) 进行训练的。
这两个模型都是使用 verl(https://github.com/volcengine/verl) 项目的自定义分支进行训练的。

📚 引用

一旦技术报告发布，我们将更新引用。与此同时，请引用以下内容：

@misc{skywork-or1-2025,
 title={Skywork Open Reaonser Series},
 author = {He, Jujie and Liu, Jiacai and Liu, Chris Yuhao and Yan, Rui and Wang, Chaojie and Cheng, Peng and Zhang, Xiaoyu and Zhang, Fuxiang and Xu, Jiacheng and Shen, Wei and Li, Siyuan and Zeng, Liang and Wei, Tianwen and Cheng, Cheng and An, Bo and Liu, Yang and Zhou, Yahui},
 howpublished={\url{https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680}},
 note={Notion Blog},
 year={2025}
}