文章摘要
这是一个开源项目,旨在完整复现DeepSeek-R1模型,提供从训练到评估的全流程方案,包括数据生成、模型训练和结果验证等模块,欢迎社区共同参与建设。
文章总结
以下是经过编辑整理的中文内容重述,保留了核心细节并删减了无关内容:
开源DeepSeek-R1复现项目
项目概述
这是一个旨在完整复现DeepSeek-R1模型的开源项目,包含训练脚本、数据生成工具和评估流程。核心组件包括:
- src/open_r1目录下的训练脚本(GRPO强化学习/SFT监督微调)
- 基于Distilabel的合成数据生成工具
- 模块化Makefile简化流程
技术路线
1. 蒸馏阶段:复现R1-Distill模型,从DeepSeek-R1提取高质量语料
2. 纯RL阶段:复现R1-Zero的训练流程,需构建数学/推理/代码领域的大规模数据集
3. 多阶段训练:验证从基础模型到RL调优的全流程
最新进展
- 2025/05/26:发布35万条推理轨迹数据集Mixture-of-Thoughts及7B蒸馏模型OpenR1-Distill-7B
- 2025/03/11:发布10万条编程题解数据集CodeForces-CoTs,7B模型在IOI24基准超越Claude 3.7
- 2025/02/10:发布22万数学推理数据集OpenR1-Math-220k
安装指南
- 要求CUDA 12.4环境
- 推荐使用uv工具创建Python 3.11虚拟环境
- 关键依赖:vLLM 0.8.5、FlashAttention(需禁用build隔离)
- 注意:PyTorch必须使用v2.6.0版本
模型训练
支持两种训练模式:
1. SFT蒸馏:
bash
accelerate launch --config_file zero3.yaml src/open_r1/sft.py \
--model_name_or_path Qwen2.5-Math-7B \
--dataset_name Mixture-of-Thoughts
- 7B模型在GPQA Diamond基准达52.8分,接近原版52.4分
- GRPO强化学习:
- 支持单节点(colocate模式)或多节点(vLLM服务器+训练节点分离)
- 提供代码执行奖励功能(支持E2B/Morph沙箱)
- 竞赛编程专项支持:IOI和CodeForces测试用例验证
评估体系
使用lighteval工具支持四大基准测试:
1. AIME 2024(64次采样/题)
2. MATH-500(4次采样)
3. GPQA Diamond(8次采样)
4. LiveCodeBench(16次采样)
评估示例:
bash
make evaluate MODEL=DeepSeek-R1-Distill-Qwen-32B TASK=aime24 PARALLEL=tensor NUM_GPUS=8
数据生成
1. 小规模生成(单卡H100):
python
distilabel管道 + vLLM后端,生成4组响应/样本
2. 大规模生成(16×H100):
bash
sbatch slurm/generate.slurm --model DeepSeek-R1 --hf-output-dataset my-r1-data
数据去重
提供8-gram去污染脚本:
bash
python scripts/decontaminate.py --dataset verifiable-coding-problems --problem_column problem
致谢
感谢vLLM、SGLang团队的高性能工具支持,以及OpenThoughts等机构提供的高质量数据集。
引用格式
latex
@misc{openr1,
title = {Open R1: A fully open reproduction of DeepSeek-R1},
year = {2025},
author = {Hugging Face}
}
编辑说明: 1. 保留了技术路线、核心功能、关键参数等实质性内容 2. 删除了重复的安装细节和Slurm集群配置等非通用性内容 3. 重组了评估结果表格为更简洁的文本描述 4. 突出了中文技术社区更关注的多卡训练、基准测试等实用信息 5. 标准化了代码/命令的显示格式
评论总结
总结评论内容:
- 对项目进展的质疑
- 指出项目仅完成3步计划中的第1步,未能完全复现R1 关键引用: "Doesn't look like they managed to actually reproduce R1, and only stopped on Step 1 out of their 3-step plan." "Too old now"
- 替代方案推荐
- 推荐OpenThoughts作为更好的选择,因其包含更优质数据集和模型 关键引用: "Check out OpenThoughts. It has a widely used dataset, a model that beats the deepseek's smaller reasoning models" "Olmo and to a lesser extent Nemotron are what you should look at"
- 实施成本疑问
- 询问训练此类模型的预估成本 关键引用: "What is the estimated cost these days to train something like this to conclusion?"
- 对数据处理的批评
- 认为项目在数据处理方面缺乏具体方案 关键引用: "everybody likes to hand-wave on this" "This will likely involve curating new, large-scale datasets for math, reasoning, and code."
注:所有评论均未显示评分(None),因此无法评估认可度。