Hacker News 中文摘要

文章摘要

这是一个开源项目，旨在完整复现DeepSeek-R1模型，提供从训练到评估的全流程方案，包括数据生成、模型训练和结果验证等模块，欢迎社区共同参与建设。

文章总结

以下是经过编辑整理的中文内容重述，保留了核心细节并删减了无关内容：

开源DeepSeek-R1复现项目

项目概述
这是一个旨在完整复现DeepSeek-R1模型的开源项目，包含训练脚本、数据生成工具和评估流程。核心组件包括： - src/open_r1目录下的训练脚本（GRPO强化学习/SFT监督微调） - 基于Distilabel的合成数据生成工具 - 模块化Makefile简化流程

技术路线
1. 蒸馏阶段：复现R1-Distill模型，从DeepSeek-R1提取高质量语料
2. 纯RL阶段：复现R1-Zero的训练流程，需构建数学/推理/代码领域的大规模数据集
3. 多阶段训练：验证从基础模型到RL调优的全流程

最新进展
- 2025/05/26：发布35万条推理轨迹数据集Mixture-of-Thoughts及7B蒸馏模型OpenR1-Distill-7B
- 2025/03/11：发布10万条编程题解数据集CodeForces-CoTs，7B模型在IOI24基准超越Claude 3.7
- 2025/02/10：发布22万数学推理数据集OpenR1-Math-220k

安装指南
- 要求CUDA 12.4环境
- 推荐使用uv工具创建Python 3.11虚拟环境
- 关键依赖：vLLM 0.8.5、FlashAttention（需禁用build隔离）
- 注意：PyTorch必须使用v2.6.0版本

模型训练
支持两种训练模式： 1. SFT蒸馏：
bash accelerate launch --config_file zero3.yaml src/open_r1/sft.py \ --model_name_or_path Qwen2.5-Math-7B \ --dataset_name Mixture-of-Thoughts - 7B模型在GPQA Diamond基准达52.8分，接近原版52.4分

GRPO强化学习：
- 支持单节点（colocate模式）或多节点（vLLM服务器+训练节点分离）
- 提供代码执行奖励功能（支持E2B/Morph沙箱）
- 竞赛编程专项支持：IOI和CodeForces测试用例验证

评估体系
使用lighteval工具支持四大基准测试： 1. AIME 2024（64次采样/题）
2. MATH-500（4次采样）
3. GPQA Diamond（8次采样）
4. LiveCodeBench（16次采样）

评估示例： bash make evaluate MODEL=DeepSeek-R1-Distill-Qwen-32B TASK=aime24 PARALLEL=tensor NUM_GPUS=8

数据生成
1. 小规模生成（单卡H100）：
python distilabel管道 + vLLM后端，生成4组响应/样本 2. 大规模生成（16×H100）：
bash sbatch slurm/generate.slurm --model DeepSeek-R1 --hf-output-dataset my-r1-data

数据去重
提供8-gram去污染脚本： bash python scripts/decontaminate.py --dataset verifiable-coding-problems --problem_column problem

致谢
感谢vLLM、SGLang团队的高性能工具支持，以及OpenThoughts等机构提供的高质量数据集。

引用格式
latex @misc{openr1, title = {Open R1: A fully open reproduction of DeepSeek-R1}, year = {2025}, author = {Hugging Face} }

编辑说明： 1. 保留了技术路线、核心功能、关键参数等实质性内容 2. 删除了重复的安装细节和Slurm集群配置等非通用性内容 3. 重组了评估结果表格为更简洁的文本描述 4. 突出了中文技术社区更关注的多卡训练、基准测试等实用信息 5. 标准化了代码/命令的显示格式

评论总结

总结评论内容：

对项目进展的质疑

指出项目仅完成3步计划中的第1步，未能完全复现R1 关键引用： "Doesn't look like they managed to actually reproduce R1, and only stopped on Step 1 out of their 3-step plan." "Too old now"

替代方案推荐

推荐OpenThoughts作为更好的选择，因其包含更优质数据集和模型关键引用： "Check out OpenThoughts. It has a widely used dataset, a model that beats the deepseek's smaller reasoning models" "Olmo and to a lesser extent Nemotron are what you should look at"

实施成本疑问

询问训练此类模型的预估成本关键引用： "What is the estimated cost these days to train something like this to conclusion?"

对数据处理的批评

认为项目在数据处理方面缺乏具体方案关键引用： "everybody likes to hand-wave on this" "This will likely involve curating new, large-scale datasets for math, reasoning, and code."

注：所有评论均未显示评分（None），因此无法评估认可度。

深度求索R1的开放复制 -- Open Reproduction of DeepSeek-R1

文章摘要

文章总结

开源DeepSeek-R1复现项目

评论总结