文章摘要
DeepSeekMath-V2是DeepSeek AI推出的数学推理模型,旨在实现自我验证的数学推理能力。该项目开源在Hugging Face平台,采用Apache 2.0许可协议,并提供多种社区互动渠道。
文章总结
DeepSeekMath-V2:迈向可自我验证的数学推理
1. 简介
大型语言模型(LLM)在数学推理领域取得了显著进展,这不仅为AI发展提供了重要测试平台,还可能推动科学研究。通过强化学习优化最终答案的正确性,LLM在短短一年内从表现不佳提升至在AIME、HMMT等数学竞赛中达到饱和水平。然而,这种方法存在根本性局限:追求更高的答案正确率并未解决关键问题——正确答案未必对应正确的推理过程。此外,许多数学任务(如定理证明)需要严谨的逐步推导,而非数值答案,这使得基于最终答案的奖励机制失效。
为突破深度推理的极限,我们认为必须验证数学推理的全面性和严谨性。自我验证对于扩展测试计算尤为重要,尤其是针对尚无已知解的开放性问题。为此,我们探索如何训练一个基于LLM的精确且可靠的验证器,用于定理证明。随后,我们利用该验证器作为奖励模型训练证明生成器,激励生成器在提交最终证明前尽可能发现并修正自身推理中的问题。
为保持生成与验证的差距随生成器能力提升而持续有效,我们提出扩展验证计算,自动标注难以验证的新证明,从而生成训练数据以进一步优化验证器。最终模型DeepSeekMath-V2在定理证明中表现卓越,在IMO 2025和CMO 2024中达到金牌水平,并在Putnam 2024中取得118/120的接近满分成绩(测试计算扩展后)。这些结果表明,可自我验证的数学推理是可行的研究方向,可能助力开发更强大的数学AI系统。
2. 评估结果
模型在IMO-ProofBench(由DeepMind团队开发)及近期数学竞赛(IMO 2025、CMO 2024、Putnam 2024)中的表现如下:
IMO-ProofBench
(图表展示性能对比)
数学竞赛
(图表展示竞赛得分)
4. 快速开始
DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base构建。推理支持请参考DeepSeek-V3.2-Exp GitHub仓库。
6. 许可
本仓库及模型权重遵循Apache 2.0许可证。
7. 引用
bibtex
@misc{deepseek-math-v2,
author = {邵志宏, 罗宇翔, 卢成达, 任ZZ, 胡杰文, 叶天, 苟志斌, 马世荣, 张晓康},
title = {DeepSeekMath-V2:迈向可自我验证的数学推理},
year = {2025},
}
8. 联系
如有疑问,请提交issue或发送邮件至service@deepseek.com。
(注:原文中的图片链接及社交媒体徽章因与核心内容关联较弱,已略去;技术细节和评估数据保留关键信息。)
评论总结
评论主要观点总结:
- 对开源权重的赞赏
- "they open-sourced the weights under Apache 2.0, unlike OpenAI and DeepMind"(victorbuilds)
- 对比指出OpenAI等公司的专有模型尚未公开(terespuwash:"Why isn't OpenAI's gold medal-winning model available")
- 对开源模型性能的肯定
- "impressive to see how fast open-weights models are catching up in specialized domains"(ilmj8426)
- 关注模型在数学和编程逻辑任务中的表现相关性(ilmj8426:"strong math performance correlates well with debugging")
- 技术实现疑问
- 提出家庭设备运行大模型的技术可行性问题(H8crilA:"How do you run this kind of a model at home")
- 关注硬件需求:"On a CPU on a machine that has about 1TB of RAM"(H8crilA)
- 商业竞争担忧
- 质疑OpenAI的商业模式可持续性(sschueler)
- "How is OpenAI going to be able to serve ads...without everyone jumping ship"(sschueler)