Hacker News 中文摘要

文章摘要

DeepSeekMath-V2是DeepSeek AI推出的数学推理模型，旨在实现自我验证的数学推理能力。该项目开源在Hugging Face平台，采用Apache 2.0许可协议，并提供多种社区互动渠道。

文章总结

DeepSeekMath-V2：迈向可自我验证的数学推理

1. 简介

大型语言模型（LLM）在数学推理领域取得了显著进展，这不仅为AI发展提供了重要测试平台，还可能推动科学研究。通过强化学习优化最终答案的正确性，LLM在短短一年内从表现不佳提升至在AIME、HMMT等数学竞赛中达到饱和水平。然而，这种方法存在根本性局限：追求更高的答案正确率并未解决关键问题——正确答案未必对应正确的推理过程。此外，许多数学任务（如定理证明）需要严谨的逐步推导，而非数值答案，这使得基于最终答案的奖励机制失效。

为突破深度推理的极限，我们认为必须验证数学推理的全面性和严谨性。自我验证对于扩展测试计算尤为重要，尤其是针对尚无已知解的开放性问题。为此，我们探索如何训练一个基于LLM的精确且可靠的验证器，用于定理证明。随后，我们利用该验证器作为奖励模型训练证明生成器，激励生成器在提交最终证明前尽可能发现并修正自身推理中的问题。

为保持生成与验证的差距随生成器能力提升而持续有效，我们提出扩展验证计算，自动标注难以验证的新证明，从而生成训练数据以进一步优化验证器。最终模型DeepSeekMath-V2在定理证明中表现卓越，在IMO 2025和CMO 2024中达到金牌水平，并在Putnam 2024中取得118/120的接近满分成绩（测试计算扩展后）。这些结果表明，可自我验证的数学推理是可行的研究方向，可能助力开发更强大的数学AI系统。

2. 评估结果

模型在IMO-ProofBench（由DeepMind团队开发）及近期数学竞赛（IMO 2025、CMO 2024、Putnam 2024）中的表现如下：

IMO-ProofBench
（图表展示性能对比）

数学竞赛
（图表展示竞赛得分）

4. 快速开始

DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base构建。推理支持请参考DeepSeek-V3.2-Exp GitHub仓库。

6. 许可

本仓库及模型权重遵循Apache 2.0许可证。

7. 引用

bibtex @misc{deepseek-math-v2, author = {邵志宏, 罗宇翔, 卢成达, 任ZZ, 胡杰文, 叶天, 苟志斌, 马世荣, 张晓康}, title = {DeepSeekMath-V2：迈向可自我验证的数学推理}, year = {2025}, }

8. 联系

如有疑问，请提交issue或发送邮件至service@deepseek.com。

（注：原文中的图片链接及社交媒体徽章因与核心内容关联较弱，已略去；技术细节和评估数据保留关键信息。）

评论总结

评论主要观点总结：

对开源权重的赞赏

"they open-sourced the weights under Apache 2.0, unlike OpenAI and DeepMind"（victorbuilds）
对比指出OpenAI等公司的专有模型尚未公开（terespuwash："Why isn't OpenAI's gold medal-winning model available"）

对开源模型性能的肯定

"impressive to see how fast open-weights models are catching up in specialized domains"（ilmj8426）
关注模型在数学和编程逻辑任务中的表现相关性（ilmj8426："strong math performance correlates well with debugging"）

技术实现疑问

提出家庭设备运行大模型的技术可行性问题（H8crilA："How do you run this kind of a model at home"）
关注硬件需求："On a CPU on a machine that has about 1TB of RAM"（H8crilA）

商业竞争担忧

质疑OpenAI的商业模式可持续性（sschueler）
"How is OpenAI going to be able to serve ads...without everyone jumping ship"（sschueler）

深度求索发布开源数学大模型，国际奥数金牌级表现 -- DeepSeek releases open-weights math model with IMO gold medal performance