文章摘要
DeepSeek AI发布了DeepSeek-V3.2-Exp版本,这是一个开源项目,提供聊天、Hugging Face模型和Discord社区支持。项目包含相关徽章链接,方便用户访问官网、在线聊天和社区互动。
文章总结
DeepSeek-V3.2-Exp 实验版本发布说明
DeepSeek-AI 正式推出 DeepSeek-V3.2-Exp 实验版本。该版本基于 V3.1-Terminus 架构,引入创新性的 DeepSeek 稀疏注意力机制(DSA),旨在验证长文本场景下训练与推理效率的优化方案。作为迈向下一代架构的过渡版本,V3.2-Exp 在保持模型输出质量的同时,显著提升了长文本处理的算力效率。
核心特性
- 首创细粒度稀疏注意力:DSA 机制在公开基准测试中展现出与 V3.1-Terminus 持平的性能表现(详见下方对比数据),同时大幅降低长文本计算成本。
- 严格对照实验设计:为准确评估稀疏注意力的影响,训练配置与 V3.1-Terminus 完全对齐。
性能基准对比
| 测试领域 | V3.1-Terminus | V3.2-Exp |
|------------------|---------------|----------|
| 推理能力 | | |
| MMLU-Pro | 85.0 | 85.0 |
| GPQA-Diamond | 80.7 | 79.9 |
| 工具调用 | | |
| BrowseComp-zh | 45.0 | 47.9↑ |
| SWE-bench 多语言 | 57.8 | 57.9 |
开源组件
本地运行指南
1. HuggingFace 方式
bash
cd inference
python convert.py --hf-ckpt-path ${HF模型路径} --save-path ${保存路径}
torchrun --nproc-per-node ${GPU数量} generate.py --ckpt-path ${模型路径}
2. SGLang 方式
支持 Docker 快速部署(适配 H200/MI350/NPU 等硬件):
bash
docker pull lmsysorg/sglang:dsv32
python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp
3. vLLM 支持
已实现开箱即用支持,详见 官方文档。
许可协议
本项目采用 MIT 许可证,模型权重可自由使用。
联系我们
如有疑问,请提交 GitHub Issue 或发送邮件至 service@deepseek.com
引用格式:
@misc{deepseekai2024deepseekv32,
title={DeepSeek-V3.2-Exp: 基于稀疏注意力的长文本效率优化方案},
author={DeepSeek-AI},
year={2025}
}
(注:精简了重复的徽章图片说明,保留核心技术细节和实用信息)
评论总结
评论总结:
- 技术应用方面:
- 认为深度稀疏注意力技术有助于处理代码和长文件推理(评论1:"Looks like Deep Sparse Attention can help with code (structured and long-file reasoning)")
- 赞赏稀疏注意力技术在现实场景中的应用(评论2:"awesome that sparse attention used in real world setting")
- 成本效益方面:
- 肯定中国开源模型在性价比上的提升,特别提到API价格下降50%(评论3:"Happy to see Chinese OSS models keep getting better and cheaper...50% API price drop")
- 对成本大幅降低同时保持基准性能表示印象深刻(评论4:"gigantic reduction in cost while holding the benchmarks mostly steady. Impressive")