Hacker News 中文摘要

RSS订阅

DeepSeek-v3.2-Exp -- DeepSeek-v3.2-Exp

文章摘要

DeepSeek AI发布了DeepSeek-V3.2-Exp版本,这是一个开源项目,提供聊天、Hugging Face模型和Discord社区支持。项目包含相关徽章链接,方便用户访问官网、在线聊天和社区互动。

文章总结

DeepSeek-V3.2-Exp 实验版本发布说明

DeepSeek-AI 正式推出 DeepSeek-V3.2-Exp 实验版本。该版本基于 V3.1-Terminus 架构,引入创新性的 DeepSeek 稀疏注意力机制(DSA),旨在验证长文本场景下训练与推理效率的优化方案。作为迈向下一代架构的过渡版本,V3.2-Exp 在保持模型输出质量的同时,显著提升了长文本处理的算力效率。

核心特性

  • 首创细粒度稀疏注意力:DSA 机制在公开基准测试中展现出与 V3.1-Terminus 持平的性能表现(详见下方对比数据),同时大幅降低长文本计算成本。
  • 严格对照实验设计:为准确评估稀疏注意力的影响,训练配置与 V3.1-Terminus 完全对齐。

性能基准对比

| 测试领域 | V3.1-Terminus | V3.2-Exp |
|------------------|---------------|----------|
| 推理能力 | | |
| MMLU-Pro | 85.0 | 85.0 |
| GPQA-Diamond | 80.7 | 79.9 |
| 工具调用 | | |
| BrowseComp-zh | 45.0 | 47.9↑ |
| SWE-bench 多语言 | 57.8 | 57.9 |

开源组件

  • 研究友好型内核TileLang 提供可读性强的实现方案
  • 高性能计算内核DeepGEMMFlashMLA 发布优化后的 CUDA 内核

本地运行指南

1. HuggingFace 方式

bash cd inference python convert.py --hf-ckpt-path ${HF模型路径} --save-path ${保存路径} torchrun --nproc-per-node ${GPU数量} generate.py --ckpt-path ${模型路径}

2. SGLang 方式

支持 Docker 快速部署(适配 H200/MI350/NPU 等硬件):
bash docker pull lmsysorg/sglang:dsv32 python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp

3. vLLM 支持

已实现开箱即用支持,详见 官方文档

许可协议

本项目采用 MIT 许可证,模型权重可自由使用。

联系我们

如有疑问,请提交 GitHub Issue 或发送邮件至 service@deepseek.com

引用格式:
@misc{deepseekai2024deepseekv32,
title={DeepSeek-V3.2-Exp: 基于稀疏注意力的长文本效率优化方案},
author={DeepSeek-AI},
year={2025}
}

(注:精简了重复的徽章图片说明,保留核心技术细节和实用信息)

评论总结

评论总结:

  1. 技术应用方面:
  • 认为深度稀疏注意力技术有助于处理代码和长文件推理(评论1:"Looks like Deep Sparse Attention can help with code (structured and long-file reasoning)")
  • 赞赏稀疏注意力技术在现实场景中的应用(评论2:"awesome that sparse attention used in real world setting")
  1. 成本效益方面:
  • 肯定中国开源模型在性价比上的提升,特别提到API价格下降50%(评论3:"Happy to see Chinese OSS models keep getting better and cheaper...50% API price drop")
  • 对成本大幅降低同时保持基准性能表示印象深刻(评论4:"gigantic reduction in cost while holding the benchmarks mostly steady. Impressive")