Hacker News 中文摘要

文章摘要

DeepSeek AI发布了DeepSeek-V3.2-Exp版本，这是一个开源项目，提供聊天、Hugging Face模型和Discord社区支持。项目包含相关徽章链接，方便用户访问官网、在线聊天和社区互动。

文章总结

DeepSeek-V3.2-Exp 实验版本发布说明

DeepSeek-AI 正式推出 DeepSeek-V3.2-Exp 实验版本。该版本基于 V3.1-Terminus 架构，引入创新性的 DeepSeek 稀疏注意力机制（DSA），旨在验证长文本场景下训练与推理效率的优化方案。作为迈向下一代架构的过渡版本，V3.2-Exp 在保持模型输出质量的同时，显著提升了长文本处理的算力效率。

核心特性

首创细粒度稀疏注意力：DSA 机制在公开基准测试中展现出与 V3.1-Terminus 持平的性能表现（详见下方对比数据），同时大幅降低长文本计算成本。
严格对照实验设计：为准确评估稀疏注意力的影响，训练配置与 V3.1-Terminus 完全对齐。

性能基准对比

| 测试领域 | V3.1-Terminus | V3.2-Exp |
|------------------|---------------|----------|
| 推理能力 | | |
| MMLU-Pro | 85.0 | 85.0 |
| GPQA-Diamond | 80.7 | 79.9 |
| 工具调用 | | |
| BrowseComp-zh | 45.0 | 47.9↑ |
| SWE-bench 多语言 | 57.8 | 57.9 |

开源组件

研究友好型内核：TileLang 提供可读性强的实现方案
高性能计算内核：DeepGEMM 和 FlashMLA 发布优化后的 CUDA 内核

本地运行指南

1. HuggingFace 方式

bash cd inference python convert.py --hf-ckpt-path ${HF模型路径} --save-path ${保存路径} torchrun --nproc-per-node ${GPU数量} generate.py --ckpt-path ${模型路径}

2. SGLang 方式

支持 Docker 快速部署（适配 H200/MI350/NPU 等硬件）：
bash docker pull lmsysorg/sglang:dsv32 python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp

3. vLLM 支持

已实现开箱即用支持，详见官方文档。

许可协议

本项目采用 MIT 许可证，模型权重可自由使用。

联系我们

如有疑问，请提交 GitHub Issue 或发送邮件至 service@deepseek.com

引用格式：
@misc{deepseekai2024deepseekv32,
title={DeepSeek-V3.2-Exp: 基于稀疏注意力的长文本效率优化方案},
author={DeepSeek-AI},
year={2025}
}

（注：精简了重复的徽章图片说明，保留核心技术细节和实用信息）

评论总结

评论总结：

技术应用方面：

认为深度稀疏注意力技术有助于处理代码和长文件推理（评论1："Looks like Deep Sparse Attention can help with code (structured and long-file reasoning)"）
赞赏稀疏注意力技术在现实场景中的应用（评论2："awesome that sparse attention used in real world setting"）

成本效益方面：

肯定中国开源模型在性价比上的提升，特别提到API价格下降50%（评论3："Happy to see Chinese OSS models keep getting better and cheaper...50% API price drop"）
对成本大幅降低同时保持基准性能表示印象深刻（评论4："gigantic reduction in cost while holding the benchmarks mostly steady. Impressive"）

DeepSeek-v3.2-Exp -- DeepSeek-v3.2-Exp