Hacker News 中文摘要

RSS订阅

DeepSeek-V4:迈向高效百万令牌上下文智能 -- DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

文章摘要

DeepSeek-V4系列发布了两款高效混合专家模型(DeepSeek-V4-Pro和DeepSeek-V4-Flash),支持百万token上下文。通过混合注意力架构(CSA+HCA)显著提升长文本效率,相比前代单token推理计算量减少73%,KV缓存降低90%。采用新型mHC连接增强信号传播稳定性,并引入Muon优化器加速训练。模型基于32T高质量数据预训练,通过两阶段后训练流程整合领域专家能力。

文章总结

DeepSeek-V4系列技术报告概览

核心模型架构 我们推出DeepSeek-V4系列预览版,包含两大混合专家(MoE)语言模型: 1. DeepSeek-V4-Pro:1.6万亿参数总量(激活490亿参数) 2. DeepSeek-V4-Flash:2840亿参数总量(激活130亿参数) 两大模型均支持百万级上下文长度(1M tokens)

关键技术升级 • 混合注意力架构:结合压缩稀疏注意力(CSA)与重度压缩注意力(HCA),在百万token上下文场景下,推理计算量较V3.2降低73%,KV缓存减少90% • 流形约束超连接(mHC):增强传统残差连接,在保持模型表达能力的同时提升跨层信号传播稳定性 • μ子优化器:采用新型优化器加速收敛并提升训练稳定性

训练体系 • 预训练阶段:使用超过32万亿高质量token数据 • 后训练流程: - 第一阶段:通过监督微调(SFT)和GRPO强化学习独立培养领域专家 - 第二阶段:采用策略蒸馏进行模型统一,整合跨领域能力

性能表现 1. DeepSeek-V4-Pro-Max(最大推理模式): - 当前最佳开源模型 - 代码基准测试顶尖水平 - 在推理和智能体任务上显著缩小与闭源领先模型的差距

  1. DeepSeek-V4-Flash-Max:
    • 在充足思考预算下达到接近Pro版的推理性能
    • 受限于较小参数量,在纯知识任务和复杂工作流中稍逊

模型下载信息 | 模型名称 | 总参数量 | 激活参数 | 上下文长度 | 精度方案 | 下载平台 | |-------------------|----------|----------|------------|-------------------|-------------------| | V4-Flash-Base | 2840亿 | 130亿 | 1M | FP8混合 | HuggingFace/ModelScope | | V4-Flash | 2840亿 | 130亿 | 1M | FP4+FP8混合* | HuggingFace/ModelScope | | V4-Pro-Base | 1.6万亿 | 490亿 | 1M | FP8混合 | HuggingFace/ModelScope | | V4-Pro | 1.6万亿 | 490亿 | 1M | FP4+FP8混合* | HuggingFace/ModelScope | *注:FP4+FP8混合指MoE专家参数使用FP4,其余主要参数使用FP8

推理模式说明 | 模式 | 响应特点 | 典型场景 | 输出格式 | |------------|--------------------------|------------------------------|------------------------------| | 非思考 | 快速直觉响应 | 日常任务/低风险决策 | 总结 | | 深度思考 | 高逻辑性分析(较慢精准) | 复杂问题解决/规划 | 思考过程总结 | | 极限思考 | 最大化推理能力 | 探索模型推理边界 | 特殊系统提示+思考过程+总结 |

部署指南 • 本地运行:建议设置temperature=1.0, top_p=1.0 • 极限思考模式:推荐至少384K tokens的上下文窗口 • 对话模板:提供专用编码工具包处理OpenAI兼容格式的输入输出转换

许可声明 本仓库及模型权重采用MIT许可证开放

(注:原文中大量基准测试数据表格因技术细节过多未完全呈现,主要保留模型架构、训练方法和核心性能描述)

评论总结

评论总结:

  1. 技术差距观点

    • 认为DeepSeek比行业领先者落后约2个月。
    • 引用:"Hmm. Looks like DeepSeek is just about 2 months behind the leaders now."
  2. 价格优势观点

    • 指出DeepSeek的"Pro"和"Flash"版本在价格上具有竞争力,尤其是"Flash"版本性价比高。
    • 引用:
      • "Pro $3.48 / 1M output tokens vs $4.40 for GLM 5.1 or $4.00 for Kimi K2.6"
      • "Flash is only $0.28 / 1M and seems quite competent"
  3. 产品线疑问

    • 询问R系列(R2)是否已停产或合并到v4版本中。
    • 引用:"So the R line (R2) is discontinued or folder back into v4 right?"
  4. 本地运行可能性

    • 推测1.6T参数的模型可能(尽管速度较慢)在消费级硬件上本地运行。
    • 引用:"From this thread [...] it can run (theoretically, very slow maybe) locally on consumer hardware, or is that wrong?"