Hacker News 中文摘要

文章摘要

DeepSeek-V4系列发布了两款高效混合专家模型（DeepSeek-V4-Pro和DeepSeek-V4-Flash），支持百万token上下文。通过混合注意力架构（CSA+HCA）显著提升长文本效率，相比前代单token推理计算量减少73%，KV缓存降低90%。采用新型mHC连接增强信号传播稳定性，并引入Muon优化器加速训练。模型基于32T高质量数据预训练，通过两阶段后训练流程整合领域专家能力。

文章总结

DeepSeek-V4系列技术报告概览

核心模型架构我们推出DeepSeek-V4系列预览版，包含两大混合专家（MoE）语言模型： 1. DeepSeek-V4-Pro：1.6万亿参数总量（激活490亿参数） 2. DeepSeek-V4-Flash：2840亿参数总量（激活130亿参数）两大模型均支持百万级上下文长度（1M tokens）

关键技术升级 • 混合注意力架构：结合压缩稀疏注意力（CSA）与重度压缩注意力（HCA），在百万token上下文场景下，推理计算量较V3.2降低73%，KV缓存减少90% • 流形约束超连接（mHC）：增强传统残差连接，在保持模型表达能力的同时提升跨层信号传播稳定性 • μ子优化器：采用新型优化器加速收敛并提升训练稳定性

训练体系 • 预训练阶段：使用超过32万亿高质量token数据 • 后训练流程： - 第一阶段：通过监督微调（SFT）和GRPO强化学习独立培养领域专家 - 第二阶段：采用策略蒸馏进行模型统一，整合跨领域能力

性能表现 1. DeepSeek-V4-Pro-Max（最大推理模式）： - 当前最佳开源模型 - 代码基准测试顶尖水平 - 在推理和智能体任务上显著缩小与闭源领先模型的差距

DeepSeek-V4-Flash-Max：
- 在充足思考预算下达到接近Pro版的推理性能
- 受限于较小参数量，在纯知识任务和复杂工作流中稍逊

模型下载信息 | 模型名称 | 总参数量 | 激活参数 | 上下文长度 | 精度方案 | 下载平台 | |-------------------|----------|----------|------------|-------------------|-------------------| | V4-Flash-Base | 2840亿 | 130亿 | 1M | FP8混合 | HuggingFace/ModelScope | | V4-Flash | 2840亿 | 130亿 | 1M | FP4+FP8混合* | HuggingFace/ModelScope | | V4-Pro-Base | 1.6万亿 | 490亿 | 1M | FP8混合 | HuggingFace/ModelScope | | V4-Pro | 1.6万亿 | 490亿 | 1M | FP4+FP8混合* | HuggingFace/ModelScope | *注：FP4+FP8混合指MoE专家参数使用FP4，其余主要参数使用FP8

推理模式说明 | 模式 | 响应特点 | 典型场景 | 输出格式 | |------------|--------------------------|------------------------------|------------------------------| | 非思考 | 快速直觉响应 | 日常任务/低风险决策 | 总结 | | 深度思考 | 高逻辑性分析（较慢精准） | 复杂问题解决/规划 | 思考过程总结 | | 极限思考 | 最大化推理能力 | 探索模型推理边界 | 特殊系统提示+思考过程+总结 |

部署指南 • 本地运行：建议设置temperature=1.0, top_p=1.0 • 极限思考模式：推荐至少384K tokens的上下文窗口 • 对话模板：提供专用编码工具包处理OpenAI兼容格式的输入输出转换

许可声明本仓库及模型权重采用MIT许可证开放

（注：原文中大量基准测试数据表格因技术细节过多未完全呈现，主要保留模型架构、训练方法和核心性能描述）

评论总结

评论总结：

技术差距观点
- 认为DeepSeek比行业领先者落后约2个月。
- 引用："Hmm. Looks like DeepSeek is just about 2 months behind the leaders now."
价格优势观点
- 指出DeepSeek的"Pro"和"Flash"版本在价格上具有竞争力，尤其是"Flash"版本性价比高。
- 引用：
  - "Pro $3.48 / 1M output tokens vs $4.40 for GLM 5.1 or $4.00 for Kimi K2.6"
  - "Flash is only $0.28 / 1M and seems quite competent"
产品线疑问
- 询问R系列（R2）是否已停产或合并到v4版本中。
- 引用："So the R line (R2) is discontinued or folder back into v4 right?"
本地运行可能性
- 推测1.6T参数的模型可能（尽管速度较慢）在消费级硬件上本地运行。
- 引用："From this thread [...] it can run (theoretically, very slow maybe) locally on consumer hardware, or is that wrong?"

DeepSeek-V4：迈向高效百万令牌上下文智能 -- DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

文章摘要

文章总结

评论总结

评论总结：