Hacker News 中文摘要

文章摘要

文章对比了多款AI模型的性能参数，其中Step 3.5 Flash以196B参数量获得81.0分，表现优异；GPT-5.2 xhigh以82.2分位居榜首。整体显示参数量与得分并非完全正相关，部分小模型也能取得高分。

文章总结

标题：快如思考，稳如行动——Step 3.5 Flash 开源大模型发布

核心亮点

Step 3.5 Flash 是当前最强大的开源基础模型，采用稀疏混合专家架构（MoE），总参数量达1960亿，但每令牌仅激活110亿参数。其性能在推理、编码和智能体任务中均达到前沿水平，平均得分81.0，超越GLM-4.7（78.5）、DeepSeek V3.2（77.3）等竞品，接近闭源模型GPT-5.2（82.2）和Gemini 3.0 Pro（80.7）。

技术优势

高速深度推理
- 通过多令牌预测（MTP-3）技术，生成速度达100-300令牌/秒（单流编码任务峰值350令牌/秒），支持复杂多步推理链的即时响应。
- 在数学竞赛AIME 2025中得分97.3（启用Python工具后提升至99.8），接近人类顶级表现。
高效长上下文处理
- 采用3:1滑动窗口注意力（SWA）与全注意力混合架构，支持25.6万令牌上下文窗口，显著降低计算开销。
专业级智能体能力
- 在SWE-bench Verified（代码修复）和Terminal-Bench 2.0（终端任务）中分别取得74.4%和51.0%的准确率，展现长周期任务稳定性。
- 在股票投资案例中，无缝协调80+工具完成市场分析、数据可视化和自动化警报。
本地化部署优化
- 适配高端消费级硬件（如Mac Studio M4 Max、NVIDIA DGX Spark），支持GGUF格式量化模型，在DGX Spark上实现20令牌/秒的生成速度。

架构创新

稀疏MoE设计：通过动态参数激活平衡性能与效率。
强化学习框架（MIS-PO）：采用严格样本过滤策略，解决长序列训练的稳定性问题。
云-端协同：以云端模型（Step 3.5 Flash）协调本地代理（Step-GUI），在复杂移动任务中性能提升42%。

性能对比

| 任务类型 | Step 3.5 Flash | GPT-5.2 | Gemini 3.0 Pro |
|----------------|----------------|---------|----------------|
| 数学推理（AIME）| 97.3 | 100.0 | 95.0 |
| 代码修复（SWE） | 74.4% | 80.0% | 76.2% |
| 深度研究（ResearchRubrics）| 65.3% | 60.7% | 63.7% |

未来方向

提升生成效率，缩短与Gemini 3.0 Pro的轨迹差距。
扩展强化学习在专业级任务（如工程、科研）中的应用。
优化分布外场景（如超长对话）的稳定性。

获取方式

API/Web/App：平台入口
本地部署：支持NVIDIA DGX Spark的GGUF量化模型。
社区：加入Discord获取支持。

Step 3.5 Flash 不仅是一组基准数字，更是为真实世界设计的可靠智能伙伴。

评论总结

以下是评论内容的总结：

模型性能与效率
- 正面评价：新发布的MoE架构模型在多项基准测试中表现优异，仅激活部分参数即可实现高效运行。
  引用："Beats Kimi K2.5 and GLM 4.7 on more benchmarks..."
  引用："It's nice to see more focus on efficiency."
- 负面评价：存在幻觉问题，实际测试中其他模型表现更稳定。
  引用："Hallucinates like crazy. use with caution."
  引用："Opus 4.6, Deepseek and Kimi all performed well..."
技术细节与实用性
- 参数数量并非关键指标，实际应用中的性价比（如token/美元）更重要。
  引用："Number of params isn’t really the relevant metric..."
- 部分用户对反向坐标轴设计表示困惑。
  引用："That reverse x axis sure is confusing."
公司背景与地域发展
- 对StepFun公司背景和商业模式存在疑问。
  引用："So who exactly is StepFun? What is their business..."
- 对中国模型崛起的对比思考，质疑日本或欧洲为何缺乏主流模型。
  引用："How come no major models are coming from Japan or Europe?"
基准测试与输出质量
- 现有基准测试（如SWE-bench）需进一步改进以反映模型真实能力。
  引用："We need better SWE benchmarks... Making a fair benchmark is a lot of work."
- 输出内容冗长但基础，与其他模型对比存在速度和质量差异。
  引用："The amount of reasoning output could fill a small book... more bare bones compared to others."
其他反馈
- 与pi.dev代理兼容性良好。
  引用："Works impressively well with pi.dev minimal agent."
- 对TerminalBench 51%得分能否保证稳定性提出质疑。
  引用："A 51% score... doesn’t sound like it would guarantee 'unwavering stability'."

（总结涵盖12条核心评论，保留关键引用并平衡正负面观点，中文表达简洁。）

步骤3.5 Flash——开源基础模型，支持高速深度推理 -- Step 3.5 Flash – Open-source foundation model, supports deep reasoning at speed