文章摘要
文章对比了多款AI模型的性能参数,其中Step 3.5 Flash以196B参数量获得81.0分,表现优异;GPT-5.2 xhigh以82.2分位居榜首。整体显示参数量与得分并非完全正相关,部分小模型也能取得高分。
文章总结
标题:快如思考,稳如行动——Step 3.5 Flash 开源大模型发布
核心亮点
Step 3.5 Flash 是当前最强大的开源基础模型,采用稀疏混合专家架构(MoE),总参数量达1960亿,但每令牌仅激活110亿参数。其性能在推理、编码和智能体任务中均达到前沿水平,平均得分81.0,超越GLM-4.7(78.5)、DeepSeek V3.2(77.3)等竞品,接近闭源模型GPT-5.2(82.2)和Gemini 3.0 Pro(80.7)。
技术优势
高速深度推理
- 通过多令牌预测(MTP-3)技术,生成速度达100-300令牌/秒(单流编码任务峰值350令牌/秒),支持复杂多步推理链的即时响应。
- 在数学竞赛AIME 2025中得分97.3(启用Python工具后提升至99.8),接近人类顶级表现。
高效长上下文处理
- 采用3:1滑动窗口注意力(SWA)与全注意力混合架构,支持25.6万令牌上下文窗口,显著降低计算开销。
专业级智能体能力
- 在SWE-bench Verified(代码修复)和Terminal-Bench 2.0(终端任务)中分别取得74.4%和51.0%的准确率,展现长周期任务稳定性。
- 在股票投资案例中,无缝协调80+工具完成市场分析、数据可视化和自动化警报。
本地化部署优化
- 适配高端消费级硬件(如Mac Studio M4 Max、NVIDIA DGX Spark),支持GGUF格式量化模型,在DGX Spark上实现20令牌/秒的生成速度。
架构创新
- 稀疏MoE设计:通过动态参数激活平衡性能与效率。
- 强化学习框架(MIS-PO):采用严格样本过滤策略,解决长序列训练的稳定性问题。
- 云-端协同:以云端模型(Step 3.5 Flash)协调本地代理(Step-GUI),在复杂移动任务中性能提升42%。
性能对比
| 任务类型 | Step 3.5 Flash | GPT-5.2 | Gemini 3.0 Pro |
|----------------|----------------|---------|----------------|
| 数学推理(AIME)| 97.3 | 100.0 | 95.0 |
| 代码修复(SWE) | 74.4% | 80.0% | 76.2% |
| 深度研究(ResearchRubrics)| 65.3% | 60.7% | 63.7% |
未来方向
- 提升生成效率,缩短与Gemini 3.0 Pro的轨迹差距。
- 扩展强化学习在专业级任务(如工程、科研)中的应用。
- 优化分布外场景(如超长对话)的稳定性。
获取方式
Step 3.5 Flash 不仅是一组基准数字,更是为真实世界设计的可靠智能伙伴。
评论总结
以下是评论内容的总结:
模型性能与效率
- 正面评价:新发布的MoE架构模型在多项基准测试中表现优异,仅激活部分参数即可实现高效运行。
引用:"Beats Kimi K2.5 and GLM 4.7 on more benchmarks..."
引用:"It's nice to see more focus on efficiency." - 负面评价:存在幻觉问题,实际测试中其他模型表现更稳定。
引用:"Hallucinates like crazy. use with caution."
引用:"Opus 4.6, Deepseek and Kimi all performed well..."
- 正面评价:新发布的MoE架构模型在多项基准测试中表现优异,仅激活部分参数即可实现高效运行。
技术细节与实用性
- 参数数量并非关键指标,实际应用中的性价比(如token/美元)更重要。
引用:"Number of params isn’t really the relevant metric..." - 部分用户对反向坐标轴设计表示困惑。
引用:"That reverse x axis sure is confusing."
- 参数数量并非关键指标,实际应用中的性价比(如token/美元)更重要。
公司背景与地域发展
- 对StepFun公司背景和商业模式存在疑问。
引用:"So who exactly is StepFun? What is their business..." - 对中国模型崛起的对比思考,质疑日本或欧洲为何缺乏主流模型。
引用:"How come no major models are coming from Japan or Europe?"
- 对StepFun公司背景和商业模式存在疑问。
基准测试与输出质量
- 现有基准测试(如SWE-bench)需进一步改进以反映模型真实能力。
引用:"We need better SWE benchmarks... Making a fair benchmark is a lot of work." - 输出内容冗长但基础,与其他模型对比存在速度和质量差异。
引用:"The amount of reasoning output could fill a small book... more bare bones compared to others."
- 现有基准测试(如SWE-bench)需进一步改进以反映模型真实能力。
其他反馈
- 与pi.dev代理兼容性良好。
引用:"Works impressively well with pi.dev minimal agent." - 对TerminalBench 51%得分能否保证稳定性提出质疑。
引用:"A 51% score... doesn’t sound like it would guarantee 'unwavering stability'."
- 与pi.dev代理兼容性良好。
(总结涵盖12条核心评论,保留关键引用并平衡正负面观点,中文表达简洁。)