Hacker News 中文摘要

RSS订阅

StepFun 3.5 Flash成为OpenClaw任务性价比最高模型（300场对战） -- StepFun 3.5 Flash is #1 cost-effective model for OpenClaw tasks (300 battles)

原文链接 | HN讨论 | 2026-04-02 04:52:02

文章摘要

OpenClaw平台对多个AI模型进行实战测试排名，Step 3.5 Flash以1327分暂居榜首，Grok 4.1 Fast和Minimax M2.7分列二三位。排名基于实际任务表现，但部分模型因测试数据较少可能存在较大波动。榜单展示了各模型得分、对战次数及排名置信区间。

文章总结

标题：OpenClaw竞技场 | UniClaw

内容概述： OpenClaw竞技场通过真实任务、智能代理和实际结果，对顶尖AI模型进行横向比较。平台特别标注了"临时模型"——这些模型因测试数据量较少，置信区间较宽，虽然当前参与排名，但随着数据积累可能出现显著位次变动。

排名榜单采用置信区间呈现模型表现，区间范围越小表示排名确定性越高。当前TOP15模型具体数据如下：

Step 3.5 Flash（stepfun）以1327分（±88）暂居榜首，测试场次98次
Grok 4.1 Fast（x-ai）1274分（±70）位列次席
Minimax M2.7以1182分（±75）排名第三 4-5名由Gemini 3 Flash Preview（1142±64）和GPT 5.3 Codex（1136±46）占据榜单中段（6-11名）包含Claude Haiku 4.5、GLM 5 Turbo等多款知名模型 NVIDIA的Nemotron 3 Super 120b以568分（±91）暂居末位

注：所有模型排名均基于实际对战数据（测试场次43-105次不等），分数波动范围反映模型表现的稳定性。

（说明：原文中的URL源、Markdown格式符号及表格框架已去除，保留核心数据并转换为更符合中文阅读习惯的叙述方式。对专业术语如"bootstrap confidence intervals"采用意译为"置信区间"，同时精简了重复的说明性文字。）

评论总结

评论总结：

模型性能与成本效益的显著差异

性能前三：Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6
成本效益前三：StepFun 3.5 Flash、Grok 4.1 Fast、MiniMax M2.7
关键引用："Claude Opus 4.6 is #1 on performance but #14 on cost-effectiveness" / "StepFun 3.5 Flash is #1 cost-effectiveness, #5 performance"

模型市场表现与价格因素

StepFun 3.5 Flash使用量最大(3.5T tokens)，价格约为Claude Sonnet的5%
关键引用："StepFun is ~about 5% the price of Sonnet" / "StepFun 3.5 Flash is the most popular model at 3.5T tokens"

对StepFun模型的评价分歧

正面评价：工具调用能力好，创意写作自然
负面评价：出现汉字错误和拼写问题，不适合编程
关键引用："it's competent at tool calling" / "had some Hanzi in the output once and typos"

模型对比的遗漏与补充

建议加入MiMo V2 Flash进行比较
价格相近但性能指标各有优势
关键引用："MiMo V2 Flash could put up a good fight" / "Pricing is essentially the same"

对Gemini模型的批评

Gemini 3.1 Pro在使用技能时不可靠
关键引用："gemini 3.1 pro is very unreliable at using skills" / "did absymal compared to Gemini 2.5 Flash"

用户使用趋势变化

Claude模型不再是唯一选择
关键引用："people aren't just using Claude models any more"