Hacker News 中文摘要

RSS订阅

StepFun 3.5 Flash成为OpenClaw任务性价比最高模型(300场对战) -- StepFun 3.5 Flash is #1 cost-effective model for OpenClaw tasks (300 battles)

文章摘要

OpenClaw平台对多个AI模型进行实战测试排名,Step 3.5 Flash以1327分暂居榜首,Grok 4.1 Fast和Minimax M2.7分列二三位。排名基于实际任务表现,但部分模型因测试数据较少可能存在较大波动。榜单展示了各模型得分、对战次数及排名置信区间。

文章总结

标题:OpenClaw竞技场 | UniClaw

内容概述: OpenClaw竞技场通过真实任务、智能代理和实际结果,对顶尖AI模型进行横向比较。平台特别标注了"临时模型"——这些模型因测试数据量较少,置信区间较宽,虽然当前参与排名,但随着数据积累可能出现显著位次变动。

排名榜单采用置信区间呈现模型表现,区间范围越小表示排名确定性越高。当前TOP15模型具体数据如下:

  1. Step 3.5 Flash(stepfun)以1327分(±88)暂居榜首,测试场次98次
  2. Grok 4.1 Fast(x-ai)1274分(±70)位列次席
  3. Minimax M2.7以1182分(±75)排名第三 4-5名由Gemini 3 Flash Preview(1142±64)和GPT 5.3 Codex(1136±46)占据 榜单中段(6-11名)包含Claude Haiku 4.5、GLM 5 Turbo等多款知名模型 NVIDIA的Nemotron 3 Super 120b以568分(±91)暂居末位

注:所有模型排名均基于实际对战数据(测试场次43-105次不等),分数波动范围反映模型表现的稳定性。

(说明:原文中的URL源、Markdown格式符号及表格框架已去除,保留核心数据并转换为更符合中文阅读习惯的叙述方式。对专业术语如"bootstrap confidence intervals"采用意译为"置信区间",同时精简了重复的说明性文字。)

评论总结

评论总结:

  1. 模型性能与成本效益的显著差异
  • 性能前三:Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6
  • 成本效益前三:StepFun 3.5 Flash、Grok 4.1 Fast、MiniMax M2.7
  • 关键引用:"Claude Opus 4.6 is #1 on performance but #14 on cost-effectiveness" / "StepFun 3.5 Flash is #1 cost-effectiveness, #5 performance"
  1. 模型市场表现与价格因素
  • StepFun 3.5 Flash使用量最大(3.5T tokens),价格约为Claude Sonnet的5%
  • 关键引用:"StepFun is ~about 5% the price of Sonnet" / "StepFun 3.5 Flash is the most popular model at 3.5T tokens"
  1. 对StepFun模型的评价分歧
  • 正面评价:工具调用能力好,创意写作自然
  • 负面评价:出现汉字错误和拼写问题,不适合编程
  • 关键引用:"it's competent at tool calling" / "had some Hanzi in the output once and typos"
  1. 模型对比的遗漏与补充
  • 建议加入MiMo V2 Flash进行比较
  • 价格相近但性能指标各有优势
  • 关键引用:"MiMo V2 Flash could put up a good fight" / "Pricing is essentially the same"
  1. 对Gemini模型的批评
  • Gemini 3.1 Pro在使用技能时不可靠
  • 关键引用:"gemini 3.1 pro is very unreliable at using skills" / "did absymal compared to Gemini 2.5 Flash"
  1. 用户使用趋势变化
  • Claude模型不再是唯一选择
  • 关键引用:"people aren't just using Claude models any more"