Hacker News 中文摘要

RSS订阅

GLM-5.2成为人工智能分析领域新的开源权重模型标杆 -- GLM-5.2 is the new leading open weights model on Artificial Analysis

文章摘要

GLM-5.2成为人工智能指数中新的开源模型领导者,在智能指数v4.1上以51分领先。该模型在科学推理等多项评估中表现突出,性能显著提升,同时保持了与GLM-5.1相同的模型规模和定价水平,在成本与性能之间达到最优平衡。

文章总结

标题:GLM-5.2成为人工智能分析指数新晋开源模型领导者

核心内容: 1. 模型地位 - GLM-5.2以51分成为人工智能分析指数v4.1排名第一的开源权重模型 - 超越MiniMax-M3(44分)、DeepSeek V4 Pro(44分)等竞争对手 - 在GDPval-AA v2测试中获得1524分,与商业模型GPT-5.5(1514分)表现相当

  1. 性能提升
  • 参数量保持744B总量/40B激活参数不变
  • 科学推理能力显著提升:CritPt测试提升16%,HLE测试提升12%
  • 上下文窗口从20万token扩展至100万token
  • 全知指数(AA-Omniscience)得分从2分提升至4分
  1. 使用成本
  • 任务成本处于智能水平与单位任务成本帕累托前沿
  • 每项任务成本约0.46美元
  • 定价维持GLM-5.1标准:输入/缓存命中/输出token分别为1.4/0.26/4.4美元每百万
  1. 技术特点
  • 采用MIT开源许可
  • 每个智能指数任务消耗43k输出token(含37k推理token)
  • 通过DeepInfra、Novita等第三方平台提供API服务

(注:原文中的图片链接及部分技术细节已精简,保留了核心数据对比和关键性能指标)

评论总结

以下是评论内容的总结,平衡呈现不同观点:

  1. 性能接近前沿但推理效率待提升

    • 正面评价认为GLM 5.2接近SOTA水平("frontier level"),效率突出("only 700B/40B MoE")
    • 批评指出其推理耗时过长("spent over 15 minutes...45k tokens"),比GPT 5.5低效("GPT 5.5 is extremely reasoning efficient")
  2. 性价比优势显著

    • 多个评论强调其价格优势("Opus 4.7 quality stupid prices"),API价格比主流低("10x cheaper than Opus")
    • 但有人质疑成本数据("am i missing something?"),指出其他模型可能更便宜("DeepSeek V4 Pro...$0.05")
  3. 实际使用体验分歧

    • 部分用户认为性能足够("good enough for recommending"),写作能力突出("GLM writing + GPT reviewing")
    • 也有用户认为不及预期("not Opus 4.5 level"),存在循环推理问题("get stuck looping over a simple decision")
  4. 技术限制与运营问题

    • 缺乏图像输入被指出("neither DeepSeek nor GLM have image input")
    • 服务器稳定性受诟病("servers are melting...timeouts"),影响用户体验("DeepSeek is my main provider these days")

关键引用保留: - "writing a simple math evaluator...spent over 15 minutes"(评论1) - "Opus 4.7 quality stupid prices...$50 a month"(评论3) - "not Opus 4.5 level...can't figure things out"(评论8) - "servers are melting...timeouts"(评论2)