文章摘要
GLM-5.2成为人工智能指数中新的开源模型领导者,在智能指数v4.1上以51分领先。该模型在科学推理等多项评估中表现突出,性能显著提升,同时保持了与GLM-5.1相同的模型规模和定价水平,在成本与性能之间达到最优平衡。
文章总结
标题:GLM-5.2成为人工智能分析指数新晋开源模型领导者
核心内容: 1. 模型地位 - GLM-5.2以51分成为人工智能分析指数v4.1排名第一的开源权重模型 - 超越MiniMax-M3(44分)、DeepSeek V4 Pro(44分)等竞争对手 - 在GDPval-AA v2测试中获得1524分,与商业模型GPT-5.5(1514分)表现相当
- 性能提升
- 参数量保持744B总量/40B激活参数不变
- 科学推理能力显著提升:CritPt测试提升16%,HLE测试提升12%
- 上下文窗口从20万token扩展至100万token
- 全知指数(AA-Omniscience)得分从2分提升至4分
- 使用成本
- 任务成本处于智能水平与单位任务成本帕累托前沿
- 每项任务成本约0.46美元
- 定价维持GLM-5.1标准:输入/缓存命中/输出token分别为1.4/0.26/4.4美元每百万
- 技术特点
- 采用MIT开源许可
- 每个智能指数任务消耗43k输出token(含37k推理token)
- 通过DeepInfra、Novita等第三方平台提供API服务
(注:原文中的图片链接及部分技术细节已精简,保留了核心数据对比和关键性能指标)
评论总结
以下是评论内容的总结,平衡呈现不同观点:
性能接近前沿但推理效率待提升
- 正面评价认为GLM 5.2接近SOTA水平("frontier level"),效率突出("only 700B/40B MoE")
- 批评指出其推理耗时过长("spent over 15 minutes...45k tokens"),比GPT 5.5低效("GPT 5.5 is extremely reasoning efficient")
性价比优势显著
- 多个评论强调其价格优势("Opus 4.7 quality stupid prices"),API价格比主流低("10x cheaper than Opus")
- 但有人质疑成本数据("am i missing something?"),指出其他模型可能更便宜("DeepSeek V4 Pro...$0.05")
实际使用体验分歧
- 部分用户认为性能足够("good enough for recommending"),写作能力突出("GLM writing + GPT reviewing")
- 也有用户认为不及预期("not Opus 4.5 level"),存在循环推理问题("get stuck looping over a simple decision")
技术限制与运营问题
- 缺乏图像输入被指出("neither DeepSeek nor GLM have image input")
- 服务器稳定性受诟病("servers are melting...timeouts"),影响用户体验("DeepSeek is my main provider these days")
关键引用保留: - "writing a simple math evaluator...spent over 15 minutes"(评论1) - "Opus 4.7 quality stupid prices...$50 a month"(评论3) - "not Opus 4.5 level...can't figure things out"(评论8) - "servers are melting...timeouts"(评论2)