Hacker News 中文摘要

文章摘要

GLM-5.2成为人工智能指数中新的开源模型领导者，在智能指数v4.1上以51分领先。该模型在科学推理等多项评估中表现突出，性能显著提升，同时保持了与GLM-5.1相同的模型规模和定价水平，在成本与性能之间达到最优平衡。

文章总结

标题：GLM-5.2成为人工智能分析指数新晋开源模型领导者

核心内容： 1. 模型地位 - GLM-5.2以51分成为人工智能分析指数v4.1排名第一的开源权重模型 - 超越MiniMax-M3（44分）、DeepSeek V4 Pro（44分）等竞争对手 - 在GDPval-AA v2测试中获得1524分，与商业模型GPT-5.5（1514分）表现相当

性能提升

参数量保持744B总量/40B激活参数不变
科学推理能力显著提升：CritPt测试提升16%，HLE测试提升12%
上下文窗口从20万token扩展至100万token
全知指数(AA-Omniscience)得分从2分提升至4分

使用成本

任务成本处于智能水平与单位任务成本帕累托前沿
每项任务成本约0.46美元
定价维持GLM-5.1标准：输入/缓存命中/输出token分别为1.4/0.26/4.4美元每百万

技术特点

采用MIT开源许可
每个智能指数任务消耗43k输出token（含37k推理token）
通过DeepInfra、Novita等第三方平台提供API服务

（注：原文中的图片链接及部分技术细节已精简，保留了核心数据对比和关键性能指标）

评论总结

以下是评论内容的总结，平衡呈现不同观点：

性能接近前沿但推理效率待提升
- 正面评价认为GLM 5.2接近SOTA水平（"frontier level"），效率突出（"only 700B/40B MoE"）
- 批评指出其推理耗时过长（"spent over 15 minutes...45k tokens"），比GPT 5.5低效（"GPT 5.5 is extremely reasoning efficient"）
性价比优势显著
- 多个评论强调其价格优势（"Opus 4.7 quality stupid prices"），API价格比主流低（"10x cheaper than Opus"）
- 但有人质疑成本数据（"am i missing something?"），指出其他模型可能更便宜（"DeepSeek V4 Pro...$0.05"）
实际使用体验分歧
- 部分用户认为性能足够（"good enough for recommending"），写作能力突出（"GLM writing + GPT reviewing"）
- 也有用户认为不及预期（"not Opus 4.5 level"），存在循环推理问题（"get stuck looping over a simple decision"）
技术限制与运营问题
- 缺乏图像输入被指出（"neither DeepSeek nor GLM have image input"）
- 服务器稳定性受诟病（"servers are melting...timeouts"），影响用户体验（"DeepSeek is my main provider these days"）

关键引用保留： - "writing a simple math evaluator...spent over 15 minutes"（评论1） - "Opus 4.7 quality stupid prices...$50 a month"（评论3） - "not Opus 4.5 level...can't figure things out"（评论8） - "servers are melting...timeouts"（评论2）

GLM-5.2成为人工智能分析领域新的开源权重模型标杆 -- GLM-5.2 is the new leading open weights model on Artificial Analysis

文章摘要

文章总结

评论总结