文章摘要
GLM-5是新一代通用人工智能模型,参数规模从3550亿提升至7440亿,预训练数据从23万亿增至28.5万亿token。它采用深度稀疏注意力技术降低部署成本,并开发异步强化学习框架slime提升训练效率。相比前代,GLM-5在推理、编程和智能体任务上实现显著突破,缩小了与前沿模型的差距。
文章总结
GLM-5发布:从代码生成迈向智能体工程
模型升级与性能突破
智谱AI正式推出GLM-5大模型,专注于复杂系统工程与长周期智能体任务。通过规模扩展,模型参数量从GLM-4.5的3550亿(激活320亿)提升至7440亿(激活400亿),预训练数据从23万亿token增至28.5万亿。创新采用的DeepSeek稀疏注意力(DSA)技术,在保持长文本处理能力的同时显著降低部署成本。
针对强化学习训练效率问题,团队开发了异步RL框架slime,使后训练迭代更精细化。在CC-Bench-V2内部评估中,GLM-5在前端、后端及长周期任务上全面超越GLM-4.7,与Claude Opus 4.5的差距进一步缩小。
关键能力验证
- 长周期运营:在模拟自动售货机一年运营的Vending Bench 2测试中,GLM-5以4,432美元最终余额位列开源模型榜首,逼近Claude Opus 4.5(4,967美元)。
- 多领域表现:在数学竞赛(HMMT 96.9分)、编程(SWE-bench 77.8分)、通用智能体(τ²-Bench 89.7分)等23项基准测试中,GLM-5均达到开源模型最优水平。
生产力工具转型
GLM-5实现从"对话"到"办公"的跨越,支持将文本直接生成可交付的.docx/.pdf/.xlsx文件,包括产品需求文档、财务报表等。官方应用Z.ai同步推出智能体模式,内置PDF/Word/Excel生成技能,支持多轮协作。
开放与部署
- 开源访问:模型权重已在Hugging Face和ModelScope开源(MIT协议)。
- 开发者支持:兼容Claude Code/OpenClaw框架,提供vLLM/SGLang推理支持,并适配华为昇腾、寒武纪等国产芯片。
- 体验入口:用户可通过Z.ai聊天平台手动切换至GLM-5,或使用Z Code进行多智能体协作开发。
注:部分基准测试采用GPT-5.2(medium)作为评判模型,具体参数详见技术脚注。
评论总结
总结评论内容如下:
对GLM-5发布的信心与期待
部分用户认为GLM-5直接对标Opus 4.5,显示出对产品的信心,并期待能在消费级硬件上运行的版本。
引用:- "they're super confident about the GLM-5 release, since they're directly comparing it with Opus 4.5"(作者:beAroundHere)
- "GLM-5 is definitely the future!"(作者:petetnt)
对性能与基准测试的质疑
一些用户指出基准测试可能被优化("benchmaxxing"),实际使用体验不如预期,尤其是指令跟随和任务执行能力。
引用:- "All of the open weights models lately come with impressive benchmarks but then don't perform as well as expected in actual use."(作者:Aurornis)
- "the benchmark has been a really good indicator of instruction following and agentic behaviour... it's just not able to follow it at all."(作者:pcwelder)
价格与性价比的争议
用户对GLM-5的价格上涨表示不满,认为其性价比可能不如竞品(如Kimi),尤其是输入token的成本较高。
引用:- "Input tokens are twice as expensive. That might be a deal breaker."(作者:nullbyte)
- "They increased their prices substantially"(作者:ExpertAdvisor01)
技术细节与实用性讨论
部分用户关注技术改进(如稀疏注意力、长时任务处理),但也有人对实际应用(如文档生成)的效果持保留态度。
引用:- "focus on 'agentic engineering' and long-horizon tasks... a more honest evaluation of real-world utility."(作者:testuser_xyz)
- "Solid bird, not a great bicycle frame."(作者:simonw,评价生成结果质量)
行业竞争与生存压力
有观点认为中小公司在当前市场难以突破前沿模型的竞争,尤其是在价格和资源方面处于劣势。
引用:- "there's just no way for them to break through the noise from the frontier models... hemorrhaging money."(作者:woeirua)
- "we're seeing so many LLM releases that they can't even keep their benchmark comparisons updated"(作者:surrTurr)
不同观点相对平衡,既有对技术进步的肯定,也有对实际效果和商业可行性的质疑。