文章摘要
GLM-4.5是由Zhipu AI和清华大学团队开发的开源混合专家(MoE)大语言模型,总参数量355B,激活参数量32B。该模型通过多阶段训练和强化学习,在代理、推理和编码任务中表现出色,尤其在代理任务中排名第二。GLM-4.5及其精简版GLM-4.5-Air(106B参数)已公开发布,旨在推动推理和代理AI系统的研究。
文章总结
GLM-4.5:面向代理、推理与编码的基础模型
摘要
GLM-4.5是由Zhipu AI与清华大学联合推出的开源大语言模型,采用混合专家(MoE)架构,总参数量达3550亿,激活参数量为320亿。该模型通过多阶段训练和专家模型迭代,结合强化学习,在代理、推理和编码(ARC)任务中表现出色。GLM-4.5在TAU-Bench、AIME 24和SWE-bench Verified等基准测试中分别取得了70.1%、91.0%和64.2%的成绩,整体排名第三,代理任务排名第二。GLM-4.5还推出了精简版GLM-4.5-Air(1060亿参数),以推动推理和代理AI系统的研究。
模型架构与训练
GLM-4.5采用MoE架构,通过损失平衡路由和Sigmoid门控机制提升计算效率。模型在预训练阶段使用了230万亿的token数据,并通过多阶段训练逐步提升推理和代理能力。预训练数据包括网页、社交媒体、书籍、论文和代码库,经过精心筛选和处理,确保高质量数据的覆盖。
推理与编码能力
GLM-4.5在推理任务中表现出色,尤其在数学和科学领域。在AIME 24和GPQA等基准测试中,模型分别取得了91.0%和79.1%的成绩。在编码任务中,GLM-4.5在SWE-bench Verified和Terminal-Bench中分别取得了64.2%和37.5%的成绩,超越了GPT-4.1和Gemini-2.5-Pro。
代理能力
GLM-4.5在代理任务中表现优异,尤其在TAU-Bench和BFCL v3中分别取得了70.1%和77.8%的成绩,与Claude Sonnet 4相当。在网页浏览任务中,GLM-4.5在BrowseComp中取得了26.4%的成绩,显著优于Claude Opus 4。
模型发布与开源
GLM-4.5及其精简版GLM-4.5-Air已在Z.ai、BigModel.cn和Hugging Face平台上发布,并开源了评估工具包,以确保基准测试结果的可复现性。
结论
GLM-4.5系列模型在推理、编码和代理任务中展现了强大的性能,尤其在参数效率上表现突出。通过开源模型和工具,GLM-4.5旨在推动大语言模型的研究与应用。
评论总结
主要观点总结:
模型创新与开源认可
- 观点:GLM-4.5被认为是一款创新的开源模型,尤其在参数效率和训练方法上表现出色。
- 论据:ttul提到这是“第一款在对比前沿专有模型时无需显著保留的开源模型”,并期待独立验证结果("This feels like the first open model that doesn’t require significant caveats when comparing to frontier proprietary models")。Reubend赞赏其开源性质,认为它推动了开源模型的边界("Fantastic release, and it's under the Apache license too")。
编码能力与实用性
- 观点:GLM-4.5在编码任务中表现优异,尤其在诚实性和一致性上优于Claude和GPT-5。
- 论据:reissbaker指出GLM-4.5在编码任务中“更诚实”,较少出现像Claude那样通过修改测试而非修复错误来通过测试的情况("GLM-4.5 is somewhat better at being 'honest'")。他还提到GLM-4.5在调试任务中表现接近Claude,且比GPT-5更稳定("Compared to GPT-5, both Claude and GLM feel like they’re more consistent")。
训练方法与技术细节
- 观点:GLM-4.5的训练方法,特别是专家模型蒸馏和单阶段强化学习,被认为具有创新性和实用性。
- 论据:starchild3001赞赏其“专家模型蒸馏”方法,认为这是一种解决通用模型“样样通,样样松”问题的结构化方式("The idea of creating specialized 'expert models'... is a fascinating approach")。他还提到单阶段强化学习在64K上下文长度上的表现优于多阶段方法("The counter-intuitive result that a single-stage RL process... outperforms a progressive, multi-stage approach")。
视觉推理与基准测试
- 观点:GLM-4.5在视觉推理任务中表现中等,介于Qwen 2.5 VL和前沿模型之间,但在某些基准测试中表现优异。
- 论据:darknoon认为其在视觉推理上“介于Qwen 2.5 VL和前沿模型之间”("somewhere between a qwen 2.5 VL and the frontier models")。starchild3001提到其在SWE-bench上的表现与更大或专有模型相当("The performance on SWE-bench is impressive, putting it in the same league as much larger or proprietary models")。
质疑与改进空间
- 观点:部分评论者对GLM-4.5在某些基准测试中的遗漏和实际应用中的表现提出疑问。
- 论据:lumost质疑为什么GLM-4.5在编码基准测试中被遗漏("Why was qwen3 omitted from the coding benchmark but not other benchmarks?")。starchild3001则希望看到其训练方法在更复杂的实际工作流程中的表现("whether this hybrid training recipe holds up outside ARC-style evals")。
总结:
GLM-4.5因其创新性、开源性质和编码能力受到广泛认可,尤其在参数效率和训练方法上表现出色。然而,其在视觉推理和某些基准测试中的表现仍有改进空间,部分评论者对其在实际应用中的表现持保留态度。