Hacker News 中文摘要

文章摘要

GLM-4.5是由Zhipu AI和清华大学团队开发的开源混合专家（MoE）大语言模型，总参数量355B，激活参数量32B。该模型通过多阶段训练和强化学习，在代理、推理和编码任务中表现出色，尤其在代理任务中排名第二。GLM-4.5及其精简版GLM-4.5-Air（106B参数）已公开发布，旨在推动推理和代理AI系统的研究。

文章总结

GLM-4.5：面向代理、推理与编码的基础模型

摘要
GLM-4.5是由Zhipu AI与清华大学联合推出的开源大语言模型，采用混合专家（MoE）架构，总参数量达3550亿，激活参数量为320亿。该模型通过多阶段训练和专家模型迭代，结合强化学习，在代理、推理和编码（ARC）任务中表现出色。GLM-4.5在TAU-Bench、AIME 24和SWE-bench Verified等基准测试中分别取得了70.1%、91.0%和64.2%的成绩，整体排名第三，代理任务排名第二。GLM-4.5还推出了精简版GLM-4.5-Air（1060亿参数），以推动推理和代理AI系统的研究。

模型架构与训练
GLM-4.5采用MoE架构，通过损失平衡路由和Sigmoid门控机制提升计算效率。模型在预训练阶段使用了230万亿的token数据，并通过多阶段训练逐步提升推理和代理能力。预训练数据包括网页、社交媒体、书籍、论文和代码库，经过精心筛选和处理，确保高质量数据的覆盖。

推理与编码能力
GLM-4.5在推理任务中表现出色，尤其在数学和科学领域。在AIME 24和GPQA等基准测试中，模型分别取得了91.0%和79.1%的成绩。在编码任务中，GLM-4.5在SWE-bench Verified和Terminal-Bench中分别取得了64.2%和37.5%的成绩，超越了GPT-4.1和Gemini-2.5-Pro。

代理能力
GLM-4.5在代理任务中表现优异，尤其在TAU-Bench和BFCL v3中分别取得了70.1%和77.8%的成绩，与Claude Sonnet 4相当。在网页浏览任务中，GLM-4.5在BrowseComp中取得了26.4%的成绩，显著优于Claude Opus 4。

模型发布与开源
GLM-4.5及其精简版GLM-4.5-Air已在Z.ai、BigModel.cn和Hugging Face平台上发布，并开源了评估工具包，以确保基准测试结果的可复现性。

结论
GLM-4.5系列模型在推理、编码和代理任务中展现了强大的性能，尤其在参数效率上表现突出。通过开源模型和工具，GLM-4.5旨在推动大语言模型的研究与应用。

评论总结

主要观点总结：

模型创新与开源认可
- 观点：GLM-4.5被认为是一款创新的开源模型，尤其在参数效率和训练方法上表现出色。
- 论据：ttul提到这是“第一款在对比前沿专有模型时无需显著保留的开源模型”，并期待独立验证结果（"This feels like the first open model that doesn’t require significant caveats when comparing to frontier proprietary models"）。Reubend赞赏其开源性质，认为它推动了开源模型的边界（"Fantastic release, and it's under the Apache license too"）。
编码能力与实用性
- 观点：GLM-4.5在编码任务中表现优异，尤其在诚实性和一致性上优于Claude和GPT-5。
- 论据：reissbaker指出GLM-4.5在编码任务中“更诚实”，较少出现像Claude那样通过修改测试而非修复错误来通过测试的情况（"GLM-4.5 is somewhat better at being 'honest'"）。他还提到GLM-4.5在调试任务中表现接近Claude，且比GPT-5更稳定（"Compared to GPT-5, both Claude and GLM feel like they’re more consistent"）。
训练方法与技术细节
- 观点：GLM-4.5的训练方法，特别是专家模型蒸馏和单阶段强化学习，被认为具有创新性和实用性。
- 论据：starchild3001赞赏其“专家模型蒸馏”方法，认为这是一种解决通用模型“样样通，样样松”问题的结构化方式（"The idea of creating specialized 'expert models'... is a fascinating approach"）。他还提到单阶段强化学习在64K上下文长度上的表现优于多阶段方法（"The counter-intuitive result that a single-stage RL process... outperforms a progressive, multi-stage approach"）。
视觉推理与基准测试
- 观点：GLM-4.5在视觉推理任务中表现中等，介于Qwen 2.5 VL和前沿模型之间，但在某些基准测试中表现优异。
- 论据：darknoon认为其在视觉推理上“介于Qwen 2.5 VL和前沿模型之间”（"somewhere between a qwen 2.5 VL and the frontier models"）。starchild3001提到其在SWE-bench上的表现与更大或专有模型相当（"The performance on SWE-bench is impressive, putting it in the same league as much larger or proprietary models"）。
质疑与改进空间
- 观点：部分评论者对GLM-4.5在某些基准测试中的遗漏和实际应用中的表现提出疑问。
- 论据：lumost质疑为什么GLM-4.5在编码基准测试中被遗漏（"Why was qwen3 omitted from the coding benchmark but not other benchmarks?"）。starchild3001则希望看到其训练方法在更复杂的实际工作流程中的表现（"whether this hybrid training recipe holds up outside ARC-style evals"）。

总结：

GLM-4.5因其创新性、开源性质和编码能力受到广泛认可，尤其在参数效率和训练方法上表现出色。然而，其在视觉推理和某些基准测试中的表现仍有改进空间，部分评论者对其在实际应用中的表现持保留态度。

GLM-4.5：智能体、推理与编码（ARC）基础模型 [pdf] -- GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [pdf]

文章摘要

文章总结

评论总结

主要观点总结：

总结：