Hacker News 中文摘要

文章摘要

GLM-4.5和GLM-4.5-Air是专为代理应用设计的最新基础模型，采用混合专家架构，分别拥有355B和106B参数。它们通过15万亿通用数据预训练和特定任务微调，支持128k上下文长度，并强化了推理、编码和代理性能。模型优化了工具调用、网页浏览和软件开发，支持混合推理模式，包括复杂推理的思考模式和即时响应的非思考模式，适用于多种代理应用。

文章总结

GLM-4.5 系列模型介绍

GLM-4.5 和 GLM-4.5-Air 是 Z.AI 最新推出的旗舰模型，专为面向代理的应用场景设计。两者均采用混合专家（MoE）架构，其中 GLM-4.5 拥有 3550 亿参数，每次前向传播激活 320 亿参数；GLM-4.5-Air 则更为精简，总参数为 1060 亿，激活参数为 120 亿。模型的训练流程包括在 15 万亿通用数据上的预训练，以及针对代码、推理和代理任务的微调。上下文长度扩展至 128k token，并通过强化学习进一步提升推理、编码和代理性能。

核心能力与优化 GLM-4.5 系列模型在工具调用、网页浏览、软件工程和前端开发等方面表现出色，可集成到 Claude Code 和 Roo Code 等代码代理中，并通过工具调用 API 支持任意代理应用。模型支持混合推理模式，提供“思考模式”和“非思考模式”两种执行方式，用户可通过 thinking.type 参数进行切换，默认启用动态思考。

性能与效率 GLM-4.5 在多个标准基准测试中表现优异，尽管参数数量仅为 DeepSeek-R1 的一半和 Kimi-K2 的三分之一，但其参数效率更高。GLM-4.5-Air 在推理基准测试中超越了 Gemini 2.5 Flash、Qwen3-235B 和 Claude 4 Opus 等模型，跻身国内模型前三。此外，GLM-4.5 系列在成本与效率方面也取得突破，API 调用成本低至每百万输入 token 0.2 美元，输出 token 1.1 美元，生成速度超过每秒 100 token，适合低延迟、高并发的部署场景。

实际应用评估 在实际代理编码场景中，GLM-4.5 表现出色，尤其在工具调用可靠性和任务完成率方面具有显著优势。尽管与 Claude 4 Sonnet 相比仍有提升空间，但在大多数场景下提供了可媲美的体验。为确保透明度，Z.AI 发布了所有 52 个测试问题及完整代理轨迹，供行业验证和复现。

使用场景 GLM-4.5 的核心能力包括智能代码生成、实时代码补全和自动化错误修复，支持 Python、JavaScript 和 Java 等主流语言，能够根据自然语言指令生成结构良好、可扩展的高质量代码。典型用例包括在 1 小时内完成重构级任务，或在 5 分钟内生成完整产品原型。

快速入门 用户可通过 API 调用 GLM-4.5 模型，支持基本调用和流式调用两种方式。思考模式可通过 thinking.type 参数启用或禁用，默认情况下动态思考已启用。模型能够灵活处理简单、中等和复杂任务，充分发挥其推理和规划能力。

资源用户可参考 API 文档了解如何调用 API。

评论总结

评论内容总结：

对文章可信度的质疑
- 有评论指出文章由被提及的公司撰写，存在利益冲突，难以完全信任其内容。
- 引用：“Maybe it is great, but with a conflict of interest so obvious I can't exactly take their word for it.”
- 引用：“I wonder how you justify this editorialized title, and if HN mods share your justification.”
对模型性能的积极评价
- 多位用户表示GLM-4.5和GLM-4.5-Air表现优异，尤其是在与Claude Code集成时。
- 引用：“Been using that for a while, first Chinese model that works REALLY well!”
- 引用：“I was blown away by this model. It was definitely comparable to sonnet 4.”
对模型价格和性价比的讨论
- 用户认为GLM-4.5的价格相比Anthropic等竞争对手更具吸引力。
- 引用：“Their plans seem crazy cheap compared to Anthropic, especially if their models actually perform better than Opus.”
- 引用：“Anthropic can't compete with this on cost. They're probably bleeding money as it is.”
对模型上下文长度和适用场景的疑问
- 有用户对GLM-4.5的上下文长度表示担忧，认为其可能更适合短任务或精简上下文。
- 引用：“Hmm with the lower context length I'm wonder how it holds up for problems requiring slightly larger context.”
- 引用：“Maybe it's best for shorter tasks or condensed context?”
对模型集成和使用体验的反馈
- 用户分享了使用GLM-4.5的实际体验，包括与Claude Code的集成效果和运行速度。
- 引用：“Used it to fix a couple of bugs just now in Elixir and it runs very fast, faster than Codex with GPT-5 medium or high.”
- 引用：“The Air model is light enough to run on a macbook pro and is useful for Cline.”
对模型质量和量化版本的担忧
- 有用户质疑通过API提供的模型是否经过量化处理，导致性能下降。
- 引用：“Can Z.ai confirm if this is the model we get through their API or is it quantized for Claude Code use?”
- 引用：“I'm really concerned that some of the providers are using quantized versions of the models.”

总结：评论中对GLM-4.5的性能和价格普遍持积极态度，但也存在对文章可信度、模型上下文长度和量化版本的质疑。用户对其与Claude Code的集成效果和运行速度表示认可，同时对其性价比给予了高度评价。

GLM 4.5与Claude代码 -- GLM 4.5 with Claude Code

文章摘要

文章总结

评论总结