Hacker News 中文摘要

RSS订阅

GLM 4.5与Claude代码 -- GLM 4.5 with Claude Code

文章摘要

GLM-4.5和GLM-4.5-Air是专为代理应用设计的最新基础模型,采用混合专家架构,分别拥有355B和106B参数。它们通过15万亿通用数据预训练和特定任务微调,支持128k上下文长度,并强化了推理、编码和代理性能。模型优化了工具调用、网页浏览和软件开发,支持混合推理模式,包括复杂推理的思考模式和即时响应的非思考模式,适用于多种代理应用。

文章总结

GLM-4.5 系列模型介绍

GLM-4.5 和 GLM-4.5-Air 是 Z.AI 最新推出的旗舰模型,专为面向代理的应用场景设计。两者均采用混合专家(MoE)架构,其中 GLM-4.5 拥有 3550 亿参数,每次前向传播激活 320 亿参数;GLM-4.5-Air 则更为精简,总参数为 1060 亿,激活参数为 120 亿。模型的训练流程包括在 15 万亿通用数据上的预训练,以及针对代码、推理和代理任务的微调。上下文长度扩展至 128k token,并通过强化学习进一步提升推理、编码和代理性能。

核心能力与优化 GLM-4.5 系列模型在工具调用、网页浏览、软件工程和前端开发等方面表现出色,可集成到 Claude Code 和 Roo Code 等代码代理中,并通过工具调用 API 支持任意代理应用。模型支持混合推理模式,提供“思考模式”和“非思考模式”两种执行方式,用户可通过 thinking.type 参数进行切换,默认启用动态思考。

性能与效率 GLM-4.5 在多个标准基准测试中表现优异,尽管参数数量仅为 DeepSeek-R1 的一半和 Kimi-K2 的三分之一,但其参数效率更高。GLM-4.5-Air 在推理基准测试中超越了 Gemini 2.5 Flash、Qwen3-235B 和 Claude 4 Opus 等模型,跻身国内模型前三。此外,GLM-4.5 系列在成本与效率方面也取得突破,API 调用成本低至每百万输入 token 0.2 美元,输出 token 1.1 美元,生成速度超过每秒 100 token,适合低延迟、高并发的部署场景。

实际应用评估 在实际代理编码场景中,GLM-4.5 表现出色,尤其在工具调用可靠性和任务完成率方面具有显著优势。尽管与 Claude 4 Sonnet 相比仍有提升空间,但在大多数场景下提供了可媲美的体验。为确保透明度,Z.AI 发布了所有 52 个测试问题及完整代理轨迹,供行业验证和复现。

使用场景 GLM-4.5 的核心能力包括智能代码生成、实时代码补全和自动化错误修复,支持 Python、JavaScript 和 Java 等主流语言,能够根据自然语言指令生成结构良好、可扩展的高质量代码。典型用例包括在 1 小时内完成重构级任务,或在 5 分钟内生成完整产品原型。

快速入门 用户可通过 API 调用 GLM-4.5 模型,支持基本调用和流式调用两种方式。思考模式可通过 thinking.type 参数启用或禁用,默认情况下动态思考已启用。模型能够灵活处理简单、中等和复杂任务,充分发挥其推理和规划能力。

资源 用户可参考 API 文档 了解如何调用 API。

评论总结

评论内容总结:

  1. 对文章可信度的质疑

    • 有评论指出文章由被提及的公司撰写,存在利益冲突,难以完全信任其内容。
    • 引用:“Maybe it is great, but with a conflict of interest so obvious I can't exactly take their word for it.”
    • 引用:“I wonder how you justify this editorialized title, and if HN mods share your justification.”
  2. 对模型性能的积极评价

    • 多位用户表示GLM-4.5和GLM-4.5-Air表现优异,尤其是在与Claude Code集成时。
    • 引用:“Been using that for a while, first Chinese model that works REALLY well!”
    • 引用:“I was blown away by this model. It was definitely comparable to sonnet 4.”
  3. 对模型价格和性价比的讨论

    • 用户认为GLM-4.5的价格相比Anthropic等竞争对手更具吸引力。
    • 引用:“Their plans seem crazy cheap compared to Anthropic, especially if their models actually perform better than Opus.”
    • 引用:“Anthropic can't compete with this on cost. They're probably bleeding money as it is.”
  4. 对模型上下文长度和适用场景的疑问

    • 有用户对GLM-4.5的上下文长度表示担忧,认为其可能更适合短任务或精简上下文。
    • 引用:“Hmm with the lower context length I'm wonder how it holds up for problems requiring slightly larger context.”
    • 引用:“Maybe it's best for shorter tasks or condensed context?”
  5. 对模型集成和使用体验的反馈

    • 用户分享了使用GLM-4.5的实际体验,包括与Claude Code的集成效果和运行速度。
    • 引用:“Used it to fix a couple of bugs just now in Elixir and it runs very fast, faster than Codex with GPT-5 medium or high.”
    • 引用:“The Air model is light enough to run on a macbook pro and is useful for Cline.”
  6. 对模型质量和量化版本的担忧

    • 有用户质疑通过API提供的模型是否经过量化处理,导致性能下降。
    • 引用:“Can Z.ai confirm if this is the model we get through their API or is it quantized for Claude Code use?”
    • 引用:“I'm really concerned that some of the providers are using quantized versions of the models.”

总结:评论中对GLM-4.5的性能和价格普遍持积极态度,但也存在对文章可信度、模型上下文长度和量化版本的质疑。用户对其与Claude Code的集成效果和运行速度表示认可,同时对其性价比给予了高度评价。