Hacker News 中文摘要

RSS订阅

GLM-4.7:编码能力进阶 -- GLM-4.7: Advancing the Coding Capability

文章摘要

GLM-4.7在编码能力上取得显著进步,包括核心编码效率提升(SWE-bench提升5.8%)、多语言任务表现优化(SWE-bench多语言版提升12.9%),以及终端任务性能增强(Terminal Bench 2.0提升16.5%)。此外,它在UI设计、工具使用和复杂推理(如HLE基准提升12.4%)等方面也有明显改进,同时支持主流代理框架的复杂任务处理。

文章总结

GLM-4.7:全面提升编程能力的新一代AI助手

2025年12月22日发布的最新研究显示,GLM-4.7作为新一代编程助手,在多个关键领域实现显著突破:

核心升级 - 编程能力:在SWE-bench(+5.8%)、多语言SWE-bench(+12.9%)和终端任务测试(+16.5%)中表现突出 - 思维模式:新增"保留式思维"和"回合级思维",支持在复杂任务中保持思维连贯性 - 数学推理:HLE基准测试成绩提升12.4个百分点

视觉呈现 - 网页设计:生成更现代、整洁的网页界面 - 幻灯片制作:优化版式布局与尺寸精度 - 艺术创作:支持体素艺术等复杂视觉设计

工具使用 - 网络浏览:BrowseComp基准提升显著 - 综合能力:τ²-Bench测试达到87.4分

性能对比 在17项基准测试中,GLM-4.7与GPT-5、Claude等主流模型相比: - 数学推理:HMMT测试最高达97.1分 - 代码代理:终端任务处理能力提升明显 - 综合表现:多项指标超越同类产品

应用场景 - 前端开发:支持高对比度暗黑模式等现代设计 - 创意设计:可生成包含复杂元素的体素艺术 - 文档制作:能创作具有设计感的宣传海报

使用方式 - 通过Z.ai平台API或OpenRouter调用 - 支持本地部署(HuggingFace/ModelScope提供模型权重) - 已集成至Claude Code等编程代理工具

订阅服务 GLM编程计划用户可自动升级,新用户能以1/7的成本获得Claude级别的编程体验。

(注:原文中的具体测试数据表格、图片链接及技术参数细节在此摘要中予以保留,次要的操作指南内容有所精简)

评论总结

以下是评论内容的总结:

  1. 性能评价

    • 多数评论认为该模型表现接近Claude 3.5 Sonnet/GPT-5.2,但不及Opus或GPT 5.2。
      • "roughly in the same zone as Sonnet, but not as good as Opus or GPT 5.2" (cmrdporcupine)
      • "Claims Claude 3.5 Sonnet/GPT-5 level performance" (jtrn)
  2. 与竞品对比的争议

    • 有评论指出测试中未包含Gemini 3.0 Pro或Claude 4.5 Opus,可能存在选择性展示。
      • "they didn't include Gemini 3.0 Pro in the bar chart comparison" (XCSme)
      • "Funny enough they excluded 4.5 opus" (maxdo)
  3. 风格相似性质疑

    • 部分用户发现其输出风格与Gemini 3 Pro高度相似。
      • "the thinking process is very similar to the raw Gemini 3 CoT" (Tiberium)
  4. 本地化部署潜力

    • 开源特性与可本地运行的特性受到开发者欢迎。
      • "could get a 'relatively' cheap Mac Studio and run this locally" (jtrn)
      • "hoping... I can run this locally" (gigatexal)
  5. 技术参数亮点

    • 突出特点包括:MoE架构、200k上下文窗口、多语言支持。
      • "358B/32B active... Context window: 200k" (jtrn)
  6. 未来期待

    • 用户希望继续优化模型体积和性能。
      • "hope... focus on shrinking the models" (esafak)
      • "showing large gains... hoping this gets even better" (gigatexal)

注:所有评论均未显示评分(None),但整体倾向以肯定为主,同时包含对测试方法和技术细节的质疑。