Hacker News 中文摘要

RSS订阅

GLM-5.1:迈向长视野任务 -- GLM-5.1: Towards Long-Horizon Tasks

文章摘要

GLM-5.1是新一代旗舰模型,在复杂软件工程任务上表现优异,尤其在长期任务中展现出持续优化能力。相比前代模型,它能更有效地分解复杂问题、进行实验迭代,并通过反复推理持续改进策略,在长时间任务中保持高效产出。该模型在多项基准测试中领先同类产品。

文章总结

GLM-5.1:面向长周期任务的新一代旗舰模型

GLM-5.1是专为智能体工程设计的下一代旗舰模型,其代码能力较前代显著提升,在SWE-Bench Pro(复杂软件工程任务)、NL2Repo(仓库生成)和Terminal-Bench 2.0(真实终端任务)等基准测试中均取得领先表现。

核心突破:长周期优化能力

传统模型(包括GLM-5)往往在初期快速应用已知技术后陷入性能瓶颈,而GLM-5.1通过以下机制实现持续优化:
- 精准问题拆解:识别复杂任务的阻塞点,通过实验和迭代调整策略。
- 长期有效性:在数百轮迭代、数千次工具调用中保持优化,例如:
- 向量数据库优化:经过600次迭代和6000+工具调用,将查询性能提升至21.5k QPS(较单次50轮会话的最佳结果提高6倍)。
- GPU内核优化:在1000+轮次中实现3.6倍加速,显著优于GLM-5的早期停滞表现。
- 无明确指标场景:在构建Linux风格网页桌面环境的开放任务中,通过8小时自主迭代,从基础框架逐步完善为功能完整、界面一致的交互系统。

基准测试表现

| 测试项 | GLM-5.1 | 竞品对比(最优值) |
|-----------------------|---------|-------------------|
| SWE-Bench Pro | 58.4 | 领先GPT-5.4(57.7)|
| Terminal-Bench 2.0 | 63.5 | 略逊Claude Opus 4.6(65.4)|
| 推理任务(HLE w/工具)| 52.3 | 接近Claude Opus 4.6(53.1)|

开放性与应用

  • 开源协议:MIT许可证公开模型权重,支持vLLM等本地推理框架。
  • 开发者平台:可通过api.z.aiBigModel.cn调用,兼容Claude Code等主流工具链。
  • 限时优惠:4月底前非高峰时段使用仅按1倍配额计费。

未来方向

需进一步解决长周期任务中的局部最优陷阱、跨千次工具调用的连贯性保持,以及无量化指标时的自我评估难题。GLM-5.1标志着该方向的首步突破。

(注:原文中部分基准测试表格及技术脚注因篇幅精简未完全呈现,保留核心数据对比及关键结论。)

评论总结

以下是评论内容的总结:

  1. 社区规范提醒

    • 提醒用户注意发帖方式,避免引发社区反感。
      "please don't post like this to HN - it will just irritate the community"
  2. 模型性能评价

    • 优点:GLM 5.1在短上下文任务(如bug修复)中表现良好,性价比高。
      "it does about what I'd expect from Sonnet for a pretty low price"
    • 缺点:长上下文(超过128k tokens)可能失去连贯性,甚至输出乱码。
      "loses coherency over longer contexts... spouting gibberish"
  3. 硬件要求高

    • 模型量化版本(如IQ4_XS)体积庞大(361GB),普通用户难以运行。
      "not going to be able to run even with high end hardware"
  4. 付费计划问题

    • 用户反馈“Coding Lite”计划质量下降,存在量化问题和逻辑混乱。
      "seriously gimped now... useless for any serious coding work"
  5. 模型表现不稳定

    • 虽然GLM 5.1在某些情况下(如TypeScript生成)优于其他模型,但长上下文中可能突然出错。
      "producing much better typescript... but go into shizo mode"
  6. 与其他技术的比较

    • 用户好奇GLM 5.1与MAKER等方法的对比,但未展开讨论。
      "how that compare to harness methods like MAKER"

总结:GLM 5.1在短任务中表现优秀且经济,但长上下文处理不稳定,硬件要求高,部分用户对服务降级不满。