Hacker News 中文摘要

文章摘要

GLM-5.1是新一代旗舰模型，在复杂软件工程任务上表现优异，尤其在长期任务中展现出持续优化能力。相比前代模型，它能更有效地分解复杂问题、进行实验迭代，并通过反复推理持续改进策略，在长时间任务中保持高效产出。该模型在多项基准测试中领先同类产品。

文章总结

GLM-5.1：面向长周期任务的新一代旗舰模型

GLM-5.1是专为智能体工程设计的下一代旗舰模型，其代码能力较前代显著提升，在SWE-Bench Pro（复杂软件工程任务）、NL2Repo（仓库生成）和Terminal-Bench 2.0（真实终端任务）等基准测试中均取得领先表现。

核心突破：长周期优化能力

传统模型（包括GLM-5）往往在初期快速应用已知技术后陷入性能瓶颈，而GLM-5.1通过以下机制实现持续优化：
- 精准问题拆解：识别复杂任务的阻塞点，通过实验和迭代调整策略。
- 长期有效性：在数百轮迭代、数千次工具调用中保持优化，例如：
- 向量数据库优化：经过600次迭代和6000+工具调用，将查询性能提升至21.5k QPS（较单次50轮会话的最佳结果提高6倍）。
- GPU内核优化：在1000+轮次中实现3.6倍加速，显著优于GLM-5的早期停滞表现。
- 无明确指标场景：在构建Linux风格网页桌面环境的开放任务中，通过8小时自主迭代，从基础框架逐步完善为功能完整、界面一致的交互系统。

基准测试表现

| 测试项 | GLM-5.1 | 竞品对比（最优值） |
|-----------------------|---------|-------------------|
| SWE-Bench Pro | 58.4 | 领先GPT-5.4（57.7）|
| Terminal-Bench 2.0 | 63.5 | 略逊Claude Opus 4.6（65.4）|
| 推理任务（HLE w/工具）| 52.3 | 接近Claude Opus 4.6（53.1）|

开放性与应用

开源协议：MIT许可证公开模型权重，支持vLLM等本地推理框架。
开发者平台：可通过api.z.ai或BigModel.cn调用，兼容Claude Code等主流工具链。
限时优惠：4月底前非高峰时段使用仅按1倍配额计费。

未来方向

需进一步解决长周期任务中的局部最优陷阱、跨千次工具调用的连贯性保持，以及无量化指标时的自我评估难题。GLM-5.1标志着该方向的首步突破。

（注：原文中部分基准测试表格及技术脚注因篇幅精简未完全呈现，保留核心数据对比及关键结论。）

评论总结

以下是评论内容的总结：

社区规范提醒
- 提醒用户注意发帖方式，避免引发社区反感。
  "please don't post like this to HN - it will just irritate the community"
模型性能评价
- 优点：GLM 5.1在短上下文任务（如bug修复）中表现良好，性价比高。
  "it does about what I'd expect from Sonnet for a pretty low price"
- 缺点：长上下文（超过128k tokens）可能失去连贯性，甚至输出乱码。
  "loses coherency over longer contexts... spouting gibberish"
硬件要求高
- 模型量化版本（如IQ4_XS）体积庞大（361GB），普通用户难以运行。
  "not going to be able to run even with high end hardware"
付费计划问题
- 用户反馈“Coding Lite”计划质量下降，存在量化问题和逻辑混乱。
  "seriously gimped now... useless for any serious coding work"
模型表现不稳定
- 虽然GLM 5.1在某些情况下（如TypeScript生成）优于其他模型，但长上下文中可能突然出错。
  "producing much better typescript... but go into shizo mode"
与其他技术的比较
- 用户好奇GLM 5.1与MAKER等方法的对比，但未展开讨论。
  "how that compare to harness methods like MAKER"

总结：GLM 5.1在短任务中表现优秀且经济，但长上下文处理不稳定，硬件要求高，部分用户对服务降级不满。

GLM-5.1：迈向长视野任务 -- GLM-5.1: Towards Long-Horizon Tasks