Hacker News 中文摘要

文章摘要

文章介绍了GLM-5.2模型的智能、性能与价格分析，基于包含9项评估的Artificial Analysis Intelligence Index v4.1，但该模型当前尚未提供相关数据。

文章总结

好的，这是根据您的要求，对原文主要内容进行的中文重述，已保留关键细节并删减了与主题无关的重复内容。

GLM-5.2 (max) 模型分析：智能、性能与价格

本文对 GLM-5.2 (max) 模型进行了全面分析，涵盖其智能水平、开放性、成本、速度及延迟等多个维度。

智能水平

该模型的智能水平通过“人工分析智能指数 v4.1”进行评估。该指数整合了9项评测，包括：GDPval-AA v2、𝜏³-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience 和 AA-LCR。目前，GLM-5.2 (max) 的智能指数数据尚未公布。推理模型会以灯泡图标进行标识。

开放性

模型开放性通过“人工分析开放性指数”进行衡量，评分范围为0到100，分数越高代表越开放。该指数用于判断模型权重是否公开可用，以及是否存在商业使用限制。

智能与成本对比

在“智能 vs. 每项智能指数任务成本”的对比图中，GLM-5.2 (max) 位于最具吸引力的象限。其成本计算方式为：根据输入、缓存命中、缓存写入、推理和回答等各类token的价格，除以任务数量，再根据其在智能指数中的权重进行加权平均。

Token使用情况

模型在完成一项智能指数任务时，平均需要输出一定数量的token。该数值是通过将每项评测的输出token数乘以对应基准测试在智能指数中的权重，再除以任务数量（排除重复项）计算得出的。

价格与成本

每项智能指数任务成本：按token类型划分的加权平均成本（美元），数值越低越好。
运行完整智能指数成本：运行所有评测的总成本（美元），基于模型各类token的价格和总使用量计算。
定价：展示了缓存命中、输入和输出token的每百万token价格（美元）。缓存命中价格通常比常规输入价格有显著折扣。不同提供商（如Anthropic、Google、OpenAI等）的缓存计费方式存在差异。

上下文窗口

模型的上下文窗口大小（token限制）越大越好，这对于需要处理大量数据的RAG（检索增强生成）工作流尤为重要。该数值表示输入和输出token的总和上限，通常输出token有更严格的限制。

速度

输出速度：以每秒输出token数衡量，数值越高越好。该数据代表模型在生成token时的速率。
每项智能指数任务时间：完成一项任务的加权平均时间（分钟），数值越低越好。该时间由每项任务的输出token数除以输出速度，再根据权重计算得出。

延迟

首Token延迟：从发送API请求到收到第一个回答token的时间（秒）。对于推理模型，此时间包含了模型的“思考”时间。
端到端响应时间：输出500个token所需的总时间（秒），数值越低越好。该时间由输入时间、推理模型的思考时间以及基于输出速度的答案生成时间三部分组成。

模型规模（仅限开源模型）

总参数量：模型在训练过程中学习到的可训练权重和偏置的总数（以十亿计）。
活跃参数量：在每次推理前向传播中实际执行的参数数量（以十亿计）。对于混合专家（MoE）模型，活跃参数少于总参数；而密集模型则使用全部参数。

评论总结

根据评论内容，总结如下：

主要观点与论据：

开源模型发展前景乐观：评论者认为开源模型正在快速进步，有望在未来1-2个版本达到Fable水平（DeathArrow），并期待在低端硬件上实现良好性能（lanycrost）。
特定基准测试表现突出：在“AA-Omniscience Non-Hallucination Rate”基准上，该模型表现远超DeepSeek、GPT 5.5和Fable，因其允许模型选择不回答并惩罚胡编乱造（wongarsu）。
性能与成本权衡：模型在最大思考模式下输出冗长（140m tokens），但“高”模式应更优（sourcecodeplz）。实际测试显示，与GLM 5相比，性能略优、速度快30%、但成本高50%（XCSme）。
对基准测试的质疑：有评论者因模型在基准中超过GPT-5.5而对结果可信度存疑（theturtletalks）。

平衡性总结： - 正面：开源模型进步显著，在抗幻觉基准上表现优异，本地模型已具实用性。 - 负面：输出冗长、成本较高，基准测试结果可能存疑。

关键引用（保留中英文）： - “One or two more releases and they will reach Fable level.”（DeathArrow） - “It does really well on 'AA-Omniscience Non-Hallucination Rate', far higher than DeepSeek, GPT 5.5 or Fable.”（wongarsu） - “I want to trust their benchmarks but when they have Muse Spark over GPT-5.5, it gives me pause.”（theturtletalks）

GLM 5.2 性能基准测试 -- GLM 5.2 Performance Benchmarks