文章摘要
文章介绍了GLM-5.2模型的智能、性能与价格分析,基于包含9项评估的Artificial Analysis Intelligence Index v4.1,但该模型当前尚未提供相关数据。
文章总结
好的,这是根据您的要求,对原文主要内容进行的中文重述,已保留关键细节并删减了与主题无关的重复内容。
GLM-5.2 (max) 模型分析:智能、性能与价格
本文对 GLM-5.2 (max) 模型进行了全面分析,涵盖其智能水平、开放性、成本、速度及延迟等多个维度。
智能水平
该模型的智能水平通过“人工分析智能指数 v4.1”进行评估。该指数整合了9项评测,包括:GDPval-AA v2、𝜏³-Banking、Terminal-Bench v2.1、SciCode、Humanity's Last Exam、GPQA Diamond、CritPt、AA-Omniscience 和 AA-LCR。目前,GLM-5.2 (max) 的智能指数数据尚未公布。推理模型会以灯泡图标进行标识。
开放性
模型开放性通过“人工分析开放性指数”进行衡量,评分范围为0到100,分数越高代表越开放。该指数用于判断模型权重是否公开可用,以及是否存在商业使用限制。
智能与成本对比
在“智能 vs. 每项智能指数任务成本”的对比图中,GLM-5.2 (max) 位于最具吸引力的象限。其成本计算方式为:根据输入、缓存命中、缓存写入、推理和回答等各类token的价格,除以任务数量,再根据其在智能指数中的权重进行加权平均。
Token使用情况
模型在完成一项智能指数任务时,平均需要输出一定数量的token。该数值是通过将每项评测的输出token数乘以对应基准测试在智能指数中的权重,再除以任务数量(排除重复项)计算得出的。
价格与成本
- 每项智能指数任务成本:按token类型划分的加权平均成本(美元),数值越低越好。
- 运行完整智能指数成本:运行所有评测的总成本(美元),基于模型各类token的价格和总使用量计算。
- 定价:展示了缓存命中、输入和输出token的每百万token价格(美元)。缓存命中价格通常比常规输入价格有显著折扣。不同提供商(如Anthropic、Google、OpenAI等)的缓存计费方式存在差异。
上下文窗口
模型的上下文窗口大小(token限制)越大越好,这对于需要处理大量数据的RAG(检索增强生成)工作流尤为重要。该数值表示输入和输出token的总和上限,通常输出token有更严格的限制。
速度
- 输出速度:以每秒输出token数衡量,数值越高越好。该数据代表模型在生成token时的速率。
- 每项智能指数任务时间:完成一项任务的加权平均时间(分钟),数值越低越好。该时间由每项任务的输出token数除以输出速度,再根据权重计算得出。
延迟
- 首Token延迟:从发送API请求到收到第一个回答token的时间(秒)。对于推理模型,此时间包含了模型的“思考”时间。
- 端到端响应时间:输出500个token所需的总时间(秒),数值越低越好。该时间由输入时间、推理模型的思考时间以及基于输出速度的答案生成时间三部分组成。
模型规模(仅限开源模型)
- 总参数量:模型在训练过程中学习到的可训练权重和偏置的总数(以十亿计)。
- 活跃参数量:在每次推理前向传播中实际执行的参数数量(以十亿计)。对于混合专家(MoE)模型,活跃参数少于总参数;而密集模型则使用全部参数。
评论总结
根据评论内容,总结如下:
主要观点与论据:
开源模型发展前景乐观:评论者认为开源模型正在快速进步,有望在未来1-2个版本达到Fable水平(DeathArrow),并期待在低端硬件上实现良好性能(lanycrost)。
特定基准测试表现突出:在“AA-Omniscience Non-Hallucination Rate”基准上,该模型表现远超DeepSeek、GPT 5.5和Fable,因其允许模型选择不回答并惩罚胡编乱造(wongarsu)。
性能与成本权衡:模型在最大思考模式下输出冗长(140m tokens),但“高”模式应更优(sourcecodeplz)。实际测试显示,与GLM 5相比,性能略优、速度快30%、但成本高50%(XCSme)。
对基准测试的质疑:有评论者因模型在基准中超过GPT-5.5而对结果可信度存疑(theturtletalks)。
平衡性总结: - 正面:开源模型进步显著,在抗幻觉基准上表现优异,本地模型已具实用性。 - 负面:输出冗长、成本较高,基准测试结果可能存疑。
关键引用(保留中英文): - “One or two more releases and they will reach Fable level.”(DeathArrow) - “It does really well on 'AA-Omniscience Non-Hallucination Rate', far higher than DeepSeek, GPT 5.5 or Fable.”(wongarsu) - “I want to trust their benchmarks but when they have Muse Spark over GPT-5.5, it gives me pause.”(theturtletalks)