Hacker News 中文摘要

RSS订阅

GPT-5.5 幻觉率是 MIT 许可的 GLM-5.2 的三倍 -- GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2

文章摘要

当前AI实验室正对无限扩大模型参数和训练数据的做法产生怀疑。美国因国家安全风险首次禁止了Claude Fable 5模型。开源模型GLM-5.2以更小参数量接近了GPT-5.5等超大模型,表明单纯扩大规模已无法显著提升智能水平。

文章总结

好的,这是根据您的要求,对原文进行的中文重述:

标题:模型并非越大越好

核心观点: 各大AI实验室正逐渐对无休止地扩大模型参数和训练数据规模的做法产生怀疑。这一范式的局限性因美国政府在Claude Fable 5发布仅三天后便以国家安全为由对其进行限制而凸显,标志着美国首次因安全风险而禁止AI模型。

“越大越好”的迷思被打破: 尽管大型模型在基准测试中得分更高,但开源模型GLM-5.2(753B参数,约40B活跃)的性能已非常接近GPT-5.5和Fable 5等闭源巨无霸(估计参数在1-2万亿)。这表明,单纯增加模型规模带来的智能提升已显著放缓。

“更大”反而带来更严重的问题: 当模型在海量高度事实性数据上训练时,它会倾向于“总是给出答案”。例如,拥有1.6万亿参数的DeepSeek V4 Pro在幻觉率测试中高达94%,意味着对于它无法解答的问题,只有约6%的情况会承认不知道,其余时候则自信地给出错误答案。相比之下,GLM-5.2的幻觉率为28%,而GPT-5.5则高达86%。

通过一个具体的Python编程问题测试发现,DeepSeek V4 Pro花费了近10倍的推理时间,却给出了一个自信但错误的答案。而规模小得多的GLM-5.2仅用12秒就识别出了问题中的技术悖论。GPT-5.5和DeepSeek V4 Pro是幻觉率最高的模型,尽管它们体积庞大,却未能学会“我不知道”或识别复杂的逻辑谬误。这模糊了基准测试性能与现实世界准确性和真实性之间的界限。

现代AI的“三难困境”: 我们应谨慎对待盲目增加推理预算、语料库规模或参数数量。DeepSeek V4 Pro浪费了大量算力进行推理循环,只为生成一个结构精美但自信错误的答案。而规模减半的模型却能瞬间识别出矛盾。

结论: 行业不能再继续训练越来越大的模型,因为其智能不仅会停滞,甚至可能变得更差。消费者也不应仅根据模型大小或理论性能来选择模型。AI的训练和选择需要围绕一个尚未解决的“三难困境”来设计:原始能力、不确定性校准/幻觉率,以及计算效率。

评论总结

根据评论内容,总结如下:

主要观点:大模型幻觉问题严重,但原因复杂

  1. 幻觉率普遍较高:评论指出,即使是最先进的模型,在不确定答案时也经常产生幻觉。例如,GLM-5.2的幻觉率为28%,而DeepSeek V4 Pro高达94%(solid_fuel)。这表明幻觉并非边缘问题,而是普遍现象。

  2. 模型规模并非唯一因素:虽然大模型(如DeepSeek V4 Pro)幻觉率更高,但其他因素如训练数据、RLHF(人类反馈强化学习)等也至关重要。例如,较小的DeepSeek V4 Flash在幻觉指数上表现更优,而Opus 4.8的绝对幻觉率(19%)低于GLM-5.2(21%)(aesthesia)。因此,不能简单归因于模型大小。

  3. 训练数据与机制的影响:评论认为,模型训练数据多为“有问有答”的完美案例,缺乏“不知道”的示例,导致模型倾向于编造答案(frankohn)。此外,RLHF过程可能偏向于给出“有趣”的答案,而忽略了承认无知。

  4. 未来方向:有评论提出,可考虑使用双模型系统(如小模型负责否定推理)或为LLM添加类似“杏仁核”的恐惧机制,以提升其承认不确定性的能力(nextaccountic, frankohn)。

平衡性说明:评论中既有对幻觉问题严重性的担忧(如solid_fuel认为这是“根本性问题”),也有对指标解读的谨慎态度(如aesthesia强调条件概率和绝对幻觉率的差异)。整体上,评论者认同幻觉是当前LLM的核心挑战,但对其成因和解决方案存在不同看法。