文章摘要
OpenAI致力于提升AI系统的实用性和可靠性,但语言模型中的“幻觉”问题仍难以彻底解决。幻觉指模型自信地生成不真实的答案,原因在于标准训练和评估过程鼓励猜测而非承认不确定性。尽管GPT-5在减少幻觉方面有显著进步,尤其是推理时,但问题依然存在。幻觉是所有大型语言模型的基本挑战,OpenAI正努力进一步减少其发生。
文章总结
标题:为什么语言模型会产生幻觉
在OpenAI,我们致力于使AI系统更加有用和可靠。尽管语言模型的能力不断增强,但一个挑战仍然难以完全解决:幻觉。所谓幻觉,指的是模型自信地生成一个不真实的答案。我们的新研究论文指出,语言模型之所以会产生幻觉,是因为标准的训练和评估程序鼓励猜测而非承认不确定性。
ChatGPT也会产生幻觉。GPT-5的幻觉显著减少,尤其是在推理时,但问题依然存在。幻觉仍然是所有大型语言模型面临的根本挑战,但我们正在努力进一步减少它们。
什么是幻觉?
幻觉是语言模型生成的看似合理但虚假的陈述。它们可能以令人惊讶的方式出现,即使对于看似简单的问题也是如此。例如,当我们向一个广泛使用的聊天机器人询问Adam Tauman Kalai(本文作者之一)的博士论文题目时,它自信地给出了三个不同的答案——没有一个正确。当我们询问他的生日时,它给出了三个不同的日期,同样都是错误的。
应试教育
幻觉之所以持续存在,部分原因是当前的评估方法设定了错误的激励机制。虽然评估本身并不直接导致幻觉,但大多数评估以鼓励猜测而非诚实面对不确定性的方式衡量模型的表现。
想象一下多项选择题测试。如果你不知道答案但随便猜一个,你可能会幸运地猜对。留空则肯定得零分。同样,当模型仅根据准确性(即答对问题的百分比)进行评分时,它们会被鼓励去猜测,而不是说“我不知道”。
例如,假设一个语言模型被问到某人的生日,但它不知道。如果它猜测“9月10日”,它有1/365的机会猜对。说“我不知道”则肯定得零分。在数千个测试问题中,猜测的模型在得分榜上看起来比承认不确定性的谨慎模型更好。
对于有单一“正确答案”的问题,可以考虑三类回答:准确回答、错误回答和模型不冒险猜测的弃权回答。弃权是谦逊的一部分,这是OpenAI的核心价值观之一。大多数得分榜优先并基于准确性对模型进行排名,但错误比弃权更糟糕。我们的模型规范指出,表示不确定性或请求澄清比提供可能不正确的自信信息更好。
在准确性方面,较旧的OpenAI o4-mini模型表现略好。然而,其错误率(即幻觉率)显著更高。在不确定时进行策略性猜测可以提高准确性,但会增加错误和幻觉。
在平均数十次评估结果时,大多数基准测试只提取准确性指标,但这在正确和错误之间产生了错误的二分法。在像SimpleQA这样的简单评估中,一些模型实现了接近100%的准确性,从而消除了幻觉。然而,在更具挑战性的评估和实际使用中,准确性上限低于100%,因为有些问题的答案由于各种原因无法确定,如信息不可用、小模型的有限思维能力或需要澄清的模糊性。
尽管如此,仅基于准确性的得分榜主导了排行榜和模型卡片,激励开发者构建猜测而非克制的模型。这就是为什么即使模型变得更先进,它们仍然会产生幻觉,自信地给出错误答案而不是承认不确定性。
有一个简单的解决方法。对自信的错误进行比不确定性更严厉的惩罚,并对适当表达不确定性给予部分分数。这个想法并不新鲜。一些标准化测试长期以来一直使用错误答案的负分或留空问题的部分分数来阻止盲目猜测。一些研究小组也探索了考虑不确定性和校准的评估。
我们的观点不同。仅仅添加一些新的不确定性感知测试是不够的。广泛使用的基于准确性的评估需要更新,以便其评分机制阻止猜测。如果主要得分榜继续奖励幸运的猜测,模型将继续学习猜测。修复得分榜可以扩大幻觉减少技术的采用,无论是新开发的还是先前研究的。
幻觉如何从下一个词预测中产生
我们已经讨论了为什么幻觉如此难以消除,但这些高度具体的事实错误最初是从哪里来的?毕竟,大型预训练模型很少表现出其他类型的错误,如拼写错误和不匹配的括号。差异与数据中的模式类型有关。
语言模型首先通过预训练学习,这是一个在大量文本中预测下一个词的过程。与传统的机器学习问题不同,每个陈述都没有“真/假”标签。模型只看到流畅语言的正面例子,必须近似整体分布。
当你没有任何被标记为无效的例子时,区分有效陈述和无效陈述是双倍困难的。但即使有标签,一些错误也是不可避免的。要理解这一点,考虑一个更简单的类比。在图像识别中,如果数百万张猫和狗的照片被标记为“猫”或“狗”,算法可以可靠地学习分类它们。但想象一下,每张宠物照片都标记为宠物的生日。由于生日本质上是随机的,这个任务总是会产生错误,无论算法多么先进。
同样的原则适用于预训练。拼写和括号遵循一致的模式,因此这些错误随着规模消失。但任意的低频事实,如宠物的生日,无法仅从模式中预测,因此导致幻觉。我们的分析解释了哪些类型的幻觉应该从下一个词预测中产生。理想情况下,预训练后的进一步阶段应该消除它们,但由于前一节所述的原因,这并不完全成功。
结论
我们希望我们论文中的统计视角能够澄清幻觉的本质,并反驳常见的误解:
- 声称:通过提高准确性可以消除幻觉,因为100%准确的模型从不产生幻觉。发现:准确性永远不会达到100%,因为无论模型大小、搜索和推理能力如何,一些现实世界的问题本质上是无法回答的。
- 声称:幻觉是不可避免的。发现:它们不是,因为语言模型可以在不确定时弃权。
- 声称:避免幻觉需要一种只有更大模型才能实现的智能程度。发现:小模型可能更容易知道其限制。例如,当被要求回答一个毛利语问题时,一个不懂毛利语的小模型可以简单地说“我不知道”,而一个懂一些毛利语的模型必须确定其信心。正如论文中所讨论的,被“校准”所需的计算量远低于准确性。
- 声称:幻觉是现代语言模型中的神秘故障。发现:我们理解幻觉在评估中产生和奖励的统计机制。
- 声称:要测量幻觉,我们只需要一个好的幻觉评估。发现:幻觉评估已经发布。然而,一个好的幻觉评估对数百个传统基于准确性的评估影响甚微,这些评估惩罚谦逊并奖励猜测。相反,所有主要的评估指标都需要重新设计,以奖励不确定性的表达。
我们最新的模型幻觉率较低,我们将继续努力进一步减少语言模型输出的自信错误率。
评论总结
评论内容主要围绕大语言模型(LLM)的“幻觉”(hallucination)问题展开,观点多样,既有对幻觉本质的探讨,也有对解决方案的讨论。以下是总结:
1. 幻觉的本质与不可避免性
- 观点:幻觉是LLM的固有特性,无法完全消除。
- 论据:
- “Hallucination is all an LLM does. That is their nature, to hallucinate.”(评论4)
- “AI hallucination is an inherent problem of AI. You can mitigate it, but the whole point of AI IS hallucination.”(评论16)
- 反驳:并非所有输出都是幻觉,部分模型通过规模和微调减少了幻觉(评论10)。
2. 幻觉的成因
- 观点:幻觉源于LLM的统计本质和训练数据的局限性。
- 论据:
- “LLMs hallucinate because they are language models. They model language, not truth.”(评论20)
- “The ability to learn patterns and generalize from them adds to this problem.”(评论17)
3. 解决方案与改进方向
- 观点:通过引入“我不知道”机制和改进评估标准,可以减少幻觉。
- 论据:
- “Future evals better include a ‘I don’t know’ opt-out, and a penalty for being wrong.”(评论9)
- “Teaching the models to doubt, to say ‘I don’t know’/‘I’m unsure’/‘I’m sure’ is a nice way to make them much better.”(评论7)
- 质疑:不确定性估计的可靠性存疑,且用户可能更倾向于快速而非准确的答案(评论12、13)。
4. 术语与定义争议
- 观点:“幻觉”一词可能误导,应使用更准确的术语。
- 论据:
- “Computers do not have brains or conscientiousness. They erroneously construct responses (i.e., confabulation).”(评论11)
- “Hallucination introduces the dangerous idea that ‘them getting things wrong’ is something like a ‘curable disease’.”(评论22)
5. 商业与学术的冲突
- 观点:商业利益与学术追求之间存在矛盾,企业可能优先考虑排行榜而非解决幻觉问题。
- 论据:
- “This article comes across as corporate justifying/complaining that their model’s score is lower than it should be on the leaderboards.”(评论23)
- “The business model of LLMs incentivizes hallucinations.”(评论13)
6. 用户需求与模型设计的矛盾
- 观点:用户对快速答案的需求与模型设计的准确性目标存在冲突。
- 论据:
- “Many users of LLMs have no interest in uncertainty. They don’t want to hear ‘I don’t know’.”(评论13)
- “LLMs are the fast food of search.”(评论13)
7. 技术细节与模型行为
- 观点:幻觉并非模型本身的问题,而是采样器的结果。
- 论据:
- “The model head doesn’t hallucinate. The sampler does.”(评论14)
- “The knowledge and lack of knowledge is there, you just produced bullshit out of it.”(评论14)
8. 对未来的展望
- 观点:尽管幻觉问题复杂,但技术进步和更严格的评估标准可能带来改进。
- 论据:
- “Good to see OpenAI’s call for better performance evals.”(评论9)
- “It is far better to say idk than a wrong answer.”(评论25)
总结:评论中对LLM幻觉问题的讨论涵盖了其本质、成因、解决方案、术语争议、商业与学术的冲突、用户需求与技术设计的矛盾等多个方面。尽管观点多样,但普遍认为幻觉是LLM的固有特性,无法完全消除,但可以通过改进模型设计和评估标准来减少其影响。