Hacker News 中文摘要

RSS订阅

为什么大语言模型对海马表情符号反应异常? -- Why do LLMs freak out over the seahorse emoji?

文章摘要

文章探讨了多个大型语言模型(如GPT-5、Claude Sonnet 4.5等)在回答"是否存在海马表情符号"时,一致错误地给出肯定答案的现象,揭示了模型在特定问题上的系统性偏差或训练数据缺陷。

文章总结

为什么大语言模型对海马表情符号如此执着?

本文探讨了一个有趣的现象:主流大语言模型(如GPT-5、Claude Sonnet 4.5等)都坚信存在海马表情符号,尽管实际上Unicode从未收录过这个表情。作者通过实验和理论分析揭示了这一现象背后的机制。

核心发现

  1. 集体幻觉

    • 测试显示:GPT-5、Claude 4.5等模型100%确信存在海马表情符号
    • 人类也存在类似记忆偏差:Reddit等平台有大量用户声称记得这个"被删除"的表情
    • 可能原因:训练数据中大量文本暗示其存在;海马作为水生生物,人们自然认为它应该与其他海洋生物表情并列
  2. 模型工作机制
    通过"logit透镜"技术(将语言模型的中间层输出转化为token预测)观察到:

    • 模型会构建"海马+表情符号"的概念组合(如"sea horse horse")
    • 在高层处理中,模型尝试生成类似🐟(鱼类表情)的字节序列
    • 但由于缺乏对应的真实编码,最终输出错误的表情符号
  3. 错误传播机制

    • 模型的lm_head组件负责将内部表示映射到具体token
    • 当模型无法找到真正的海马表情时,会选择最接近的替代品(如马或鱼的表情)
    • 部分模型会通过后续token纠正错误,而有些则会陷入错误循环

技术细节

作者通过对比鱼类表情符号(真实存在)和海马表情符号(不存在)的生成过程,展示了模型内部的工作差异。当询问真实存在的🐟时,模型能正确构建"fish + emoji"的表示;而面对海马时,模型虽然构建了类似结构,却因缺乏对应编码而失败。

延伸思考

这种现象可能解释了为什么强化学习对语言模型有帮助——它让模型能够获得关于自身输出质量的反馈,而这是预训练阶段所缺乏的。作者提供了实验代码供读者自行验证这一现象。

(注:原文中涉及的具体技术细节如tokenizer处理特殊字符的机制、各层logit输出表格等专业内容已做简化处理,保留核心逻辑脉络)

评论总结

以下是评论内容的总结:

  1. 模型内部认知与表达问题

    • 观点:LLM内部能正确理解"海马表情"概念,但缺乏对应token,导致输出错误
    • 引用:"it correctly represents 'seahorse emoji' internally, but that concept has no corresponding token" (llamasushi)
    • 引用:"The LLM has strong and deep rooted belief in its knowledge...but the language is so poor" (bravura)
  2. 不同模型的反应差异

    • 观点:各模型对不存在表情的反应不同,有的会自我纠正,有的持续输出错误
    • 引用:"Gemini 2.5 flash seems to nail it" (Mistletoe)
    • 引用:"ChatGPT...produced a flood of wrong answers and self corrections" (tdeck)
  3. 训练数据与人类认知的影响

    • 观点:训练数据中可能存在人类错误记忆(曼德拉效应),影响模型判断
    • 引用:"many humans (including me) mistakenly think a seahorse emoji exists" (thanhhaimai)
    • 引用:"those text got into the training set" (thanhhaimai)
  4. tokenization的技术局限

    • 观点:tokenization机制存在固有缺陷,会导致奇怪错误
    • 引用:"tokenization is one of those double edged swords" (porphyra)
    • 引用:"The number of 'r's in 'strawberry' being another well-known quirk" (porphyra)
  5. 解决方案的讨论

    • 观点:RLHF可能改善此问题,但具体修复方法尚不明确
    • 引用:"Explains why RL helps" (llamasushi)
    • 引用:"I would have no idea where to begin with solving it" (zten)
  6. 相关现象比较

    • 观点:类似SolidGoldMagikarp的tokenizer缺陷,但本质不同
    • 引用:"Reminds me a bit about the SolidGoldMagikarp" (ph4evers)
    • 引用:"Even though...clearly a bug in the tokenizer" (ph4evers)