Hacker News 中文摘要

文章摘要

文章探讨了多个大型语言模型（如GPT-5、Claude Sonnet 4.5等）在回答"是否存在海马表情符号"时，一致错误地给出肯定答案的现象，揭示了模型在特定问题上的系统性偏差或训练数据缺陷。

文章总结

为什么大语言模型对海马表情符号如此执着？

本文探讨了一个有趣的现象：主流大语言模型（如GPT-5、Claude Sonnet 4.5等）都坚信存在海马表情符号，尽管实际上Unicode从未收录过这个表情。作者通过实验和理论分析揭示了这一现象背后的机制。

核心发现

集体幻觉
- 测试显示：GPT-5、Claude 4.5等模型100%确信存在海马表情符号
- 人类也存在类似记忆偏差：Reddit等平台有大量用户声称记得这个"被删除"的表情
- 可能原因：训练数据中大量文本暗示其存在；海马作为水生生物，人们自然认为它应该与其他海洋生物表情并列
模型工作机制
通过"logit透镜"技术（将语言模型的中间层输出转化为token预测）观察到：
- 模型会构建"海马+表情符号"的概念组合（如"sea horse horse"）
- 在高层处理中，模型尝试生成类似🐟（鱼类表情）的字节序列
- 但由于缺乏对应的真实编码，最终输出错误的表情符号
错误传播机制
- 模型的lm_head组件负责将内部表示映射到具体token
- 当模型无法找到真正的海马表情时，会选择最接近的替代品（如马或鱼的表情）
- 部分模型会通过后续token纠正错误，而有些则会陷入错误循环

技术细节

作者通过对比鱼类表情符号（真实存在）和海马表情符号（不存在）的生成过程，展示了模型内部的工作差异。当询问真实存在的🐟时，模型能正确构建"fish + emoji"的表示；而面对海马时，模型虽然构建了类似结构，却因缺乏对应编码而失败。

延伸思考

这种现象可能解释了为什么强化学习对语言模型有帮助——它让模型能够获得关于自身输出质量的反馈，而这是预训练阶段所缺乏的。作者提供了实验代码供读者自行验证这一现象。

（注：原文中涉及的具体技术细节如tokenizer处理特殊字符的机制、各层logit输出表格等专业内容已做简化处理，保留核心逻辑脉络）

评论总结

以下是评论内容的总结：

模型内部认知与表达问题
- 观点：LLM内部能正确理解"海马表情"概念，但缺乏对应token，导致输出错误
- 引用："it correctly represents 'seahorse emoji' internally, but that concept has no corresponding token" (llamasushi)
- 引用："The LLM has strong and deep rooted belief in its knowledge...but the language is so poor" (bravura)
不同模型的反应差异
- 观点：各模型对不存在表情的反应不同，有的会自我纠正，有的持续输出错误
- 引用："Gemini 2.5 flash seems to nail it" (Mistletoe)
- 引用："ChatGPT...produced a flood of wrong answers and self corrections" (tdeck)
训练数据与人类认知的影响
- 观点：训练数据中可能存在人类错误记忆（曼德拉效应），影响模型判断
- 引用："many humans (including me) mistakenly think a seahorse emoji exists" (thanhhaimai)
- 引用："those text got into the training set" (thanhhaimai)
tokenization的技术局限
- 观点：tokenization机制存在固有缺陷，会导致奇怪错误
- 引用："tokenization is one of those double edged swords" (porphyra)
- 引用："The number of 'r's in 'strawberry' being another well-known quirk" (porphyra)
解决方案的讨论
- 观点：RLHF可能改善此问题，但具体修复方法尚不明确
- 引用："Explains why RL helps" (llamasushi)
- 引用："I would have no idea where to begin with solving it" (zten)
相关现象比较
- 观点：类似SolidGoldMagikarp的tokenizer缺陷，但本质不同
- 引用："Reminds me a bit about the SolidGoldMagikarp" (ph4evers)
- 引用："Even though...clearly a bug in the tokenizer" (ph4evers)