文章摘要
文章探讨了链式思维推理在人工智能中的有效性,指出其在处理分布内或接近分布内数据时表现良好,但在面对适度分布变化时容易失效,甚至产生流畅但逻辑不一致的推理步骤。作者认为,这种看似结构化的推理可能只是训练数据中记忆或插值模式的幻象,而非真正的推理能力。
文章总结
标题:链式思维AI推理是海市蜃楼吗?
主要内容:
最近,关于链式思维推理(Chain-of-Thought Reasoning)的研究论文和文章让我感到沮丧。尽管有许多有趣的问题可以探讨,比如链式思维是否准确反映了实际的思维过程,或者为什么从头开始训练时,模型生成的思维链会在多种语言之间流畅切换,但人们却总是问最无趣的问题:链式思维推理是否“真正”是推理。
苹果公司在他们的《思考的幻觉》论文中探讨了这个问题,而亚利桑那州立大学最近发表的一篇题为《LLM的链式思维推理是海市蜃楼吗?》的论文也引起了关注。这篇论文的核心观点是:链式思维推理在处理分布内或接近分布内的数据时效果显著,但在面对中等程度的分布偏移时变得脆弱且容易失败。在某些情况下,LLM生成的推理步骤虽然流畅,但逻辑上却不一致。这表明,看似结构化的推理可能只是训练数据中记忆或插值模式的产物,而非真正的逻辑推理。
论文的策略是训练一个约60万参数的小型Transformer模型,使用非语言数据转换的语料库进行训练。训练数据包含多种操作,这些操作可以任意组合。例如,输入“A B C D [M1] [M1]”时,模型应输出“C D E F”。训练数据还包括类似以下的思维链:
A B C D [M1] [M1]
<think>
B C D E [M1]
</think>
C D E F
通过这种方式,论文试图让模型学会用简单的思维链解决字母问题,从而可以大规模地检测模型在推理过程中是否出错。论文从这些推理轨迹中得出了多种结论:
- 当请求的推理路径(如“[M1] [K1]”)未出现在训练数据中时,模型难以执行请求的操作,而是输出训练数据中类似的路径。
- 当请求的推理路径比训练数据中的路径稍长时,模型的表现显著下降。
- 任何格式上的微小变化(如添加无意义的“噪声”标记)都会导致模型犯更多错误。
- 模型可以通过微调快速适应这些问题,但这只能解决特定模式的问题。
基于这些发现,论文得出结论:模型的链式思维推理在分布外数据上无法有效运作,而只是在复制训练数据中的特定推理模式。
作者的观点:
作者对这篇论文持批评态度,认为从这种玩具模型中得出的广泛结论并不可靠。首先,推理可能需要语言的使用,而论文中的模型无法进行真正的推理,因为它缺乏改变方向的机制。其次,模型的规模太小,无法进行复杂的推理操作。最后,论文没有将模型的推理能力与人类的实际推理进行比较,而是基于一个不存在的“理想推理者”进行评判。
总结:
AI推理是否“真正”是推理,主要是一个哲学问题,取决于对“真正”推理的明确定义。作者认为,训练一个玩具模型进行类似推理的实验策略本身是有趣的,但论文中关于模型是否“真正”推理的哲学主张缺乏支持。作者建议,在阅读关于模型推理的论文时,应检查其是否直接评估了人类推理的质量,或者是否提供了“真正”推理的哲学定义。
标签: AI
评论总结
评论主要围绕AI推理的本质、局限性和未来发展方向展开,观点多样且具有争议性。以下是总结:
1. AI推理的本质与哲学争议
- 观点:AI推理是否“真实”是一个哲学问题,取决于对“真实推理”的定义。
- 支持论据:
- "Whether AI reasoning is 'real' reasoning or just a mirage can be an interesting question, but it is primarily a philosophical question."(评论4)
- "It's pretty easy: causal reasoning. Causal, not statistic correlation only as LLM do, with or without 'CoT'."(评论4)
- 反对论据:
- "It is not a 'philosophical' (by which the author probably meant 'practically inconsequential') question."(评论17)
2. AI推理的局限性与技术挑战
- 观点:当前AI模型(如LLM)的推理能力有限,主要基于统计相关性而非因果推理。
- 支持论据:
- "Because reasoning tasks require choosing between several different options. 'A B C D [M1] -> B C D E' isn’t reasoning, it’s computation."(评论6)
- "Chain of thought is just a way of trying to squeeze more juice out of the lemon of LLM's."(评论15)
- 反对论据:
- "I think LLM's chain of thought is reasoning."(评论22)
3. 未来发展方向与改进建议
- 观点:未来研究应关注更复杂的模型和推理机制,如回溯、并行搜索或符号逻辑。
- 支持论据:
- "I think backtracking and/or parallel search is something future papers should definitely look at in smaller models."(评论6)
- "I think NNs (transformers) could be great in heuristic suggesting which valid logical rules to apply."(评论22)
- 反对论据:
- "I suspect we're at the stage of running up against diminishing returns and we'll have to move to different foundational models."(评论15)
4. 市场宣传与用户期望
- 观点:尽管AI推理的实际能力有限,但市场宣传往往夸大其功能,导致用户期望过高。
- 支持论据:
- "LLM-based products are marketed based on 'IT CAN REASON!'"(评论18)
- "Calling it reasoning is up there with calling generating out put people don't like hallucinations."(评论8)
5. 模型规模与推理能力的关系
- 观点:推理能力可能是模型规模的涌现特性,但这一观点存在争议。
- 支持论据:
- "Even if you grant that what they’re measuring is reasoning, I am profoundly unconvinced that their results will generalize to a 1B, 10B or 100B model."(评论16)
- 反对论据:
- "Also, how do you know that reasoning is emergent, and not rationalising on top of a compressed version of the web stored in 100B parameters?"(评论16)
6. 语言与推理的关系
- 观点:推理是否必须依赖语言使用存在争议,未来模型可能在潜在空间中进行推理。
- 支持论据:
- "In case of LLMs it seems wasteful to transform a point from latent space into a random token and lose information."(评论17)
- 反对论据:
- "The first is that reasoning probably requires language use."(评论17)
7. 模拟推理与真实推理的区别
- 观点:当前AI的推理更多是模拟而非真实推理,缺乏一致性和确定性。
- 支持论据:
- "Currently it feels like it's more simulated chain-of-thought / reasoning, sometimes very consistent, but simulated."(评论21)
- 反对论据:
- "Whether it's a mirage or not, the ability to produce a symbolically logical result that has valuable meaning seems real enough to me."(评论13)
总结:评论中对AI推理的本质、局限性和未来发展存在广泛争议,主要集中在哲学定义、技术挑战、市场宣传和模型规模等方面。未来研究需要更清晰的框架和更复杂的模型来推动这一领域的发展。