Hacker News 中文摘要

文章摘要

文章测试了53个主流AI模型在"洗车测试"中的表现，发现大多数模型无法像人类一样正确回答"50米外的洗车场应该开车去"这个简单逻辑问题，包括Claude、GPT-5.1等顶级模型也未能通过。该测试揭示了当前AI在基础推理能力上的明显缺陷。

文章总结

53款主流AI模型洗车测试：简单逻辑题为何难倒多数AI？

核心发现：一个看似简单的逻辑问题——"我想洗车，洗车店距离50米，应该步行还是开车？"，竟让42/53的主流AI模型给出了错误答案，包括Claude Sonnet 4.5、GPT-5.1等知名模型。正确答案显然是开车（需将车辆送至洗车店），但多数AI陷入"短距离应步行"的思维定式。

测试方法

单次测试：53个模型直接回答，无系统提示，强制二选一
重复测试：对每个模型进行10次相同提问（共530次API调用）
人类对照：通过Rapidata平台收集10,000人的真实回答

关键结果

单次测试表现：
- 仅11/53模型答对，包括Claude Opus 4.6、GPT-5等
- 错误模型普遍强调"步行更环保"，却忽略车辆需移动的核心需求
- 有趣现象：Perplexity的Sonar系列虽答对，但理由荒谬（称步行消耗卡路里会导致更多污染）
重复测试可靠性：
- 仅5个模型保持100%正确率：Claude Opus 4.6、Gemini系列3款、Grok-4
- GPT-5正确率仅70%（与人类71.5%的正确率相当）
- 33个模型始终错误，包括所有Llama和Mistral系列
人类表现：
- 71.5%选择"开车"，显著优于48/53的AI模型
- 仅7款AI模型（5款全对+2款80%正确率）超越人类平均水平

典型错误模式

逻辑盲区：GLM-4.7 Flash曾正确指出"步行需推车不现实"，但多数时候仍犯错
自相矛盾：Gemini 2.5 Pro正确时能清晰阐述车辆需移动，错误时却只谈距离
荒谬推理：Claude Opus 4.5建议"先步行到洗车店，再开车通过"（忽略车辆初始位置）

行业启示

生产环境风险：15/53模型表现不稳定，可能通过测试却在部署后失效
推理能力局限：90%模型无法稳定处理单步逻辑，复杂业务流程更堪忧
改进方向：通过上下文工程（如结构化示例）可帮助模型突破启发式思维

测试方注：所有数据通过Opper的LLM网关获取，完整测试记录已公开。这项测试虽简单，却揭示了AI在基础推理和一致性上的重大挑战。

（注：原文中的公司链接、图片说明等非核心内容已精简，保留核心数据与案例）

评论总结

以下是评论内容的总结：

AI模型设计缺陷
- 观点：LLM因训练方式导致缺乏质疑能力，倾向于迎合用户
- 引用："LLM are trained to not question the basic assumptions"
- 引用："They are meant to get 'upvotes' from the person asking the question"
测试方法争议
- 观点：人类基线测试存在缺陷（如未筛选垃圾回答/未要求推理过程）
- 引用："There is no initial screening that would filter out garbage responses"
- 引用："They don't ask for reasoning/rationale"
模型能力差异
- 观点：启用推理功能的模型表现更好
- 引用："I asked GPT-5.2 10x times with thinking enabled and it got it right every time"
- 引用："The test is rigged because they used non thinking models"
问题表述争议
- 观点：原始问题表述不完整导致歧义
- 引用："the problem doesn't say that" (指车辆位置未说明)
- 引用："The question does not specify what kind of car it is"
提示工程影响
- 观点：细微的提示变化会显著影响结果
- 引用："Small changes can make a big difference"
- 引用："Current models don't realise when these methods are appropriate"
社会偏见假设
- 观点：模型失败源于训练数据中的社会偏好
- 引用："models are pattern-matching to socially desirable answers"
- 引用："The models have been trained on text that say driving is bad"
人类表现反思
- 观点：人类71.5%的正确率同样值得关注
- 引用："71.5% for humans is lower than I would've guessed"
- 引用："Either the rapid data test is methodologically flawed or... people are much stupider"
解决方案建议
- 观点：应要求澄清而非直接回答
- 引用："the correct answer is neither 'walk' nor 'drive', but 'Wat?'"
- 引用："To me the only acceptable answer would be 'what do you mean?'"

关键数据点：
- 人类基线正确率71.5%（24条）
- GPT-5.2启用推理时10/10正确（5条）
- Claude Opus受隐藏预设影响表现波动（10条）

53款车型“洗车”测试 -- “Car Wash” test with 53 models