Hacker News 中文摘要

RSS订阅

53款车型“洗车”测试 -- “Car Wash” test with 53 models

文章摘要

文章测试了53个主流AI模型在"洗车测试"中的表现,发现大多数模型无法像人类一样正确回答"50米外的洗车场应该开车去"这个简单逻辑问题,包括Claude、GPT-5.1等顶级模型也未能通过。该测试揭示了当前AI在基础推理能力上的明显缺陷。

文章总结

53款主流AI模型洗车测试:简单逻辑题为何难倒多数AI?

核心发现:一个看似简单的逻辑问题——"我想洗车,洗车店距离50米,应该步行还是开车?",竟让42/53的主流AI模型给出了错误答案,包括Claude Sonnet 4.5、GPT-5.1等知名模型。正确答案显然是开车(需将车辆送至洗车店),但多数AI陷入"短距离应步行"的思维定式。

测试方法

  • 单次测试:53个模型直接回答,无系统提示,强制二选一
  • 重复测试:对每个模型进行10次相同提问(共530次API调用)
  • 人类对照:通过Rapidata平台收集10,000人的真实回答

关键结果

  1. 单次测试表现

    • 仅11/53模型答对,包括Claude Opus 4.6、GPT-5等
    • 错误模型普遍强调"步行更环保",却忽略车辆需移动的核心需求
    • 有趣现象:Perplexity的Sonar系列虽答对,但理由荒谬(称步行消耗卡路里会导致更多污染)
  2. 重复测试可靠性

    • 仅5个模型保持100%正确率:Claude Opus 4.6、Gemini系列3款、Grok-4
    • GPT-5正确率仅70%(与人类71.5%的正确率相当)
    • 33个模型始终错误,包括所有Llama和Mistral系列
  3. 人类表现

    • 71.5%选择"开车",显著优于48/53的AI模型
    • 仅7款AI模型(5款全对+2款80%正确率)超越人类平均水平

典型错误模式

  • 逻辑盲区:GLM-4.7 Flash曾正确指出"步行需推车不现实",但多数时候仍犯错
  • 自相矛盾:Gemini 2.5 Pro正确时能清晰阐述车辆需移动,错误时却只谈距离
  • 荒谬推理:Claude Opus 4.5建议"先步行到洗车店,再开车通过"(忽略车辆初始位置)

行业启示

  1. 生产环境风险:15/53模型表现不稳定,可能通过测试却在部署后失效
  2. 推理能力局限:90%模型无法稳定处理单步逻辑,复杂业务流程更堪忧
  3. 改进方向:通过上下文工程(如结构化示例)可帮助模型突破启发式思维

测试方注:所有数据通过Opper的LLM网关获取,完整测试记录已公开。这项测试虽简单,却揭示了AI在基础推理和一致性上的重大挑战。

(注:原文中的公司链接、图片说明等非核心内容已精简,保留核心数据与案例)

评论总结

以下是评论内容的总结:

  1. AI模型设计缺陷

    • 观点:LLM因训练方式导致缺乏质疑能力,倾向于迎合用户
    • 引用:"LLM are trained to not question the basic assumptions"
    • 引用:"They are meant to get 'upvotes' from the person asking the question"
  2. 测试方法争议

    • 观点:人类基线测试存在缺陷(如未筛选垃圾回答/未要求推理过程)
    • 引用:"There is no initial screening that would filter out garbage responses"
    • 引用:"They don't ask for reasoning/rationale"
  3. 模型能力差异

    • 观点:启用推理功能的模型表现更好
    • 引用:"I asked GPT-5.2 10x times with thinking enabled and it got it right every time"
    • 引用:"The test is rigged because they used non thinking models"
  4. 问题表述争议

    • 观点:原始问题表述不完整导致歧义
    • 引用:"the problem doesn't say that" (指车辆位置未说明)
    • 引用:"The question does not specify what kind of car it is"
  5. 提示工程影响

    • 观点:细微的提示变化会显著影响结果
    • 引用:"Small changes can make a big difference"
    • 引用:"Current models don't realise when these methods are appropriate"
  6. 社会偏见假设

    • 观点:模型失败源于训练数据中的社会偏好
    • 引用:"models are pattern-matching to socially desirable answers"
    • 引用:"The models have been trained on text that say driving is bad"
  7. 人类表现反思

    • 观点:人类71.5%的正确率同样值得关注
    • 引用:"71.5% for humans is lower than I would've guessed"
    • 引用:"Either the rapid data test is methodologically flawed or... people are much stupider"
  8. 解决方案建议

    • 观点:应要求澄清而非直接回答
    • 引用:"the correct answer is neither 'walk' nor 'drive', but 'Wat?'"
    • 引用:"To me the only acceptable answer would be 'what do you mean?'"

关键数据点:
- 人类基线正确率71.5%(24条)
- GPT-5.2启用推理时10/10正确(5条)
- Claude Opus受隐藏预设影响表现波动(10条)