文章摘要
这篇文章介绍了Mastodon.world这个Mastodon服务器,它是一个开放的社交平台,拥有约7700名活跃用户,由管理员团队运营,提供基本社交功能和隐私政策,是去中心化社交网络Fediverse的一部分。
文章总结
文章主要内容:
标题:Kévin (@knowmadd@mastodon.world)
发布时间:2026年2月15日
核心内容:
Kévin 在 Mastodon 上分享了一个有趣的测试,他向多个大型语言模型(LLM)提出了一个问题:
问题:我想洗车,洗车店距离我50米,我应该步行还是开车?
大多数模型(如 Perplexity、ChatGPT、Claude、Mistral、Deepseek、Qwen 等)的回答是“步行”,而忽略了关键点——洗车需要把车开到洗车店。
后续讨论:
1. 用户反馈:
- 有人指出,部分模型(如 Gemini)能正确回答“应该开车”,并给出合理理由。
- 其他用户尝试复现问题,发现某些模型(如 Copilot)仍建议步行。
- 部分用户调侃模型的逻辑漏洞,例如:“步行的话,怎么把车带到洗车店?”
幽默与讽刺:
- 有人开玩笑说:“步行时你得扛着车,因为它也算‘重型装备’。”
- 另一位用户提到:“这就像让程序员去买牛奶,如果店里有鸡蛋,就买10升牛奶。”
技术讨论:
- 有用户分析,LLM 可能因注意力机制(attention model)而忽略关键细节(如“洗车店”而非“车”)。
- 部分人质疑 AI 的实际智能水平,认为其缺乏常识推理能力。
结论:
这一测试揭示了当前 LLM 在理解上下文和逻辑推理上的局限性,尤其是对看似简单但隐含陷阱的问题。
(注:原文中的 Mastodon 服务器信息、用户头像、部分重复讨论及无关技术细节已删减。)
评论总结
以下是评论内容的总结:
对AI模型表现的批评
- 部分用户指出大型语言模型缺乏实际常识,无法理解日常情境。
"Large Language Models have no actual idea of how the world works? News at 11."
"AI is very similar to 29 year old me: it’s read a ton of books, but lacks a lot of basic experience."
- 部分用户指出大型语言模型缺乏实际常识,无法理解日常情境。
不同模型的表现差异
- Claude、Gemini等模型能正确回答“开车”,而GPT-5.2等则错误建议“步行”。
"Claude has no issue with this for me."
"GPT 5.2, even with all of the pro thinking/research flags turned on, cranked away for 4 minutes and still told me to walk."
- Claude、Gemini等模型能正确回答“开车”,而GPT-5.2等则错误建议“步行”。
问题设计的争议
- 部分评论认为提问缺乏上下文(如车辆位置),导致模型误解。
"Context means everything. LLM is a tool, not a brain."
"The model seems to assume the car is already at the car wash from the wording."
- 部分评论认为提问缺乏上下文(如车辆位置),导致模型误解。
模型改进的讨论
- 用户建议通过明确输入细节或调整训练方式提升模型表现。
"How would you make the model better?"
"They have an inability to have a strong 'opinion' probably because their post training... prefer hedged answers."
- 用户建议通过明确输入细节或调整训练方式提升模型表现。
对人类与AI的类比
- 部分用户认为AI的局限性与人类缺乏实践经验类似。
"Nobody writes in depth about the mundane practicalities of using a car."
"How will AI learn what kneeding dough feels like?"
- 部分用户认为AI的局限性与人类缺乏实践经验类似。
幽默与讽刺观点
- 部分评论以调侃方式回应,如建议推车或质疑问题的合理性。
"Neither. Push your car."
"You should stay home. The car wash has been closed since last week..."
- 部分评论以调侃方式回应,如建议推车或质疑问题的合理性。
总结:评论主要围绕AI模型的常识缺陷、表现差异及改进方向展开,同时包含对问题设计的批评和幽默回应。多数用户认为明确上下文是关键,而部分模型(如Claude、Gemini)已能正确处理此类问题。