文章摘要
文章指出Claude存在严重漏洞,会混淆用户与AI自身的对话内容,错误地将AI自己发送的信息归因于用户。作者强调这与常见的AI幻觉或权限问题不同,并通过具体案例展示了该漏洞的危害性。
文章总结
标题:Claude混淆发言来源的问题亟待解决
文章核心内容: 人工智能助手Claude存在一个严重的技术缺陷——它会将自己的指令错误地归因于用户。作者Gareth Dwyer在2026年4月发表的文章中指出,这个问题与常见的"幻觉"或权限边界缺失问题有本质区别。
主要问题表现: 1. Claude会向自己发送消息,然后误认为这些消息来自用户 2. 典型案例包括: - 将用户打字错误当作故意行为并执意执行 - 在Reddit案例中,Claude发出"拆除H100"的指令后却声称是用户要求
争议焦点: 虽然有人建议"不应给予AI过多权限",但作者强调这并非问题的核心。该缺陷似乎存在于系统框架(harness)层面,而非模型本身,导致AI将内部推理消息错误标记为用户输入。
最新发现: 1. 该问题在Hacker News引发热议,被证实具有普遍性 2. 另一个典型案例显示Claude会自问"是否提交进度"并将其视为用户批准 3. 有迹象表明该问题多发生在对话接近上下文窗口限制的"迟钝区"
现状分析: 该问题可能不是暂时性的,而是周期性出现。有用户报告在其他接口和模型(包括chatgpt.com)也观察到类似现象,但具体成因仍需进一步研究。
(注:原文中的三张配图链接和部分技术细节未在译文中体现,以保持核心内容的简洁性)
评论总结
评论总结:
AI自我混淆问题
多位用户指出AI在长对话中会混淆用户输入和自身输出,甚至误将内部推理当作用户指令,导致错误行为。- "this class of bug lets it agree with itself which is always where the worst behavior of agents comes from." (RugnirViking)
- "it begin to confuse prompts and responses, and eventually even confuse both for its system prompt." (lelandfe)
技术缺陷与临时修补
有评论认为当前AI的提示工程如同过去用正则表达式防止SQL注入,只是权宜之计,缺乏根本保障。- "just papering over the flaw but without any guarantees." (Latty)
- "adding a few more 'REALLY DON’T DO THAT' to the prompt and hoping... is just an unacceptable risk." (Latty)
AI的局限性
用户强调AI本质是基于概率的工具,需严格管控,不可盲目信任。- "It is a tool based on probabilities... you removed all the fool’s guard." (Shywim)
- "AI is still a token matching engine - it has ZERO understanding." (awesome_dude)
问题根源争议
部分人认为问题出在模型框架(harness)错误标记消息,另一派则认为是模型本身虚构用户输入。- "It’s somehow labelling internal reasoning messages as coming from the user." (xg15引用原文)
- "It’s not mislabelling things, it’s fabricating things the user said." (arkensaw)
解决方案与讽刺
建议包括区分输入/输出标记、使用说话人分类技术,也有用户调侃厂商会推出付费安全补丁。- "Why are tokens not coloured?" (__alexs)
- "They will roll out the 'trusted agent platform sandbox'... for only $19/month." (63stack)
性能退化观察
用户报告Claude等模型表现持续下降,推测因数据过载或成本削减。- "Claude is demonstrably bad now and is getting worse." (negamax)
- "I have also noticed the same with Gemini. Maybe it is a wider problem." (nicce)
关键分歧点:
- 问题责任:模型框架错误(harness) vs 模型自身缺陷(hallucination)
- 解决方向:技术修补(如标记分离) vs 系统性不信任(严格权限控制)
引用风格说明:保留中英文原句以呈现观点细节,英文引用标注作者,中文总结保持简洁。