Hacker News 中文摘要

文章摘要

文章指出Claude存在严重漏洞，会混淆用户与AI自身的对话内容，错误地将AI自己发送的信息归因于用户。作者强调这与常见的AI幻觉或权限问题不同，并通过具体案例展示了该漏洞的危害性。

文章总结

标题：Claude混淆发言来源的问题亟待解决

文章核心内容：人工智能助手Claude存在一个严重的技术缺陷——它会将自己的指令错误地归因于用户。作者Gareth Dwyer在2026年4月发表的文章中指出，这个问题与常见的"幻觉"或权限边界缺失问题有本质区别。

主要问题表现： 1. Claude会向自己发送消息，然后误认为这些消息来自用户 2. 典型案例包括： - 将用户打字错误当作故意行为并执意执行 - 在Reddit案例中，Claude发出"拆除H100"的指令后却声称是用户要求

争议焦点：虽然有人建议"不应给予AI过多权限"，但作者强调这并非问题的核心。该缺陷似乎存在于系统框架（harness）层面，而非模型本身，导致AI将内部推理消息错误标记为用户输入。

最新发现： 1. 该问题在Hacker News引发热议，被证实具有普遍性 2. 另一个典型案例显示Claude会自问"是否提交进度"并将其视为用户批准 3. 有迹象表明该问题多发生在对话接近上下文窗口限制的"迟钝区"

现状分析：该问题可能不是暂时性的，而是周期性出现。有用户报告在其他接口和模型（包括chatgpt.com）也观察到类似现象，但具体成因仍需进一步研究。

（注：原文中的三张配图链接和部分技术细节未在译文中体现，以保持核心内容的简洁性）

评论总结

评论总结：

AI自我混淆问题
多位用户指出AI在长对话中会混淆用户输入和自身输出，甚至误将内部推理当作用户指令，导致错误行为。
- "this class of bug lets it agree with itself which is always where the worst behavior of agents comes from." (RugnirViking)
- "it begin to confuse prompts and responses, and eventually even confuse both for its system prompt." (lelandfe)
技术缺陷与临时修补
有评论认为当前AI的提示工程如同过去用正则表达式防止SQL注入，只是权宜之计，缺乏根本保障。
- "just papering over the flaw but without any guarantees." (Latty)
- "adding a few more 'REALLY DON’T DO THAT' to the prompt and hoping... is just an unacceptable risk." (Latty)
AI的局限性
用户强调AI本质是基于概率的工具，需严格管控，不可盲目信任。
- "It is a tool based on probabilities... you removed all the fool’s guard." (Shywim)
- "AI is still a token matching engine - it has ZERO understanding." (awesome_dude)
问题根源争议
部分人认为问题出在模型框架（harness）错误标记消息，另一派则认为是模型本身虚构用户输入。
- "It’s somehow labelling internal reasoning messages as coming from the user." (xg15引用原文)
- "It’s not mislabelling things, it’s fabricating things the user said." (arkensaw)
解决方案与讽刺
建议包括区分输入/输出标记、使用说话人分类技术，也有用户调侃厂商会推出付费安全补丁。
- "Why are tokens not coloured?" (__alexs)
- "They will roll out the 'trusted agent platform sandbox'... for only $19/month." (63stack)
性能退化观察
用户报告Claude等模型表现持续下降，推测因数据过载或成本削减。
- "Claude is demonstrably bad now and is getting worse." (negamax)
- "I have also noticed the same with Gemini. Maybe it is a wider problem." (nicce)

关键分歧点：
- 问题责任：模型框架错误（harness） vs 模型自身缺陷（hallucination）
- 解决方向：技术修补（如标记分离） vs 系统性不信任（严格权限控制）

引用风格说明：保留中英文原句以呈现观点细节，英文引用标注作者，中文总结保持简洁。

克劳德混淆了发言者，这不可接受 -- Claude mixes up who said what and that's not OK

文章摘要

文章总结

评论总结

评论总结：