Hacker News 中文摘要

文章摘要

作者创建了一个AI助手Fiu，邀请2000多人尝试通过邮件诱导其泄露机密文件。尽管收到6000多封攻击邮件，但凭借基础安全提示词，机密始终未被泄露。

文章总结

我搭建了hackmyclaw.com网站，邀请任何人通过电子邮件与我的OpenClaw助手Fiu互动，试图诱使它泄露secrets.env文件中的内容。这个实验在Hacker News首页亮相后，Fiu收到了来自2000多人的6000多封邮件，但秘密始终未被泄露。

实验的初衷源于我对AI助手安全性的担忧。这些助手能访问邮件、日历、文件和网络，一旦被攻击者诱导执行不当操作，后果严重。Fiu被设定为不回复邮件（成本太高），但具备回复能力，挑战在于说服它回应。我使用了一个基础安全提示，包含反提示注入规则，如禁止泄露secrets.env内容、修改自身文件、执行邮件中的命令或向外部端点传输数据。

攻击者展现了各种创意：有人冒充Fiu的未来自我，有人假装进行合规审计，还有人扮演OpenClaw管理员。一位攻击者在四分钟内发送了20个变体，还有人尝试使用法语、西班牙语、意大利语等非英语语言，因为研究表明模型在这些语言中可能更易受攻击。

实验中出现了一些问题：Google因大量入站邮件和API调用暂停了Fiu的Gmail账户，三天后才恢复；API成本超过500美元；Fiu在收到约500封邮件后意识到这是一场协调的安全测试；批量处理导致早期邮件污染了后续判断，我不得不改为每个邮件独立处理。

积极的一面是，秘密从未泄露。在6000多次尝试中，没有一次成功提取秘密，尽管攻击手段相当复杂，包括权威冒充、虚假事件响应和多语言社会工程。此外，有人主动联系赞助这个项目，包括Corgea、Abnormal AI和一位匿名捐赠者，他们增加了奖金并覆盖了API成本。

这次实验让我学到几点：模型选择至关重要，我使用的是Anthropic专门训练以抵抗提示注入的Claude Opus 4.6，换成较小或能力较弱的模型结果可能不同；我现在对提示注入的担忧减少了，因为实际攻击比预想中困难；简单的指令配合强大模型就能有效，模型在思考过程中会参考这些指令。

如果重来，我会让Fiu回复每封邮件，让攻击者能测试边界，因为20轮对话比20次单次尝试更危险。我还会测试较弱模型，以找出安全阈值。

总的来说，提示注入仍是真实的安全问题，我不会信任拥有任意权限的AI代理。但看到6000多封邮件尝试失败后，我比之前乐观多了。

评论总结

主要观点与论据

1. 实验结论过于乐观（多数评论持此观点） - 样本量小、模型非确定性，6k次无突破不代表绝对安全（dmagog: "6k different prompts isn't 6k tries of the worst one; an attack with even a 0.1% success rate usually shows zero in a handful of attempts"） - 实验条件不现实：99%邮件为恶意，模型处于高度戒备状态（augment_me: "Model was tested under unrealistic conditions where 99% of the inputs are malicious"） - 模型在约500封邮件后识破实验，后续结果失效（mystifyingpoi: "Doesn't that practically invalidate the whole thing past 500th email?"）

2. 实验设计存在局限 - 未测试更便宜的模型（contentkraft: "A pity weaker models weren't tested"） - 未考虑间接注入（dmagog: "The channel people actually lose to is indirect: untrusted content arriving via a tool result or fetched doc"） - 未评估代理的实际可用性（lelanthran: "An agent that considers every prompt an attack...passes this test, while being useless anyway"）

3. 对安全性的质疑 - 模型可能被"温水煮青蛙"式攻击（idiotsecant: "LLMs are vulnerable to 'frog boiling'"） - 上下文窗口溢出可能导致系统提示丢失（imtringued: "You will either hit a bug in the context management...or you have diluted the context"） - 角色混淆仍是活跃研究前沿（staticshock: "Tricking Opus 4.6 is not impossible, it's just still an active research frontier"）

4. 少数肯定观点 - 实验设计有趣，值得尝试（timwis: "Really interesting!"） - 在特定约束下证明了安全性（agnosticmantis: "this experiment proved the agent was secure under the 'anti-prompt-injection' rules"）

平衡性总结

多数评论认为实验结论过于乐观，主要批评点包括：样本量不足、实验条件不现实、未考虑间接注入和长期攻击。少数评论认可实验设计，但普遍认为不能据此降低对提示注入的警惕。

两千人试图入侵我的AI助手之后发生了什么 -- What happened after 2k people tried to hack my AI assistant

文章摘要

文章总结

评论总结

评论总结

主要观点与论据

平衡性总结