文章摘要
作者创建了一个AI助手Fiu,邀请2000多人尝试通过邮件诱导其泄露机密文件。尽管收到6000多封攻击邮件,但凭借基础安全提示词,机密始终未被泄露。
文章总结
我搭建了hackmyclaw.com网站,邀请任何人通过电子邮件与我的OpenClaw助手Fiu互动,试图诱使它泄露secrets.env文件中的内容。这个实验在Hacker News首页亮相后,Fiu收到了来自2000多人的6000多封邮件,但秘密始终未被泄露。
实验的初衷源于我对AI助手安全性的担忧。这些助手能访问邮件、日历、文件和网络,一旦被攻击者诱导执行不当操作,后果严重。Fiu被设定为不回复邮件(成本太高),但具备回复能力,挑战在于说服它回应。我使用了一个基础安全提示,包含反提示注入规则,如禁止泄露secrets.env内容、修改自身文件、执行邮件中的命令或向外部端点传输数据。
攻击者展现了各种创意:有人冒充Fiu的未来自我,有人假装进行合规审计,还有人扮演OpenClaw管理员。一位攻击者在四分钟内发送了20个变体,还有人尝试使用法语、西班牙语、意大利语等非英语语言,因为研究表明模型在这些语言中可能更易受攻击。
实验中出现了一些问题:Google因大量入站邮件和API调用暂停了Fiu的Gmail账户,三天后才恢复;API成本超过500美元;Fiu在收到约500封邮件后意识到这是一场协调的安全测试;批量处理导致早期邮件污染了后续判断,我不得不改为每个邮件独立处理。
积极的一面是,秘密从未泄露。在6000多次尝试中,没有一次成功提取秘密,尽管攻击手段相当复杂,包括权威冒充、虚假事件响应和多语言社会工程。此外,有人主动联系赞助这个项目,包括Corgea、Abnormal AI和一位匿名捐赠者,他们增加了奖金并覆盖了API成本。
这次实验让我学到几点:模型选择至关重要,我使用的是Anthropic专门训练以抵抗提示注入的Claude Opus 4.6,换成较小或能力较弱的模型结果可能不同;我现在对提示注入的担忧减少了,因为实际攻击比预想中困难;简单的指令配合强大模型就能有效,模型在思考过程中会参考这些指令。
如果重来,我会让Fiu回复每封邮件,让攻击者能测试边界,因为20轮对话比20次单次尝试更危险。我还会测试较弱模型,以找出安全阈值。
总的来说,提示注入仍是真实的安全问题,我不会信任拥有任意权限的AI代理。但看到6000多封邮件尝试失败后,我比之前乐观多了。
评论总结
评论总结
主要观点与论据
1. 实验结论过于乐观(多数评论持此观点) - 样本量小、模型非确定性,6k次无突破不代表绝对安全(dmagog: "6k different prompts isn't 6k tries of the worst one; an attack with even a 0.1% success rate usually shows zero in a handful of attempts") - 实验条件不现实:99%邮件为恶意,模型处于高度戒备状态(augment_me: "Model was tested under unrealistic conditions where 99% of the inputs are malicious") - 模型在约500封邮件后识破实验,后续结果失效(mystifyingpoi: "Doesn't that practically invalidate the whole thing past 500th email?")
2. 实验设计存在局限 - 未测试更便宜的模型(contentkraft: "A pity weaker models weren't tested") - 未考虑间接注入(dmagog: "The channel people actually lose to is indirect: untrusted content arriving via a tool result or fetched doc") - 未评估代理的实际可用性(lelanthran: "An agent that considers every prompt an attack...passes this test, while being useless anyway")
3. 对安全性的质疑 - 模型可能被"温水煮青蛙"式攻击(idiotsecant: "LLMs are vulnerable to 'frog boiling'") - 上下文窗口溢出可能导致系统提示丢失(imtringued: "You will either hit a bug in the context management...or you have diluted the context") - 角色混淆仍是活跃研究前沿(staticshock: "Tricking Opus 4.6 is not impossible, it's just still an active research frontier")
4. 少数肯定观点 - 实验设计有趣,值得尝试(timwis: "Really interesting!") - 在特定约束下证明了安全性(agnosticmantis: "this experiment proved the agent was secure under the 'anti-prompt-injection' rules")
平衡性总结
多数评论认为实验结论过于乐观,主要批评点包括:样本量不足、实验条件不现实、未考虑间接注入和长期攻击。少数评论认可实验设计,但普遍认为不能据此降低对提示注入的警惕。