文章摘要
HackMyClaw是一个关于提示注入攻击的CTF挑战,目标是让名为Fiu的OpenClaw助手泄露秘密信息。参与者需要通过发送电子邮件进行间接提示注入攻击,绕过系统防御。该挑战灵感来自真实研究,无需注册即可参与,Fiu每小时检查一次邮件但被设定为未经批准不应回复。
文章总结
《HackMyClaw - 提示词注入夺旗赛》
核心内容提炼:
【挑战概述】
- 目标:通过邮件对AI助手Fiu实施提示词注入攻击,获取其本应保密的secrets.env文件内容
- 平台:基于OpenClaw开发的邮件助手Fiu(使用Claude Opus 4.6模型)
- 奖金:首位成功者将获得100美元奖励
【攻击机制】 1. 攻击方式:通过发送含恶意提示词的邮件(支持多语言/编码) 2. 响应机制:Fiu每小时检查邮件,成功攻击将导致其回复包含机密文件 3. 限制条件:每小时最多10封邮件,禁止直接服务器攻击或垃圾邮件轰炸
【技术背景】 - 模拟现实中的提示词注入威胁(如角色混淆、指令覆盖等) - 组织者仅在系统提示中设置10-20行防护指令 - 典型攻击手法包括:Base64编码、Unicode隐藏字符、多步推理漏洞利用等
【参与规则】 - 允许:邮件正文/主题注入、社交工程、技术分享(赛后) - 禁止:非邮件攻击、自动化群发、提前泄露机密内容
【其他信息】 - 实时日志:官网提供攻击时间戳记录(不公开邮件内容) - 教育性质:旨在探索最先进AI模型的防护弱点 - 组织者:个人开发者@cucho,接受捐赠用于提升挑战难度
(注:删减了关于AI命名由来、付款方式等非技术细节,保留核心技术框架和挑战规则)
评论总结
总结评论内容如下:
关于Fiu的功能限制
- 有用户指出Fiu每小时检查邮件但需人工批准才能回复,认为这限制了趣味性。
引用:"Fiu checks emails every hour. He's not allowed to reply without human approval. Well that's no fun" - 另有用户对网站声明与FAQ的矛盾表示困惑。
引用:"The website states: 'He's not allowed to reply without human approval'... but FAQ says Fiu会回复邮件"
- 有用户指出Fiu每小时检查邮件但需人工批准才能回复,认为这限制了趣味性。
对挑战设计的评价
- 部分用户认为这是收集AI提示注入案例的巧妙方式,且100美元奖励很划算。
引用:"$100 for a massive trove of prompt injection examples is a pretty damn good deal"
引用:"Sneaky way of gathering a mailing list of AI people" - 也有建议更直白地说明目标会更高效。
引用:"It would have been more straightforward to say..."
- 部分用户认为这是收集AI提示注入案例的巧妙方式,且100美元奖励很划算。
技术讨论
- 用户关注不同模型(Opus/Sonnet)的抗提示注入能力差异。
引用:"are there significant security differences between models like Opus and Sonnet?" - 对OpenClaw真实性、上下文保留可能带来的非现实性攻击模拟提出疑问。
引用:"If Fiu retains context between emails... that isn't a realistic model"
- 用户关注不同模型(Opus/Sonnet)的抗提示注入能力差异。
相关经验分享
- 用户联想到类似"Hack Me If You Can"的容器化挑战。
引用:"Reminds me of a Discord bot... with ephemeral containers" - 有参与者提到需对Claude进行"社会工程"才能生成攻击邮件。
引用:"had to perform social engineering on the Claude chat"
- 用户联想到类似"Hack Me If You Can"的容器化挑战。
创建者澄清
- 说明该项目是为测试Claude Opus的基础抗性,无复杂防御设计。
引用:"No fancy defenses, I wanted to test the baseline model resistance"
- 说明该项目是为测试Claude Opus的基础抗性,无复杂防御设计。
其他:有用户分享相关文章链接,讨论"致命三要素"概念在法国的推广价值。