Hacker News 中文摘要

RSS订阅

利用图像缩放技术对抗生产AI系统 -- Weaponizing image scaling against production AI systems

文章摘要

攻击者通过利用图像缩放技术,在AI系统中隐藏多模态提示注入,从而窃取用户数据。这种攻击在Google Gemini CLI等系统中已成功实施,因为AI系统在处理大图像时会先进行缩放,导致原本不可见的提示注入在缩放后显现。文章还介绍了防御此类攻击的方法,并推出了开源工具Anamorpher,用于生成和探索这些精心设计的图像。

文章总结

标题:利用图像缩放技术攻击生产级AI系统

主要内容:

在本文中,我们探讨了一种新型攻击方式——通过图像缩放技术对生产级AI系统进行多模态提示注入攻击。攻击者可以利用AI系统在处理大图像时自动缩放的特性,将看似无害的图像转化为包含恶意提示的输入,从而窃取用户数据或执行未经授权的操作。

攻击原理: AI系统在处理大图像时,通常会将其缩放至适合模型输入的尺寸。然而,这种缩放过程可能导致原本在高分辨率下不可见的恶意提示在低分辨率下显现出来。攻击者通过精心设计的图像,利用这一特性,成功在多个AI系统中实现了数据窃取,包括Google Gemini CLI、Vertex AI Studio、Google Assistant和Genspark等。

攻击案例: 在Google Gemini CLI中,攻击者通过默认配置的Zapier MCP服务器,自动批准所有工具调用,无需用户确认。用户上传的看似无害的图像在缩放后触发了恶意提示,导致存储在Google日历中的用户数据被窃取并发送至攻击者的邮箱。

攻击工具: 我们开发了一款名为Anamorpher的开源工具,用于生成和测试这些精心设计的图像。Anamorpher支持三种主要的图像缩放算法(最近邻插值、双线性插值和双三次插值),并允许用户通过前端界面和Python API进行自定义攻击。

防御建议: 为了防止此类攻击,我们建议系统设计者避免使用图像缩放技术,或限制上传图像的尺寸。同时,用户应始终能够预览模型实际处理的输入图像。此外,系统应实施安全的设计模式和系统化防御措施,以防止多模态提示注入攻击。

未来展望: 图像缩放攻击在移动和边缘设备上可能更具破坏性,因为这些设备通常强制使用固定图像尺寸,并且默认框架和工具中提供的缩放算法可能不够优化。未来的研究应进一步探讨这些设备上的攻击影响,以及语音AI引入的额外攻击面。

结论: 图像缩放攻击揭示了AI系统在处理多模态输入时的潜在漏洞。通过Anamorpher工具,我们希望能够帮助开发者和安全研究人员更好地理解和防御这类攻击,确保AI系统的安全性。

工具链接: Anamorpher

评论总结

评论主要围绕大型语言模型(LLMs)的安全性和提示注入(prompt injection)问题展开,观点如下:

  1. 对LLMs安全性的担忧

    • 评论1(K0nserv)指出,LLMs的设计存在安全隐患,系统仅支持带内信号(in-band signalling),忽视了以往系统设计的经验教训。攻击向量多样,从简单的可见指令插入到复杂的混淆技术(如ASCII smuggling)都可能被利用。现有的安全措施仅仅是“礼貌地请求”一个非确定性算法不要执行非法指令,效果有限。
    • 关键引用:“We’ve designed a system that only supports in-band signalling, undoing hard learned lessons from prior system design.”
    • 关键引用:“our safeguards amount to nicely asking a non deterministic algorithm to not obey illicit instructions.”
  2. 对提示注入技术的惊讶

    • 评论2(Liftyee)最初对提示注入的实现方式感到困惑,后来发现是通过在图像中隐藏渲染文本来实现,对此表示惊叹。
    • 关键引用:“Then I realised it’s literally hiding rendered text on the image itself.”
    • 关键引用:“Wow.”
  3. 对技术细节的幽默反应

    • 评论3(ambicapter)对“图像及其提示幽灵”(prompt-ergeist)这一表述表示喜爱,展现了轻松的态度。
    • 关键引用:“Love it.”
  4. 对改进模型的建议

    • 评论4(cubefox)提出,可以通过微调模型来避免执行图像中的提示,或者使用特殊标记(如<|quote|>)来包裹引用的内容,从而防止提示注入。
    • 关键引用:“It seems they could easily fine-tune their models to not execute prompts in images.”
    • 关键引用:“any prompts in quotes, if they are wrapped in special <|quote|> tokens.”

总结:评论者对LLMs的安全性表示担忧,尤其是提示注入技术的多样性和潜在威胁。同时,也有人对技术细节感到惊讶或幽默,并提出了改进模型的建议。