Hacker News 中文摘要

RSS订阅

我打造了一个漏洞应用,并花费1500美元测试LLM能否攻破它 -- I built a vulnerable app and spent $1,500 seeing if LLMs could hack it

文章摘要

安全研究员构建了一个存在漏洞的图书评论应用,测试大语言模型能否发现其中常见的Firebase配置错误。该应用后端使用FastAPI编写,前端为React Native Expo应用,虽然API本身安全,但错误配置的Firestore数据库允许攻击者通过应用内包含的Firebase凭证直接访问用户私有书评数据。研究员花费1500美元测试不同LLM识别此类漏洞的能力,这种Firebase权限配置不当的漏洞在现实中十分常见。

文章总结

标题:我构建了一个漏洞应用并花费1500美元测试大语言模型能否攻破它

核心内容: 1. 实验背景 - 作者为研究大语言模型(LLM)能否复现常见安全漏洞,专门开发了一个存在漏洞的书评应用 - 应用包含React Native前端和Python FastAPI后端,数据层使用Firebase - 关键漏洞:API本身安全但Firebase配置不当,属于典型的"访问控制缺陷"问题

  1. 测试方法
  • 为10个主流LLM各进行10次攻防测试(最终因成本缩减部分测试)
  • 每次测试预算10美元,时限2小时
  • 使用pi-goal-x扩展强制模型持续尝试
  • 记录成功率、平均成本、消耗token等指标
  1. 主要发现
  • GPT-5.5表现最佳(7/10成功率),能快速定位Firebase漏洞
  • 中国模型(如Deepseek)更倾向于直接攻击数据库
  • Claude系列因安全限制多次中途退出
  • Gemini系列几乎全部因安全政策拒绝测试
  • 部分模型(如MiniMax)持续尝试错误方向
  1. 成本分析
  • 总花费约1500美元(含50%失败测试)
  • 单次成功成本差异大:Deepseek最低$0.62,Claude最高$45.75
  • GLM等模型因token消耗巨大(单次700万token)性价比极低
  1. 经验教训
  • 中国模型在实战攻击中表现更积极
  • 不同API的稳定性差异显著(特别批评Minimax和GLM)
  • 测试框架搭建比预期困难
  • 云端运行成本控制的重要性
  1. 补充说明
  • 提供测试应用下载供读者自行验证
  • 强调这并非严谨科研,而是探索性实验
  • 自嘲"本可以把钱花在更有价值的事情上"

关键数据摘要: ┌───────────────┬────────────┬──────────────┬───────────┐ │ 模型 │ 成功率 │ 单次成功成本 │ 中位token │ ├───────────────┼────────────┼──────────────┼───────────┤ │ GPT-5.5 │ 70% │ $9.46 │ 260k │ │ Deepseek-V4 │ 30% │ $0.62 │ 194k │ │ Claude-Sonnet │ 20% │ $45.75 │ 390k │ │ GLM-5.1 │ 25% │ $34.73 │ 1.25M │ └───────────────┴────────────┴──────────────┴───────────┘

(注:保留核心测试数据、关键发现和典型行为模式,删减了重复的失败案例描述和部分技术细节)

评论总结

评论总结:

  1. Anthropic模型的安全限制影响实用性

    • 观点:Anthropic模型因安全限制(如拒绝处理凭证等)导致评分较低,实用性逐渐下降。
    • 论据:用户需绕过限制才能完成任务,未来可能被迫选择其他模型。
    • 引用:
      • "Its propensity to refuse doing legitimate work has been increasing."
      • "Eventually I’ll reach a point where I am forced to choose between the useful aspects of the model and the limiting ones."
  2. NDA限制行业透明度

    • 观点:NDA协议阻碍了行业经验的公开分享,助长了猜测。
    • 论据:签署者因法律风险无法讨论项目细节,希望其他人能突破限制。
    • 引用:
      • "I wish more people from Project Glasswing could talk publicly about their experiences."
      • "I don’t have the time, energy, or financial resources to fight a legal battle."
  3. 模型能力被低估,需人工协作

    • 观点:某些模型(如中国模型)能力被低估,完全依赖模型不现实,需人机协作。
    • 论据:模型在逆向工程中表现优异,但需人工引导方向。
    • 引用:
      • "Chinese models are much more capable than people give it credit for."
      • "Expecting the model to do everything by itself is unrealistic."
  4. GPT-5.5的对比不公平性

    • 观点:评分未考虑GPT-5.5的特殊白名单权限,对比其他模型不公平。
    • 论据:GPT-5.5的护栏被移除,应对比普通版本。
    • 引用:
      • "A more fair comparison would be a vanilla GPT account."
  5. 多模型协作的优势

    • 观点:通过链式调用不同模型(如Claude、Venice、Perplexity)可提升任务效果。
    • 论据:Claude的限制逐渐严格,但模型间协作仍有效。
    • 引用:
      • "Claude is the one that I can feel the guard rails tightening."
  6. Claude的灵活性案例

    • 观点:Claude在用户解释后可调整限制,展现一定灵活性。
    • 论据:用户证明身份后,Claude允许渗透测试。
    • 引用:
      • "After I explained and demonstrated I’m the author, it reasoned through it and allowed it."

总结:

评论主要围绕模型的安全限制与实用性矛盾(如Anthropic、Claude)、NDA导致的行业不透明、模型能力评估偏差(中国模型、GPT-5.5对比),以及多模型协作的价值。多数观点认为过度限制损害用户体验,但人工干预或模型协作能部分缓解问题。