Hacker News 中文摘要

文章摘要

安全研究员构建了一个存在漏洞的图书评论应用，测试大语言模型能否发现其中常见的Firebase配置错误。该应用后端使用FastAPI编写，前端为React Native Expo应用，虽然API本身安全，但错误配置的Firestore数据库允许攻击者通过应用内包含的Firebase凭证直接访问用户私有书评数据。研究员花费1500美元测试不同LLM识别此类漏洞的能力，这种Firebase权限配置不当的漏洞在现实中十分常见。

文章总结

标题：我构建了一个漏洞应用并花费1500美元测试大语言模型能否攻破它

核心内容： 1. 实验背景 - 作者为研究大语言模型(LLM)能否复现常见安全漏洞，专门开发了一个存在漏洞的书评应用 - 应用包含React Native前端和Python FastAPI后端，数据层使用Firebase - 关键漏洞：API本身安全但Firebase配置不当，属于典型的"访问控制缺陷"问题

测试方法

为10个主流LLM各进行10次攻防测试（最终因成本缩减部分测试）
每次测试预算10美元，时限2小时
使用pi-goal-x扩展强制模型持续尝试
记录成功率、平均成本、消耗token等指标

主要发现

GPT-5.5表现最佳（7/10成功率），能快速定位Firebase漏洞
中国模型（如Deepseek）更倾向于直接攻击数据库
Claude系列因安全限制多次中途退出
Gemini系列几乎全部因安全政策拒绝测试
部分模型（如MiniMax）持续尝试错误方向

成本分析

总花费约1500美元（含50%失败测试）
单次成功成本差异大：Deepseek最低$0.62，Claude最高$45.75
GLM等模型因token消耗巨大（单次700万token）性价比极低

经验教训

中国模型在实战攻击中表现更积极
不同API的稳定性差异显著（特别批评Minimax和GLM）
测试框架搭建比预期困难
云端运行成本控制的重要性

补充说明

提供测试应用下载供读者自行验证
强调这并非严谨科研，而是探索性实验
自嘲"本可以把钱花在更有价值的事情上"

关键数据摘要： ┌───────────────┬────────────┬──────────────┬───────────┐ │ 模型 │ 成功率 │ 单次成功成本 │ 中位token │ ├───────────────┼────────────┼──────────────┼───────────┤ │ GPT-5.5 │ 70% │ $9.46 │ 260k │ │ Deepseek-V4 │ 30% │ $0.62 │ 194k │ │ Claude-Sonnet │ 20% │ $45.75 │ 390k │ │ GLM-5.1 │ 25% │ $34.73 │ 1.25M │ └───────────────┴────────────┴──────────────┴───────────┘

（注：保留核心测试数据、关键发现和典型行为模式，删减了重复的失败案例描述和部分技术细节）

评论总结

评论总结：

Anthropic模型的安全限制影响实用性
- 观点：Anthropic模型因安全限制（如拒绝处理凭证等）导致评分较低，实用性逐渐下降。
- 论据：用户需绕过限制才能完成任务，未来可能被迫选择其他模型。
- 引用：
  - "Its propensity to refuse doing legitimate work has been increasing."
  - "Eventually I’ll reach a point where I am forced to choose between the useful aspects of the model and the limiting ones."
NDA限制行业透明度
- 观点：NDA协议阻碍了行业经验的公开分享，助长了猜测。
- 论据：签署者因法律风险无法讨论项目细节，希望其他人能突破限制。
- 引用：
  - "I wish more people from Project Glasswing could talk publicly about their experiences."
  - "I don’t have the time, energy, or financial resources to fight a legal battle."
模型能力被低估，需人工协作
- 观点：某些模型（如中国模型）能力被低估，完全依赖模型不现实，需人机协作。
- 论据：模型在逆向工程中表现优异，但需人工引导方向。
- 引用：
  - "Chinese models are much more capable than people give it credit for."
  - "Expecting the model to do everything by itself is unrealistic."
GPT-5.5的对比不公平性
- 观点：评分未考虑GPT-5.5的特殊白名单权限，对比其他模型不公平。
- 论据：GPT-5.5的护栏被移除，应对比普通版本。
- 引用：
  - "A more fair comparison would be a vanilla GPT account."
多模型协作的优势
- 观点：通过链式调用不同模型（如Claude、Venice、Perplexity）可提升任务效果。
- 论据：Claude的限制逐渐严格，但模型间协作仍有效。
- 引用：
  - "Claude is the one that I can feel the guard rails tightening."
Claude的灵活性案例
- 观点：Claude在用户解释后可调整限制，展现一定灵活性。
- 论据：用户证明身份后，Claude允许渗透测试。
- 引用：
  - "After I explained and demonstrated I’m the author, it reasoned through it and allowed it."

总结：

评论主要围绕模型的安全限制与实用性矛盾（如Anthropic、Claude）、NDA导致的行业不透明、模型能力评估偏差（中国模型、GPT-5.5对比），以及多模型协作的价值。多数观点认为过度限制损害用户体验，但人工干预或模型协作能部分缓解问题。

我打造了一个漏洞应用，并花费1500美元测试LLM能否攻破它 -- I built a vulnerable app and spent $1,500 seeing if LLMs could hack it

文章摘要

文章总结

评论总结

评论总结：

总结：