文章摘要
作者发现服务器日志中有异常404错误,追踪发现是AI爬虫在请求一个已被注释掉的脚本文件。这些请求来自明显恶意的用户代理,如python-httpx和Go-http-client等,违反了robots.txt规则。这表明AI爬虫会尝试获取页面上所有资源,即使是被注释掉的内容。
文章总结
AI爬虫请求注释脚本的行为分析与反制策略
作者:Aaron P. MacSween 发布日期:2025年10月31日
核心发现: 2025年10月26日,作者在服务器日志中发现异常现象:大量404错误指向一个被注释掉的JavaScript文件请求。这些请求来自两类爬虫: 1. 明显恶意的用户代理(如python-httpx/0.28.1) 2. 伪装成主流浏览器(Firefox/Chrome/Safari)的代理
行为分析: 这些爬虫存在两种可能的解析方式: - 善意假设:递归解析HTML注释内容寻找被禁用的URL - 更可能的假设:使用简单模式匹配粗暴抓取类URL文本
反制策略: 作者提出四级应对方案(采用零基索引):
公开披露 将此类行为归类为"根本性特征"而非"偶然特征",主动公开发现以增强集体防御能力。
IP过滤 使用fail2ban工具进行IP封锁,建议:
- 设置较长封锁周期(数周/月级别)
- 注意避免误封合法用户
- 需应对僵尸网络的多IP轮换策略
- 解压炸弹(进阶反击) 通过特制压缩文件消耗攻击者资源,但存在:
- 可能误伤被挟持主机
- 消耗自身带宽配额
- 建议选择性使用(如1%的请求)
- 数据投毒 最新研究表明:仅需250个污染样本即可破坏LLM训练效果。现有工具包括:
- nepenthes
- iocaine
- glaze
- nightshade
实施建议: - 未部署防护的站点优先采用投毒方案 - 已部署防护的需注意策略兼容性 - 鼓励创造性反制(如混合WWE解说词与互助论内容)
社区实践: - 在robots.txt设置诱饵路径 - 使用隐藏链接作为陷阱(display:none + nofollow) - 绝对URL更易诱捕爬虫
结论: 呼吁更多人参与对抗科技公司的反社会数据收集行为,建议持续测试不同反制技术的有效性。
(注:文末联系方式、隐私政策等辅助信息已精简,保留核心技术论述)
评论总结
总结评论内容:
- 技术可行性观点:
- 认为通过文本搜索比解析DOM更高效:"it's probably faster to search the text for http/https than parse the DOM"(rokkamokka)
- 经验表明正则表达式比DOM解析更可靠:"battle tested Perl regexes were more reliable than anything else"(latenightcoding)
- 道德争议观点:
- 质疑"非自愿收集"的说法过于敏感:"'Non-consensually', as if you had to ask for permission to perform a GET request"(bakql)
- 认为注释内容本就不该被视为隐私保护:"I don't comment things out thinking 'this will keep robots from reading this'"(Noumenon72)
- 教育缺失观点:
- 批评现代计算机教育忽视基础:"I blame modern CS programs that don't teach kids about parsing"(OhMeadhbh)
- 建议用蜜罐技术反制爬虫:"include a reference to a Honeypot HTML file with garbage text"(OhMeadhbh)
- 研究价值观点:
- 肯定相关研究的实践意义:"Fun to see practical applications of interesting research"(sharkjacobs)
注:所有评论均未显示评分(None),故无法评估认可度。争议焦点集中在技术实现合理性(6条中有4条涉及)和数据收集伦理(2条明确讨论)两个方面。