Hacker News 中文摘要

RSS订阅

AI爬虫请求注释脚本 -- AI scrapers request commented scripts

原文链接 | HN讨论 | 2025-11-01 03:45:44

文章摘要

作者发现服务器日志中有异常404错误，追踪发现是AI爬虫在请求一个已被注释掉的脚本文件。这些请求来自明显恶意的用户代理，如python-httpx和Go-http-client等，违反了robots.txt规则。这表明AI爬虫会尝试获取页面上所有资源，即使是被注释掉的内容。

文章总结

AI爬虫请求注释脚本的行为分析与反制策略

作者：Aaron P. MacSween 发布日期：2025年10月31日

核心发现： 2025年10月26日，作者在服务器日志中发现异常现象：大量404错误指向一个被注释掉的JavaScript文件请求。这些请求来自两类爬虫： 1. 明显恶意的用户代理（如python-httpx/0.28.1） 2. 伪装成主流浏览器（Firefox/Chrome/Safari）的代理

行为分析：这些爬虫存在两种可能的解析方式： - 善意假设：递归解析HTML注释内容寻找被禁用的URL - 更可能的假设：使用简单模式匹配粗暴抓取类URL文本

反制策略：作者提出四级应对方案（采用零基索引）：

公开披露将此类行为归类为"根本性特征"而非"偶然特征"，主动公开发现以增强集体防御能力。
IP过滤使用fail2ban工具进行IP封锁，建议：

设置较长封锁周期（数周/月级别）
注意避免误封合法用户
需应对僵尸网络的多IP轮换策略

解压炸弹（进阶反击）通过特制压缩文件消耗攻击者资源，但存在：

可能误伤被挟持主机
消耗自身带宽配额
建议选择性使用（如1%的请求）

数据投毒最新研究表明：仅需250个污染样本即可破坏LLM训练效果。现有工具包括：

nepenthes
iocaine
glaze
nightshade

实施建议： - 未部署防护的站点优先采用投毒方案 - 已部署防护的需注意策略兼容性 - 鼓励创造性反制（如混合WWE解说词与互助论内容）

社区实践： - 在robots.txt设置诱饵路径 - 使用隐藏链接作为陷阱（display:none + nofollow） - 绝对URL更易诱捕爬虫

结论：呼吁更多人参与对抗科技公司的反社会数据收集行为，建议持续测试不同反制技术的有效性。

（注：文末联系方式、隐私政策等辅助信息已精简，保留核心技术论述）

评论总结

总结评论内容：

技术可行性观点：

认为通过文本搜索比解析DOM更高效："it's probably faster to search the text for http/https than parse the DOM"（rokkamokka）
经验表明正则表达式比DOM解析更可靠："battle tested Perl regexes were more reliable than anything else"（latenightcoding）

道德争议观点：

质疑"非自愿收集"的说法过于敏感："'Non-consensually', as if you had to ask for permission to perform a GET request"（bakql）
认为注释内容本就不该被视为隐私保护："I don't comment things out thinking 'this will keep robots from reading this'"（Noumenon72）

教育缺失观点：

批评现代计算机教育忽视基础："I blame modern CS programs that don't teach kids about parsing"（OhMeadhbh）
建议用蜜罐技术反制爬虫："include a reference to a Honeypot HTML file with garbage text"（OhMeadhbh）

研究价值观点：

肯定相关研究的实践意义："Fun to see practical applications of interesting research"（sharkjacobs）

注：所有评论均未显示评分（None），故无法评估认可度。争议焦点集中在技术实现合理性（6条中有4条涉及）和数据收集伦理（2条明确讨论）两个方面。