文章摘要
作者因网站遭遇恶意爬虫攻击导致服务器宕机,反思当前网络环境日益恶劣。他指出三类主要爬虫(AI数据采集、恶意爬虫和自动化程序)正在泛滥,特别是AI公司为训练大模型疯狂抓取网络数据,使公开网络资源面临严峻挑战。作者分析了事故原因并提出了改进措施。
文章总结
标题:疯狂的机器人毁了我的周末
2025年10月29日
10月25日,Bear博客平台遭遇首次重大故障。具体表现为处理自定义域名的反向代理服务器宕机,导致所有自定义域名请求超时。由于监控系统未能及时报警,加上事发周六,我未能第一时间发现故障。对此我深表歉意。
【故障根源分析】 当前网络流量中绝大多数来自三类机器人: 1. AI爬虫:为训练大语言模型而疯狂抓取数据,这类爬虫通常标明身份(如ChatGPT、Anthropic等),我允许用户搜索类爬虫,但禁止数据训练类爬虫。 2. 恶意爬虫:系统性扫描网站漏洞(如配置错误的WordPress实例或敏感文件),过去24小时已拦截近200万次恶意请求。这些爬虫通过数千个IP轮询,疑似利用免费APP构建的移动设备隧道。 3. 失控自动化脚本:编程门槛降低导致任何人都能轻松创建爬虫脚本,这些家用电脑发起的请求足以造成DDoS攻击。
【防御措施】 此前通过Cloudflare的WAF规则、速率限制和自定义代码有效拦截机器人,还尝试过: - 发送压缩炸弹(后因可能误伤用户停止) - 工作量证明验证 - 返回垃圾数据消耗爬虫资源
【事故细节】 上周六早间,数百个博客遭遇每分钟数万次请求的DDoS攻击。虽然防御系统正常运作,但位于防护链上游的反向代理因请求过载崩溃(服务器此前保持5年零宕机记录)。监控系统未能按预设发送推送警报(即使已开启关键警报功能)。
【改进方案】 1. 部署双重监控系统,新增电话/短信/邮件报警 2. 强化反向代理的速率限制,预计降低50%服务器负载 3. 升级反向代理配置(处理能力提升5倍) 4. 设置带宽归零2分钟自动重启机制 5. 新增状态页(status.bearblog.dev)提升透明度
【现状反思】 当前互联网已成为机器人的主场,其中多数是"坏公民"。这场攻防战仍在继续,但正是如此,我们更需要守护那些让网络值得访问的净土。
(全文保留了技术细节和解决方案,删减了部分比喻性描述和次要背景信息,突出核心问题和应对措施)
评论总结
以下是评论内容的总结:
关于爬虫技术的担忧
- 有评论指出爬虫通过移动设备应用进行IP轮换,可能涉及开发者出售隧道访问权牟利。
"这些爬虫在抓取过程中轮换数千个IP地址...可能是通过移动设备应用进行隧道传输"
"Wild indeed, and potentially horrific for the owners of the affected devices"
- 有评论指出爬虫通过移动设备应用进行IP轮换,可能涉及开发者出售隧道访问权牟利。
独立博客托管业务的困境
- 建议放弃独立博客托管业务,认为随着互联网环境恶化,该业务难以盈利。
"他应该考虑退出独立博客托管业务...互联网持续恶化,他无法从中赚取太多"
"It’s only going to get worse as the internet continues to decay"
- 建议放弃独立博客托管业务,认为随着互联网环境恶化,该业务难以盈利。
技术解决方案的提议
- 推荐使用反向代理工具(如Pingoo)或静态托管服务(如Cloudflare Pages)来应对爬虫问题。
"可以看看Pingoo...一个能通过高级规则拦截爬虫的反向代理"
"Maybe moving the blog service to completely static and letting Cloudflare Pages handle it"
- 推荐使用反向代理工具(如Pingoo)或静态托管服务(如Cloudflare Pages)来应对爬虫问题。
爬虫问题的实际影响
- 企业用户反映爬虫不遵守速率限制、伪装身份等问题,导致运营压力增大。
"过去6个月变成了噩梦...爬虫不再遵守速率限制或标识自己"
"Bots use VPNs or similar tech to bypass ip rate limiting"
- 企业用户反映爬虫不遵守速率限制、伪装身份等问题,导致运营压力增大。
法律与道德讨论
- 有观点认为应起诉滥用爬虫者,同时也有声音强调爬虫对互联网服务的必要性。
"为什么不起诉滥用爬虫者?爬虫合法,但DDoS不合法!"
"The Internet isn’t possible without scraping... remains legal and essential"
- 有观点认为应起诉滥用爬虫者,同时也有声音强调爬虫对互联网服务的必要性。
创新防御手段
- 通过设置蜜罐(如伪造robots.txt端点)识别并拦截恶意流量,取得一定效果。
"在robots.txt中设置蜜罐...访问伪造端点的IP会被自动封禁"
"anyone that hit that endpoint MUST be dodgy... it worked for me"
- 通过设置蜜罐(如伪造robots.txt端点)识别并拦截恶意流量,取得一定效果。
对互联网未来的悲观看法
- 部分评论认为爬虫已形成产业,甚至提议将网络分为公开和暗网以应对滥用。
"疯狂的是爬虫已经成为一个产业"
"Do we shift over everything to le Dark Web and let the corpos use this one"
- 部分评论认为爬虫已形成产业,甚至提议将网络分为公开和暗网以应对滥用。
总结呈现了技术担忧、解决方案、法律争议及互联网生态的多角度讨论,核心矛盾集中在爬虫的合法性与滥用之间的平衡。