Hacker News 中文摘要

文章摘要

作者因网站遭遇恶意爬虫攻击导致服务器宕机,反思当前网络环境日益恶劣。他指出三类主要爬虫(AI数据采集、恶意爬虫和自动化程序)正在泛滥,特别是AI公司为训练大模型疯狂抓取网络数据,使公开网络资源面临严峻挑战。作者分析了事故原因并提出了改进措施。

文章总结

标题：疯狂的机器人毁了我的周末

2025年10月29日

10月25日，Bear博客平台遭遇首次重大故障。具体表现为处理自定义域名的反向代理服务器宕机，导致所有自定义域名请求超时。由于监控系统未能及时报警，加上事发周六，我未能第一时间发现故障。对此我深表歉意。

【故障根源分析】当前网络流量中绝大多数来自三类机器人： 1. AI爬虫：为训练大语言模型而疯狂抓取数据，这类爬虫通常标明身份（如ChatGPT、Anthropic等），我允许用户搜索类爬虫，但禁止数据训练类爬虫。 2. 恶意爬虫：系统性扫描网站漏洞（如配置错误的WordPress实例或敏感文件），过去24小时已拦截近200万次恶意请求。这些爬虫通过数千个IP轮询，疑似利用免费APP构建的移动设备隧道。 3. 失控自动化脚本：编程门槛降低导致任何人都能轻松创建爬虫脚本，这些家用电脑发起的请求足以造成DDoS攻击。

【防御措施】此前通过Cloudflare的WAF规则、速率限制和自定义代码有效拦截机器人，还尝试过： - 发送压缩炸弹（后因可能误伤用户停止） - 工作量证明验证 - 返回垃圾数据消耗爬虫资源

【事故细节】上周六早间，数百个博客遭遇每分钟数万次请求的DDoS攻击。虽然防御系统正常运作，但位于防护链上游的反向代理因请求过载崩溃（服务器此前保持5年零宕机记录）。监控系统未能按预设发送推送警报（即使已开启关键警报功能）。

【改进方案】 1. 部署双重监控系统，新增电话/短信/邮件报警 2. 强化反向代理的速率限制，预计降低50%服务器负载 3. 升级反向代理配置（处理能力提升5倍） 4. 设置带宽归零2分钟自动重启机制 5. 新增状态页（status.bearblog.dev）提升透明度

【现状反思】当前互联网已成为机器人的主场，其中多数是"坏公民"。这场攻防战仍在继续，但正是如此，我们更需要守护那些让网络值得访问的净土。

（全文保留了技术细节和解决方案，删减了部分比喻性描述和次要背景信息，突出核心问题和应对措施）

评论总结

以下是评论内容的总结：

关于爬虫技术的担忧
- 有评论指出爬虫通过移动设备应用进行IP轮换，可能涉及开发者出售隧道访问权牟利。
  "这些爬虫在抓取过程中轮换数千个IP地址...可能是通过移动设备应用进行隧道传输"
  "Wild indeed, and potentially horrific for the owners of the affected devices"
独立博客托管业务的困境
- 建议放弃独立博客托管业务，认为随着互联网环境恶化，该业务难以盈利。
  "他应该考虑退出独立博客托管业务...互联网持续恶化，他无法从中赚取太多"
  "It’s only going to get worse as the internet continues to decay"
技术解决方案的提议
- 推荐使用反向代理工具（如Pingoo）或静态托管服务（如Cloudflare Pages）来应对爬虫问题。
  "可以看看Pingoo...一个能通过高级规则拦截爬虫的反向代理"
  "Maybe moving the blog service to completely static and letting Cloudflare Pages handle it"
爬虫问题的实际影响
- 企业用户反映爬虫不遵守速率限制、伪装身份等问题，导致运营压力增大。
  "过去6个月变成了噩梦...爬虫不再遵守速率限制或标识自己"
  "Bots use VPNs or similar tech to bypass ip rate limiting"
法律与道德讨论
- 有观点认为应起诉滥用爬虫者，同时也有声音强调爬虫对互联网服务的必要性。
  "为什么不起诉滥用爬虫者？爬虫合法，但DDoS不合法！"
  "The Internet isn’t possible without scraping... remains legal and essential"
创新防御手段
- 通过设置蜜罐（如伪造robots.txt端点）识别并拦截恶意流量，取得一定效果。
  "在robots.txt中设置蜜罐...访问伪造端点的IP会被自动封禁"
  "anyone that hit that endpoint MUST be dodgy... it worked for me"
对互联网未来的悲观看法
- 部分评论认为爬虫已形成产业，甚至提议将网络分为公开和暗网以应对滥用。
  "疯狂的是爬虫已经成为一个产业"
  "Do we shift over everything to le Dark Web and let the corpos use this one"

总结呈现了技术担忧、解决方案、法律争议及互联网生态的多角度讨论，核心矛盾集中在爬虫的合法性与滥用之间的平衡。

激进机器人毁了我的周末 -- Aggressive bots ruined my weekend

文章摘要

文章总结

评论总结