Hacker News 中文摘要

文章摘要

作者发现AI数据爬虫无视robots.txt规则且难以阻挡，它们持续高频请求导致服务器负载。虽然提供静态内容成本较低，但大量请求仍会影响性能，尤其当爬虫获取含大图片的老旧页面时，带宽消耗显著增加。

标题：喂养机器人的经济学（Maurycy的博客）

一周前，我设置了一个无限废话生成器作为爬虫陷阱——如今它占据了我服务器99%的流量。令人惊讶的是，给网络爬虫投喂垃圾内容竟成了最经济实惠的解决方案。

这些并非传统搜索引擎的索引机器人，而是为训练大语言模型（LLM）采集数据的爬虫。与依赖网站存活的搜索引擎不同，AI公司随时可以替换数据源。

这些爬虫展现出惊人的侵略性和持久力：它们无视robots.txt协议，被封禁IP就更换地址，屏蔽User-Agent就伪装成浏览器，且保持每秒多次请求的强度全天候运作。

静态文件托管看似成本低廉，实则不然。SSD读取需数十毫秒，加上文件系统开销，当爬虫频繁抓取冷门内容时，服务器仍会不堪重负。带宽消耗更甚——包含数百KB图片的博文会快速累积流量，按100KB文件、每秒4次请求计算，月流量可达1TB。

• IP黑名单：面对拥有数千IP的资本加持型爬虫形同虚设 • 速率限制：爬虫通过轮换IP轻松绕过 • 验证机制：登录墙/CAPTCHA/工作量证明都会损害用户体验，JavaScript挑战还会拖慢加载速度

• Gzip炸弹：压缩比仅1000:1（100MB文件解压为100GB），且爬虫表现出惊人的耐受性 • 404误导：反而刺激爬虫发动更猛烈的请求

动态生成垃圾内容反而成为性价比之选。经优化的马尔可夫废话生成器单次请求仅消耗： - 60微秒CPU时间 - 1.2MB内存 - 零磁盘I/O 无需维护任何规则库，就能让爬虫在垃圾数据中自陷囹圄。

（注：保留核心技术细节和关键数据，删除重复性防御手段描述，优化中文表达习惯）

以下是评论内容的总结，按观点分类呈现：

经济成本论
- 若多数网站都提供垃圾内容，将大幅降低AI爬虫的经济效益（评论2）
  "if 80% is garbage... the economic incentive for AI scrapers would greatly shrink"
- 住宅IP爬虫的带宽成本更高，对攻击方更有利（评论2）
  "each byte of network bandwidth is probably costing them a lot more"
集体行动有效性
- 建议全网使用统一基础认证（如user:nobots）增加爬虫难度（评论3）
  "ALL websites could implement the same User/Pass credentials"
- 通过污染训练数据使AI输出有害内容（评论15）
  "serve Emergent Misalignment dataset... make LLMs behave like dicks"
技术实现方案
- 推荐马尔可夫链生成无意义文本（评论1/8）
  "Frankenstein, Alice in wonderland as sources... works fine"
- 建议客户端生成垃圾内容以节省服务器资源（评论6）
  "just have their client generate it"

误伤风险
- 可能同时赶走人类用户（评论5）
  "Not only will bots desert it but humans will too"
- 无法保护正常页面（评论12）
  "How does this help protect regular non-garbage pages?"
技术局限性
- 随机文本易被过滤（评论15/20）
  "random text can be detected... need pre-generated bad information"
- 爬虫可能通过LLM识别垃圾内容（评论22）
  "add a prompt string to disregard fake content"
替代方案建议
- 直接使用Cloudflare等专业防护（评论18）
  "What’s wrong with just using cloudflare?"
- 加密API响应更有效（评论24）
  "encrypt your API response... keep 99% out"

伦理讨论：类比第三世界农民被迫造假（评论10）
"farmers now use all sorts of tricks... like coloring farm produce"
技术细节：SSD速度争议（评论11）
"SSD access times... speed of an old-school hard disk"
中立观察：展示请求日志监控效果（评论19）
"add image with public http logger to see funny requests"

总结：评论主要围绕用垃圾内容对抗AI爬虫的可行性展开，支持方强调集体行动的经济杀伤力，反对方指出技术局限性和误伤风险，另有建议采用加密或专业防护等替代方案。