文章摘要
作者发现AI数据爬虫无视robots.txt规则且难以阻挡,它们持续高频请求导致服务器负载。虽然提供静态内容成本较低,但大量请求仍会影响性能,尤其当爬虫获取含大图片的老旧页面时,带宽消耗显著增加。
文章总结
标题:喂养机器人的经济学(Maurycy的博客)
一周前,我设置了一个无限废话生成器作为爬虫陷阱——如今它占据了我服务器99%的流量。令人惊讶的是,给网络爬虫投喂垃圾内容竟成了最经济实惠的解决方案。
新型爬虫图鉴:
这些并非传统搜索引擎的索引机器人,而是为训练大语言模型(LLM)采集数据的爬虫。与依赖网站存活的搜索引擎不同,AI公司随时可以替换数据源。
这些爬虫展现出惊人的侵略性和持久力:它们无视robots.txt协议,被封禁IP就更换地址,屏蔽User-Agent就伪装成浏览器,且保持每秒多次请求的强度全天候运作。
放任自流的代价:
静态文件托管看似成本低廉,实则不然。SSD读取需数十毫秒,加上文件系统开销,当爬虫频繁抓取冷门内容时,服务器仍会不堪重负。带宽消耗更甚——包含数百KB图片的博文会快速累积流量,按100KB文件、每秒4次请求计算,月流量可达1TB。
传统防御失效:
• IP黑名单:面对拥有数千IP的资本加持型爬虫形同虚设 • 速率限制:爬虫通过轮换IP轻松绕过 • 验证机制:登录墙/CAPTCHA/工作量证明都会损害用户体验,JavaScript挑战还会拖慢加载速度
反击策略的溃败:
• Gzip炸弹:压缩比仅1000:1(100MB文件解压为100GB),且爬虫表现出惊人的耐受性 • 404误导:反而刺激爬虫发动更猛烈的请求
最优解:投喂垃圾
动态生成垃圾内容反而成为性价比之选。经优化的马尔可夫废话生成器单次请求仅消耗: - 60微秒CPU时间 - 1.2MB内存 - 零磁盘I/O 无需维护任何规则库,就能让爬虫在垃圾数据中自陷囹圄。
(注:保留核心技术细节和关键数据,删除重复性防御手段描述,优化中文表达习惯)
评论总结
以下是评论内容的总结,按观点分类呈现:
支持用垃圾内容对抗AI爬虫
经济成本论
- 若多数网站都提供垃圾内容,将大幅降低AI爬虫的经济效益(评论2)
"if 80% is garbage... the economic incentive for AI scrapers would greatly shrink" - 住宅IP爬虫的带宽成本更高,对攻击方更有利(评论2)
"each byte of network bandwidth is probably costing them a lot more"
- 若多数网站都提供垃圾内容,将大幅降低AI爬虫的经济效益(评论2)
集体行动有效性
- 建议全网使用统一基础认证(如user:nobots)增加爬虫难度(评论3)
"ALL websites could implement the same User/Pass credentials" - 通过污染训练数据使AI输出有害内容(评论15)
"serve Emergent Misalignment dataset... make LLMs behave like dicks"
- 建议全网使用统一基础认证(如user:nobots)增加爬虫难度(评论3)
技术实现方案
- 推荐马尔可夫链生成无意义文本(评论1/8)
"Frankenstein, Alice in wonderland as sources... works fine" - 建议客户端生成垃圾内容以节省服务器资源(评论6)
"just have their client generate it"
- 推荐马尔可夫链生成无意义文本(评论1/8)
反对或质疑该策略
误伤风险
- 可能同时赶走人类用户(评论5)
"Not only will bots desert it but humans will too" - 无法保护正常页面(评论12)
"How does this help protect regular non-garbage pages?"
- 可能同时赶走人类用户(评论5)
技术局限性
- 随机文本易被过滤(评论15/20)
"random text can be detected... need pre-generated bad information" - 爬虫可能通过LLM识别垃圾内容(评论22)
"add a prompt string to disregard fake content"
- 随机文本易被过滤(评论15/20)
替代方案建议
- 直接使用Cloudflare等专业防护(评论18)
"What’s wrong with just using cloudflare?" - 加密API响应更有效(评论24)
"encrypt your API response... keep 99% out"
- 直接使用Cloudflare等专业防护(评论18)
其他相关观点
- 伦理讨论:类比第三世界农民被迫造假(评论10)
"farmers now use all sorts of tricks... like coloring farm produce" - 技术细节:SSD速度争议(评论11)
"SSD access times... speed of an old-school hard disk" - 中立观察:展示请求日志监控效果(评论19)
"add image with public http logger to see funny requests"
总结:评论主要围绕用垃圾内容对抗AI爬虫的可行性展开,支持方强调集体行动的经济杀伤力,反对方指出技术局限性和误伤风险,另有建议采用加密或专业防护等替代方案。