Hacker News 中文摘要

RSS订阅

AI网络爬虫在无尽内容需求中摧毁网站 -- AI web crawlers are destroying websites in their never-ending content hunger

文章摘要

AI网络爬虫因无节制地抓取内容,导致网站资源过度消耗,甚至破坏网站正常运行。

文章总结

AI网络爬虫正在摧毁网站,无休止地吞噬所有内容

随着人工智能的兴起,AI网络爬虫正在以惊人的速度抓取互联网上的内容,以喂养其大型语言模型(LLM)。根据内容分发网络(CDN)巨头Cloudflare的数据,全球30%的网络流量来自机器人,其中AI爬虫占据了主导地位,并且其流量增长迅速。云服务公司Fastly也指出,80%的AI爬虫流量来自数据抓取机器人

与传统爬虫相比,AI爬虫更加激进,它们不仅无视爬取延迟和带宽限制,还会提取完整的页面文本,甚至尝试跟踪动态链接或脚本。这种行为导致网站性能下降、服务中断,并增加了运营成本。Fastly警告称,AI爬虫的流量峰值可能在几分钟内达到正常水平的十倍甚至二十倍,给服务器带来巨大压力。

对于小型网站来说,AI爬虫的冲击尤为严重。许多小型网站使用共享服务器,即使它们自身没有被爬取,同一服务器上的其他网站被爬取也会导致其性能急剧下降。即使是大型网站,为了应对AI爬虫的流量,也不得不增加处理器、内存和网络资源。如果网站加载时间超过三秒,超过一半的访问者会离开,导致跳出率大幅上升。

尽管网站管理员可以尝试通过登录、付费墙、验证码和复杂的反机器人技术来阻止AI爬虫,但这些措施往往难以奏效。AI爬虫擅长绕过这些障碍,甚至无视传统的robots.txt文件。例如,Perplexity被指控无视robots.txt文件,尽管该公司对此予以否认。

为了应对这一问题,一些基础设施提供商如Cloudflare已经开始提供默认的机器人拦截服务,以阻止AI爬虫访问数据。此外,开源项目Anubis AI爬虫拦截器也试图通过减缓爬虫访问速度来减轻网站压力。然而,这些措施可能无法从根本上解决问题。

随着AI爬虫的泛滥,互联网可能会变得更加碎片化。网站将不得不进一步限制访问或通过付费墙来保护内容,导致重要信息被隔离或完全移除。这种趋势可能会让互联网变得更加封闭,用户可能需要支付费用才能访问大多数内容。

总之,AI爬虫的崛起正在对互联网生态系统造成深远影响,网站管理员和内容创作者面临着前所未有的挑战。

评论总结

评论主要围绕AI爬虫对网站的影响及其应对措施展开,观点分为以下几类:

1. AI爬虫对网站的负面影响

  • 资源消耗与DDoS攻击:多位评论者指出,AI爬虫的频繁访问导致网站资源被大量消耗,甚至引发类似DDoS攻击的情况。例如,throw_m239339提到其表弟的网站因AI爬虫的流量激增而被托管商踢出,不得不设置登录墙或付费墙来应对。
    • 引用:“My cousin manages a dozens of mid-sized informational websites and communities, his former hosting provider kicked him out because he refused to pay the insane bills as a result of literally AI bots DDoS-ing his sites...”
  • 用户体验下降:onetokeoverthe认为验证码(CAPTCHA)的使用严重影响了浏览速度,甚至抵消了25年的技术进步。
    • 引用:“captchas have eliminated 25 years of browsing speed progress.”

2. 对现有解决方案的批评

  • 验证码的无效性与隐私问题:k310指出,Google的reCAPTCHA不仅无法有效阻止爬虫,还涉嫌跟踪用户数据,成为“间谍软件”。
    • 引用:“Google’s reCAPTCHA is not only useless, it’s also basically spyware.”
  • 技术手段的局限性:bdefore提到,尽管他尝试通过robots.txt和用户代理过滤来阻止爬虫,但这些方法效果有限,且增加了运营成本。
    • 引用:“I’m gonna try the robots.txt options, but I’m doubtful this will be effective in the long run.”

3. 对AI公司的批评

  • 缺乏基本的技术规范:giancarlostoro批评AI公司未能采用缓存等基本技术手段,导致爬虫频繁访问网站,增加了服务器负担。
    • 引用:“I’m not sure why they don’t just cache the websites and avoid going back for at least 24 hours, especially in the case of most sites.”
  • 道德与法律问题:pluc认为,AI公司无视基本的道德和法律规范,继续滥用网络资源,最终可能毁掉整个互联网生态。
    • 引用:“People who didn’t respect basic ethics, legal copyrights and common sense aren’t gonna stop because they’re a nuisance.”

4. 可能的解决方案与建议

  • 技术手段的改进:krunck通过用户代理过滤和速率限制成功减少了爬虫对网站的冲击,但承认这种方法并不完美。
    • 引用:“I just block them by User Agent string. The rest that fake the UA get clobbered by rate limiting on the web server.”
  • 数据共享与集中化:idle_zealot提出,建立一个集中化的数据库来存储网站内容,供AI公司使用,从而减少爬虫对网站的访问。然而,他也指出了这一方案的潜在问题,如数据污染和参与度不足。
    • 引用:“Could this be solved by some system where website operators submit text copies of their sites to a big database?”

5. 对AI技术发展的质疑

  • 技术倒退与AGI的遥远:42lux批评AI公司在技术实现上的低效,认为这反而让通用人工智能(AGI)的实现变得更加遥远。
    • 引用:“Only the brightest tech minds of our generation with hundreds of PhDs in their pockets and they deliver us this garbage. I believe AGI is further away than it was 3 years ago.”

总结:评论普遍认为AI爬虫对网站运营造成了严重负担,现有的解决方案(如验证码和robots.txt)效果有限,且AI公司在技术实现和道德规范上存在明显不足。部分评论者提出了改进建议,但也指出了这些方案的潜在问题。