Hacker News 中文摘要

文章摘要

AI网络爬虫因无节制地抓取内容，导致网站资源过度消耗，甚至破坏网站正常运行。

文章总结

AI网络爬虫正在摧毁网站，无休止地吞噬所有内容

随着人工智能的兴起，AI网络爬虫正在以惊人的速度抓取互联网上的内容，以喂养其大型语言模型（LLM）。根据内容分发网络（CDN）巨头Cloudflare的数据，全球30%的网络流量来自机器人，其中AI爬虫占据了主导地位，并且其流量增长迅速。云服务公司Fastly也指出，80%的AI爬虫流量来自数据抓取机器人。

与传统爬虫相比，AI爬虫更加激进，它们不仅无视爬取延迟和带宽限制，还会提取完整的页面文本，甚至尝试跟踪动态链接或脚本。这种行为导致网站性能下降、服务中断，并增加了运营成本。Fastly警告称，AI爬虫的流量峰值可能在几分钟内达到正常水平的十倍甚至二十倍，给服务器带来巨大压力。

对于小型网站来说，AI爬虫的冲击尤为严重。许多小型网站使用共享服务器，即使它们自身没有被爬取，同一服务器上的其他网站被爬取也会导致其性能急剧下降。即使是大型网站，为了应对AI爬虫的流量，也不得不增加处理器、内存和网络资源。如果网站加载时间超过三秒，超过一半的访问者会离开，导致跳出率大幅上升。

尽管网站管理员可以尝试通过登录、付费墙、验证码和复杂的反机器人技术来阻止AI爬虫，但这些措施往往难以奏效。AI爬虫擅长绕过这些障碍，甚至无视传统的robots.txt文件。例如，Perplexity被指控无视robots.txt文件，尽管该公司对此予以否认。

为了应对这一问题，一些基础设施提供商如Cloudflare已经开始提供默认的机器人拦截服务，以阻止AI爬虫访问数据。此外，开源项目Anubis AI爬虫拦截器也试图通过减缓爬虫访问速度来减轻网站压力。然而，这些措施可能无法从根本上解决问题。

随着AI爬虫的泛滥，互联网可能会变得更加碎片化。网站将不得不进一步限制访问或通过付费墙来保护内容，导致重要信息被隔离或完全移除。这种趋势可能会让互联网变得更加封闭，用户可能需要支付费用才能访问大多数内容。

总之，AI爬虫的崛起正在对互联网生态系统造成深远影响，网站管理员和内容创作者面临着前所未有的挑战。

评论总结

评论主要围绕AI爬虫对网站的影响及其应对措施展开，观点分为以下几类：

1. AI爬虫对网站的负面影响

资源消耗与DDoS攻击：多位评论者指出，AI爬虫的频繁访问导致网站资源被大量消耗，甚至引发类似DDoS攻击的情况。例如，throw_m239339提到其表弟的网站因AI爬虫的流量激增而被托管商踢出，不得不设置登录墙或付费墙来应对。
- 引用：“My cousin manages a dozens of mid-sized informational websites and communities, his former hosting provider kicked him out because he refused to pay the insane bills as a result of literally AI bots DDoS-ing his sites...”
用户体验下降：onetokeoverthe认为验证码（CAPTCHA）的使用严重影响了浏览速度，甚至抵消了25年的技术进步。
- 引用：“captchas have eliminated 25 years of browsing speed progress.”

2. 对现有解决方案的批评

验证码的无效性与隐私问题：k310指出，Google的reCAPTCHA不仅无法有效阻止爬虫，还涉嫌跟踪用户数据，成为“间谍软件”。
- 引用：“Google’s reCAPTCHA is not only useless, it’s also basically spyware.”
技术手段的局限性：bdefore提到，尽管他尝试通过robots.txt和用户代理过滤来阻止爬虫，但这些方法效果有限，且增加了运营成本。
- 引用：“I’m gonna try the robots.txt options, but I’m doubtful this will be effective in the long run.”

3. 对AI公司的批评

缺乏基本的技术规范：giancarlostoro批评AI公司未能采用缓存等基本技术手段，导致爬虫频繁访问网站，增加了服务器负担。
- 引用：“I’m not sure why they don’t just cache the websites and avoid going back for at least 24 hours, especially in the case of most sites.”
道德与法律问题：pluc认为，AI公司无视基本的道德和法律规范，继续滥用网络资源，最终可能毁掉整个互联网生态。
- 引用：“People who didn’t respect basic ethics, legal copyrights and common sense aren’t gonna stop because they’re a nuisance.”

4. 可能的解决方案与建议

技术手段的改进：krunck通过用户代理过滤和速率限制成功减少了爬虫对网站的冲击，但承认这种方法并不完美。
- 引用：“I just block them by User Agent string. The rest that fake the UA get clobbered by rate limiting on the web server.”
数据共享与集中化：idle_zealot提出，建立一个集中化的数据库来存储网站内容，供AI公司使用，从而减少爬虫对网站的访问。然而，他也指出了这一方案的潜在问题，如数据污染和参与度不足。
- 引用：“Could this be solved by some system where website operators submit text copies of their sites to a big database?”

5. 对AI技术发展的质疑

技术倒退与AGI的遥远：42lux批评AI公司在技术实现上的低效，认为这反而让通用人工智能（AGI）的实现变得更加遥远。
- 引用：“Only the brightest tech minds of our generation with hundreds of PhDs in their pockets and they deliver us this garbage. I believe AGI is further away than it was 3 years ago.”

总结：评论普遍认为AI爬虫对网站运营造成了严重负担，现有的解决方案（如验证码和robots.txt）效果有限，且AI公司在技术实现和道德规范上存在明显不足。部分评论者提出了改进建议，但也指出了这些方案的潜在问题。

AI网络爬虫在无尽内容需求中摧毁网站 -- AI web crawlers are destroying websites in their never-ending content hunger