文章摘要
AI爬虫和抓取工具对网站造成巨大压力,Meta和OpenAI是主要使用者。Fastly报告指出,AI爬虫占所有AI机器人流量的80%,Meta占爬虫流量的一半以上,OpenAI则主导抓取请求。这些工具每分钟发出数千次请求,给网站带来新挑战,包括可见性、控制力和成本问题,且缺乏明确的验证标准,增加了自动化风险。
文章总结
AI爬虫和抓取器对网站造成巨大压力,Meta和OpenAI是主要“罪魁祸首”
云服务巨头Fastly发布报告指出,AI爬虫和抓取器对开放网络造成了巨大负担,其中AI爬虫占据了80%的AI机器人流量,而抓取器则占20%。这些机器人和抓取器每分钟可以对单个网站发起数千次请求,导致网站负载急剧增加。
报告显示,Meta的AI部门占据了超过一半的爬虫流量,而OpenAI则在抓取请求中占据了绝对主导地位,几乎达到了98%。Fastly的高级安全研究员Arun Kumar表示,AI机器人正在改变互联网的访问和体验方式,给数字平台带来了新的复杂性。无论是用于训练数据的抓取还是实时响应,这些机器人都对可见性、控制力和成本提出了新的挑战。
报告还警告,如果AI机器人设计不当,可能会对服务器施加不可持续的负载,导致性能下降、服务中断和运营成本增加。Kumar强调,这种增长是不可持续的,不仅给运营带来挑战,还损害了内容创作者的商业模式。行业需要建立更负责任的爬虫规范,确保AI公司在获取数据的同时尊重网站的指导方针。
尽管AI抓取器仅占AI机器人请求的20%,但它们可能引发巨大的流量爆发。例如,在测试期间,一个抓取器每分钟可生成超过39,000次请求。Kumar预测,随着AI工具的广泛采用,抓取器流量将继续增长。
此外,报告还提到,一些AI公司无视网站的robots.txt文件,继续抓取数据。Kumar呼吁,任何有信誉的AI公司都应遵守robots.txt,并公开其IP地址范围和机器人名称,以便网站管理员更好地管理爬虫流量。
面对这一问题,网站管理员开始采取主动措施,如使用Anubis等工具来减少机器人流量。然而,Kumar指出,机器人技术也在不断改进,试图绕过这些防御措施,形成了一场持续的“猫鼠游戏”。
Anubis的开发者Xe Iaso认为,除非AI泡沫破裂,否则爬虫流量的增长不会停止。他们指出,AI公司正在利用这些工具替代人类知识和技能,这种趋势可能会持续下去,直到泡沫破裂。
最后,Xe Iaso呼吁政府介入,对破坏数字公共利益的AI公司处以巨额罚款,并要求它们向受影响的社区支付赔偿。他们认为,Anubis等工具虽然可以增加攻击者的计算成本,但根本的解决方案仍需要通过监管来实现。
截至目前,Anthropic、Google、Meta、OpenAI和Perplexity均未对报告发表评论。
评论总结
评论内容主要围绕AI爬虫对互联网的影响展开,观点分为支持和反对两派。
支持AI爬虫的观点:
1. 提高信息获取效率:AI爬虫能够快速搜索和总结信息,减少手动操作。
- "Before that’s more or less what I was trying to do by hand." (shinycode)
- "My AI agent should find and give me concise and precise answers." (hereme888)
- 过滤垃圾信息:AI可以帮助过滤互联网上的低质量内容。
- "The internet is so polluted with garbage, compliments of marketing." (hereme888)
反对AI爬虫的观点:
1. 资源消耗与成本问题:AI爬虫大量请求网站资源,导致性能下降和成本增加。
- "AI crawlers were downloading whole pages and executing all the javascript tens of millions of times a day." (jasoncartwright)
- "OpenAI straight up DoSed a site I manage for my in-laws a few months ago." (rco8786)
- 法律与监管缺失:缺乏对AI爬虫的监管,可能导致法律纠纷。
- "Isn’t there a class action lawsuit coming from all this?" (xrd)
- "This is a regulatory issue. The thing that needs to happen is that governments need to step in." (exasperaited)
其他观点:
1. 技术解决方案:使用Cloudflare等工具限制爬虫请求。
- "I just set a rate-limit in cloudflare because no legitimate symbol server user will ever be excessive." (delfinom)
- 文章与报告质疑:部分评论认为文章缺乏实质性内容,可能为广告。
- "This article and the 'report' look like a submarine ad for Fastly services." (lostmsu)
总结:AI爬虫在提高信息获取效率的同时,也带来了资源消耗、成本和法律监管等问题,部分用户通过技术手段进行限制,而文章本身也受到质疑。