Hacker News 中文摘要

RSS订阅

Perplexity利用隐形未声明爬虫规避禁止抓取指令 -- Perplexity is using stealth, undeclared crawlers to evade no-crawl directives

文章摘要

Perplexity作为AI驱动的搜索引擎,被发现使用隐蔽、未声明的爬虫绕过网站的禁止爬取指令。尽管其初始爬取时使用声明的用户代理,但在遇到网络阻止后,会通过修改用户代理和更改来源ASN来隐藏爬取行为,甚至忽略或未获取robots.txt文件。这种行为违背了网络爬虫应透明、遵循网站指令的基本原则,破坏了互联网的信任基础。

文章总结

标题:Perplexity 使用隐秘、未声明的爬虫规避网站禁止爬取指令

主要内容:

Cloudflare 观察到,AI 驱动的问答引擎 Perplexity 存在隐秘爬取行为。尽管 Perplexity 最初使用其声明的用户代理进行爬取,但当遇到网络拦截时,它会通过修改用户代理和更改来源 ASN(自治系统号)来隐藏其爬取活动,甚至忽略或未获取 robots.txt 文件。这种行为违背了网络爬虫应遵循的透明性和尊重网站指令的基本原则。因此,Cloudflare 已将 Perplexity 从已验证的机器人列表中移除,并在其管理规则中添加了启发式方法以阻止这种隐秘爬取。

测试过程:

Cloudflare 收到客户投诉,称尽管他们在 robots.txt 文件中禁止了 Perplexity 的爬取活动,并设置了 WAF 规则来拦截 Perplexity 的声明爬虫(PerplexityBotPerplexity-User),但 Perplexity 仍能访问其内容。Cloudflare 通过创建多个新域名并进行测试,发现 Perplexity 仍能提供这些被限制域名的详细信息,尽管已采取所有必要措施防止其爬虫获取这些数据。

隐秘行为观察:

Perplexity 不仅使用其声明的用户代理,还在其声明爬虫被拦截时使用模仿 Google Chrome 的通用浏览器。此外,Perplexity 的未声明爬虫使用了未在其官方 IP 范围内列出的多个 IP,并通过轮换这些 IP 和 ASN 来规避网站拦截。这种行为在每天数百万次的请求中被观察到。

良好爬虫行为的标准:

与 Perplexity 的行为形成对比,互联网对良好爬虫的行为有明确要求:爬虫应透明、行为良好、目的明确、活动分离,并遵守网站规则。OpenAI 是一个遵循这些最佳实践的领先 AI 公司,其爬虫明确声明、尊重 robots.txt,并且不会规避网络级别的拦截。

如何保护自己:

Cloudflare 的机器人管理系统已将 Perplexity 的隐秘用户代理评分并阻止其通过管理挑战。客户可以通过设置规则来挑战请求,保护自己免受未声明爬虫的侵扰。此外,Cloudflare 还在其管理规则中添加了针对隐秘爬虫的签名匹配,以阻止 AI 爬取活动。

未来展望:

Cloudflare 宣布了“内容独立日”,为内容创作者和发布者提供更多控制权。目前已有超过 250 万个网站选择完全禁止 AI 训练。Cloudflare 预计,随着这些新功能的推出,爬虫行为将发生变化,并将继续与全球技术和政策专家合作,制定明确且可衡量的原则,以规范良好爬虫的行为。

总结:

Perplexity 的隐秘爬取行为违背了网络爬虫的基本准则,Cloudflare 已采取措施阻止这种行为,并呼吁爬虫运营商遵循透明性和尊重网站指令的原则。

评论总结

评论主要围绕Perplexity AI是否违反robots.txt规则以及用户代理的合法性展开,观点多样且存在争议。

观点1:Perplexity AI的行为是否违反robots.txt规则存在争议。 - 支持Perplexity未违规的评论:JimDabell指出,robots.txt仅限制递归抓取的爬虫,而Perplexity在用户请求特定页面时,仅抓取该页面,不涉及递归抓取,因此不应被视为违规。
引用
"robots.txt only restricts crawlers. That is, automated user-agents that recursively fetch pages."
"If the user asks about a particular page and Perplexity fetches only that page, then robots.txt has nothing to say about this." - 质疑Perplexity行为的评论:gruez认为实验不够明确,无法确定Perplexity是系统爬取还是用户请求,并指出两者在道德和法律上应有区别。
引用
"it's unclear on whether Perplexity was crawling (ie. systematically viewing every page on the site without the direction of a human), or simply retrieving content on behalf of the user."

观点2:用户代理(如LLM)的合法性应等同于浏览器。 - 支持LLM合法性的评论:fxtentacle认为,如果用户使用LLM代理访问网站,其合法性应与浏览器相同,尤其是当网站内容因广告和弹窗变得难以使用时。
引用
"why would the LLM accessing the website on my behalf be in a different legal category as my Firefox web browser accessing the website on my behalf?" - 反对用户代理歧视的评论:nnx指出,用户代理(如LLM)不应受到歧视,应与浏览器享有同等权利。
引用
"there should be no discrimination towards it as there should be no discrimination towards, say, Links terminal browser."

观点3:网络信息应开放给所有访问者。 - 支持信息开放的评论:bbqfog认为,发布在网上的信息应对所有访问者开放,无论是人类还是机器。
引用
"If you put info on the web, it should be available to everyone or everything with access."

观点4:Cloudflare试图成为中间商的行为受到批评。 - 批评Cloudflare的评论:TechDebtDevin指责Cloudflare试图通过勒索访问者来成为中间商,并认为这种行为不会成功。
引用
"Cloudflare screaming into the void desperate to insert themselves as a middleman, in a market (that they will never succeed in creating) where they extort scrapers for access to websites they cover."

总结:评论中对Perplexity AI的行为是否违反robots.txt规则存在分歧,部分人认为其行为合法,部分人质疑其道德性。同时,用户代理(如LLM)的合法性被广泛讨论,多数人认为其应与浏览器享有同等权利。此外,网络信息的开放性和Cloudflare的中间商行为也受到关注。