文章摘要
Anubis是一个结合艺术项目与网络防护措施的工具,旨在通过“衡量HTTP请求的灵魂”来保护网站免受AI爬虫的侵扰。用户访问某些网站时可能会看到动漫猫娘头像,这是Anubis的防护机制。作者在访问Linux内核相关网站时也遇到了Anubis的拦截,尽管他确信自己“有灵魂”,但访问方式可能触发了防护。
文章总结
标题:Anubis:一个反AI爬虫的网络防护项目
主要内容:
Anubis 是一个结合艺术项目与网络防护措施的项目,旨在通过“衡量HTTP请求的灵魂”来保护网站免受AI爬虫的侵扰。当用户访问某些网站时,可能会看到动漫猫娘的头像,这就是Anubis的标志。
问题:
传统的反爬虫方法通常采用速率限制和验证码(CAPTCHA)的组合。验证码要求用户解决一个对人类简单但对计算机困难的问题。然而,Anubis 却反其道而行之,要求用户解决一个对计算机简单但对人类几乎不可能的问题。具体来说,用户需要暴力破解一个值,使得该值附加到挑战字符串后,其SHA-256哈希值的前几位为零。这与比特币挖矿的原理类似,尽管Anubis并不真正挖掘加密货币。
数字分析:
Anubis的默认配置要求用户解决一个难度为4的挑战,即哈希值的前4个十六进制位为零。这意味着用户需要进行2^16次SHA-256操作才能找到一个合适的nonce。假设Anubis项目的每个GitHub星标代表一个部署了Anubis的网站,那么爬虫访问所有网站的成本几乎可以忽略不计。计算显示,即使有数百万个网站部署了Anubis,其计算成本也远低于AI供应商的预算。
替代方案:
Anubis的设计灵感来源于90年代的Hashcash,一种从未广泛采用的反垃圾邮件解决方案。另一个有趣的例子是Habeas,该公司通过授权短俳句嵌入邮件头来阻止垃圾邮件,并起诉未经许可使用其俳句的垃圾邮件发送者。
解决方案:
对于不想使用桌面浏览器进行计算的用户,可以通过curl获取挑战,并使用C程序快速计算出合适的nonce,从而获得访问权限。这种方法虽然繁琐,但可以自动化,且成本极低。
结论:
Anubis的设计虽然初衷良好,但其实际效果可能有限。对于拥有大量计算资源的AI供应商来说,这种防护措施几乎无效,反而可能对普通用户造成不便。最终,Anubis可能只是让互联网资源变得更难访问,并浪费了一些能源。
备注:
本文作者强调,文章完全由人类撰写,未使用任何AI工具。作者还指出,Anubis的维护者在收到反馈后迅速修复了一个潜在的双重花费漏洞。
评论总结
评论主要围绕Anubis这一工具的有效性、设计理念及其对AI爬虫的阻挡效果展开,观点多样且存在争议。
支持Anubis的观点:
1. 增加爬虫的摩擦:Anubis通过增加爬虫的访问难度,迫使它们重新考虑大规模抓取策略或自我限制。
- "it adds enough friction to force them to rethink how they’re scraping at scale" (Philpax)
- "Since these bots are so dumb, anything that is going to slow them down or stop them in their tracks is a good thing." (WesolyKubeczek)
- 简单有效:Anubis通过JavaScript挑战阻挡了不支持现代JS功能的AI爬虫,尽管其核心是“安全通过模糊性”,但短期内有效。
- "it operates mainly on the assumption that AI scrapers have limited support for JS" (ksymph)
- "the actual lived experience of webmasters tells that the bots that scrape the internets for LLMs are nothing like crafted software." (WesolyKubeczek)
反对Anubis的观点:
1. 易被绕过:Anubis的挑战可以被自动化工具轻易绕过,尤其是通过修改User-Agent或使用浏览器扩展。
- "Just change your user agent to not have 'Mozilla' in it; Anubis only serves you the challenge if it has that." (Arnavion)
- "it seems like ai bots are indeed bypassing the challenge by computing it" (leumon)
- 设计问题:Anubis依赖JavaScript和Cookie,增加了用户访问的复杂性,且其默认配置可能存在问题。
- "My biggest bitch is that it requires JS and cookies..." (johnea)
- "Kernel.org* just has to actually configure Anubis rather than deploying the default broken config." (superkuh)
其他观点:
1. 对AI爬虫的敌意:部分评论质疑为何对AI爬虫有如此大的敌意,认为其与Google等搜索引擎的爬虫并无本质区别。
- "What exactly is so bad about AI crawlers compared to Google or Bing?" (jimmaswell)
- "I don’t understand, why do people resort to this tool instead of simply blocking by UA string or IP address." (rnhmjoj)
- 对Anubis设计的批评:部分评论对Anubis的卡通形象和设计理念表示不满,认为其过于花哨且不专业。
- "I hate Amazon’s failure pets, I hate google’s failure mini-games" (serf)
- "This cartoon mascot has absolutely nothing to do with anime" (efilife)
总结:Anubis作为一种阻挡AI爬虫的工具,其有效性存在争议,支持者认为其增加了爬虫的访问难度,而反对者则认为其易被绕过且设计存在问题。此外,部分评论对AI爬虫的敌意和Anubis的设计理念提出了质疑。