文章摘要
亚马逊宣布其爬虫程序Amazonbot将从2026年6月15日起遵守robots.txt协议标准,允许网站通过该文件控制爬取权限,取代此前的手动请求方式。这一改变让网站所有者能更灵活地管理Amazonbot的访问范围。
文章总结
亚马逊爬虫终将遵守robots.txt协议
2026年5月14日发布
作者收到亚马逊官方邮件通知,自2026年6月15日起,亚马逊爬虫Amazonbot将完全遵循robots.txt行业标准协议。邮件要点包括:
控制权限转移:网站所有者可通过robots.txt文件直接控制Amazonbot的抓取行为,无需再提交人工请求。
操作指南:用户可通过标准协议在页面、目录或全站级别管理爬虫访问权限,并随时更新设置。详细说明参见亚马逊开发者页面。
值得注意的是,邮件保留了"通过Mac版Outlook发送"的签名,经检查邮件头确实包含Exchange特有标识。
作者特别提到,正是由于亚马逊爬虫的抓取行为促使他开发了Anubis项目(未具体说明)。他表示将确保Anubis已包含相关robots.txt设置更新。
文末声明:本文内容可能随时间变化而失效,如有疑问建议直接联系作者确认。所有观点仅代表作者个人立场。
(注:原文中的图片链接、个人表情符号贴图及部分技术细节等次要内容已酌情删减)
评论总结
总结评论内容:
- 对robots.txt有效性的质疑
- 主要观点:robots.txt缺乏强制约束力,完全依赖爬虫自觉
- 关键引用: "Robots.txt is lame BTW, there is no way to enforce it."(namegulf) "robots.txt is merely a gentleman’s courtesy at this point."(vindin)
- 对Amazonbot爬虫行为的抱怨
- 主要观点:Amazonbot存在过度爬取、不遵守规则等问题
- 关键引用: "AmazonBot had helped itself to 750 GiB of traffic"(phdelightful) "it would sit there and keep blasting every variation of my recent pages"(arjie)
- 解决方案讨论
- 主要观点:建议使用Cloudflare等第三方防护措施
- 关键引用: "Cloudflare had a nice technic to address the bot problem"(namegulf) "Did end up just adding them to our WAF blocklist"(jacobn)
- 对Amazonbot存在意义的疑问
- 主要观点:质疑电商公司为何需要网络爬虫
- 关键引用: "Why does Amazonbot even exist"(TurdF3rguson) "saw a new AWS User agent in logs today"(captn3m0)
注:所有评论均未显示评分(None),故无法评估认可度。讨论整体呈现对Amazonbot行为的负面倾向,但包含具体技术解决方案的讨论。