Hacker News 中文摘要

RSS订阅

亚马逊机器人终于遵守robots.txt协议 -- Amazonbot is finally respecting robots.txt

文章摘要

亚马逊宣布其爬虫程序Amazonbot将从2026年6月15日起遵守robots.txt协议标准,允许网站通过该文件控制爬取权限,取代此前的手动请求方式。这一改变让网站所有者能更灵活地管理Amazonbot的访问范围。

文章总结

亚马逊爬虫终将遵守robots.txt协议

2026年5月14日发布

作者收到亚马逊官方邮件通知,自2026年6月15日起,亚马逊爬虫Amazonbot将完全遵循robots.txt行业标准协议。邮件要点包括:

  1. 控制权限转移:网站所有者可通过robots.txt文件直接控制Amazonbot的抓取行为,无需再提交人工请求。

  2. 操作指南:用户可通过标准协议在页面、目录或全站级别管理爬虫访问权限,并随时更新设置。详细说明参见亚马逊开发者页面。

值得注意的是,邮件保留了"通过Mac版Outlook发送"的签名,经检查邮件头确实包含Exchange特有标识。

作者特别提到,正是由于亚马逊爬虫的抓取行为促使他开发了Anubis项目(未具体说明)。他表示将确保Anubis已包含相关robots.txt设置更新。

文末声明:本文内容可能随时间变化而失效,如有疑问建议直接联系作者确认。所有观点仅代表作者个人立场。

(注:原文中的图片链接、个人表情符号贴图及部分技术细节等次要内容已酌情删减)

评论总结

总结评论内容:

  1. 对robots.txt有效性的质疑
  • 主要观点:robots.txt缺乏强制约束力,完全依赖爬虫自觉
  • 关键引用: "Robots.txt is lame BTW, there is no way to enforce it."(namegulf) "robots.txt is merely a gentleman’s courtesy at this point."(vindin)
  1. 对Amazonbot爬虫行为的抱怨
  • 主要观点:Amazonbot存在过度爬取、不遵守规则等问题
  • 关键引用: "AmazonBot had helped itself to 750 GiB of traffic"(phdelightful) "it would sit there and keep blasting every variation of my recent pages"(arjie)
  1. 解决方案讨论
  • 主要观点:建议使用Cloudflare等第三方防护措施
  • 关键引用: "Cloudflare had a nice technic to address the bot problem"(namegulf) "Did end up just adding them to our WAF blocklist"(jacobn)
  1. 对Amazonbot存在意义的疑问
  • 主要观点:质疑电商公司为何需要网络爬虫
  • 关键引用: "Why does Amazonbot even exist"(TurdF3rguson) "saw a new AWS User agent in logs today"(captn3m0)

注:所有评论均未显示评分(None),故无法评估认可度。讨论整体呈现对Amazonbot行为的负面倾向,但包含具体技术解决方案的讨论。