Hacker News 中文摘要

RSS订阅

AI爬虫横行,好东西难留 -- We can't have nice things because of AI scrapers

文章摘要

MetaBrainz团队近期与无视robots.txt等规则的AI公司展开斗争,这些公司通过逐页抓取MusicBrainz和ListenBrainz数据来训练AI模型,导致服务器过载并影响正常用户访问。尽管MetaBrainz提供完整数据集下载,这些公司仍坚持低效的网页抓取方式,迫使团队采取保护措施。

文章总结

MetaBrainz博客:AI爬虫让我们无法拥有美好的事物

最近几个月,MetaBrainz团队一直在与不择手段的AI公司作斗争。这些公司无视基本的网络礼仪(如robots.txt协议),通过爬取互联网数据来构建他们的AI模型。它们没有选择一次性下载完整的数据集,而是坚持逐页抓取MusicBrainz的内容。这种做法不仅毫无意义(可能需要数百年才能完成),还导致服务器过载,影响了正常用户的访问。

现在,这些AI爬虫又盯上了ListenBrainz,频繁调用多个API接口进行数据收集。为了保护服务不被拖垮,我们做出了以下调整:

  1. API访问限制

    • /metadata/lookup接口(GET和POST版本)现在要求调用者提供授权令牌
    • 移除了ListenBrainz Labs API中用于调试的mbid-mapping相关接口,未来将替换为改进后的新接口。
  2. 登录要求

    • LB Radio现在需要用户登录才能使用(API调用者需发送授权头信息)。目前未登录用户的错误提示可能不够友好,我们将在完成“年度音乐回顾”功能后修复。

对于这些突如其来的调整,我们深表歉意,但为了维持服务的正常运行,这些措施是必要的。

用户讨论精选

  1. Jean-Robert Bisaillon提问:
    “为什么这些爬虫要逐页抓取?是对MusicBrainz的误解,还是自动化判断错误?能否识别这些爬虫?”

    • LimeDay回复:
      “AI从业者的能力被高估了。这就像偷苹果:他们选择了最粗暴的方式。”
    • Kazani补充:
      “这是自动化爬虫的典型行为——盲目抓取链接内容,缺乏人工监督。”
  2. 相关阅读


(原文发布于2025年12月11日,归类于开发ListenBrainz栏目)

(注:本文保留了技术细节和用户互动的核心内容,删减了重复的导航栏、归档列表等非关键信息。)

评论总结

以下是评论内容的总结:

1. AI爬虫对开放数据项目的负面影响

  • 主要观点:AI公司无视robots.txt,通过低效的逐页爬取方式加重了志愿者运营的基础设施负担,迫使项目添加认证机制,损害了合法用户的使用体验。
  • 关键引用:
    • "Instead they’re: ∙ Ignoring robots.txt ∙ Bypassing the provided bulk download ∙ Scraping page-by-page ∙ Overloading volunteer-run infrastructure" (lepqq)
    • "AI companies are externalizing their data acquisition costs onto volunteer projects." (lepqq)

2. 技术解决方案的讨论

  • 主要观点:建议通过技术手段(如请求预算、高效语言编写API、优化数据库查询)来缓解爬虫带来的负载问题。
  • 关键引用:
    • "Have a reverse proxy that keeps a 'request budget' per IP and per net block" (kpcyrd)
    • "Write your API servers in more efficient languages." (kpcyrd)

3. 协议与标准的缺失

  • 主要观点:当前缺乏机器可读的协议来指导爬虫如何高效获取数据,导致爬虫与网站之间的协作困难。
  • 关键引用:
    • "I wish there were an established protocol for this. Say a $site/.well-known/machine-readable.json" (arjie)
    • "robots.txt is pretty sparse... cooperating with robots is currently under-specified." (arjie)

4. 开放数据与AI公司的潜在合作

  • 主要观点:如果AI公司主动联系开放数据项目,可能会获得批量数据导出甚至署名,而不是通过爬取方式。
  • 关键引用:
    • "if they’d just contacted MetaBrainz and said 'hey, we’d like to use your dataset for training,' they’d probably get a bulk export" (lep_qq)
    • "Metabrainz assumes good intent from bots, and has to lock down when they violate that trust." (dannyobrien)

5. 历史类比与未来展望

  • 主要观点:当前对AI爬虫的抱怨类似于过去对搜索引擎爬虫的抱怨,未来可能会逐渐接受AI爬虫。
  • 关键引用:
    • "Nowadays people complain about AI scrapers with the same vain as they complained about search indexers a way back when." (garganzol)
    • "Looking forward to the time when everybody suddenly starts to embrace AI indexers." (garganzol)

6. 其他观点

  • 用户行为的影响:用户通过AI工具(如ChatGPT)请求内容摘要,也会被识别为爬虫行为。(falloutx)
  • 匿名性与信任机制:讨论了如何在保持匿名性的同时建立信任机制。(jmward01)
  • 数据质量担忧:有人质疑从开放互联网获取数据的质量,认为其中已包含太多AI生成的偏见。(StephenHerlihyy)

总结

评论普遍认为AI爬虫的低效和粗暴行为对开放数据项目造成了负担,呼吁更好的技术解决方案和协议标准。同时,也有人指出历史相似性和未来可能的转变。不同观点中,技术解决方案和协议改进是最受关注的议题。