Hacker News 中文摘要

文章摘要

MetaBrainz团队近期与无视robots.txt等规则的AI公司展开斗争，这些公司通过逐页抓取MusicBrainz和ListenBrainz数据来训练AI模型，导致服务器过载并影响正常用户访问。尽管MetaBrainz提供完整数据集下载，这些公司仍坚持低效的网页抓取方式，迫使团队采取保护措施。

文章总结

MetaBrainz博客：AI爬虫让我们无法拥有美好的事物

最近几个月，MetaBrainz团队一直在与不择手段的AI公司作斗争。这些公司无视基本的网络礼仪（如robots.txt协议），通过爬取互联网数据来构建他们的AI模型。它们没有选择一次性下载完整的数据集，而是坚持逐页抓取MusicBrainz的内容。这种做法不仅毫无意义（可能需要数百年才能完成），还导致服务器过载，影响了正常用户的访问。

现在，这些AI爬虫又盯上了ListenBrainz，频繁调用多个API接口进行数据收集。为了保护服务不被拖垮，我们做出了以下调整：

API访问限制：
- /metadata/lookup接口（GET和POST版本）现在要求调用者提供授权令牌。
- 移除了ListenBrainz Labs API中用于调试的mbid-mapping相关接口，未来将替换为改进后的新接口。
登录要求：
- LB Radio现在需要用户登录才能使用（API调用者需发送授权头信息）。目前未登录用户的错误提示可能不够友好，我们将在完成“年度音乐回顾”功能后修复。

对于这些突如其来的调整，我们深表歉意，但为了维持服务的正常运行，这些措施是必要的。

用户讨论精选

Jean-Robert Bisaillon提问：
“为什么这些爬虫要逐页抓取？是对MusicBrainz的误解，还是自动化判断错误？能否识别这些爬虫？”
- LimeDay回复：
  “AI从业者的能力被高估了。这就像偷苹果：他们选择了最粗暴的方式。”
- Kazani补充：
  “这是自动化爬虫的典型行为——盲目抓取链接内容，缺乏人工监督。”
相关阅读：
- 《数据共享与人工智能：法国-魁北克视角》（法语）

（原文发布于2025年12月11日，归类于开发与ListenBrainz栏目）

（注：本文保留了技术细节和用户互动的核心内容，删减了重复的导航栏、归档列表等非关键信息。）

评论总结

以下是评论内容的总结：

1. AI爬虫对开放数据项目的负面影响

主要观点：AI公司无视robots.txt，通过低效的逐页爬取方式加重了志愿者运营的基础设施负担，迫使项目添加认证机制，损害了合法用户的使用体验。
关键引用：
- "Instead they’re: ∙ Ignoring robots.txt ∙ Bypassing the provided bulk download ∙ Scraping page-by-page ∙ Overloading volunteer-run infrastructure" (lepqq)
- "AI companies are externalizing their data acquisition costs onto volunteer projects." (lepqq)

2. 技术解决方案的讨论

主要观点：建议通过技术手段（如请求预算、高效语言编写API、优化数据库查询）来缓解爬虫带来的负载问题。
关键引用：
- "Have a reverse proxy that keeps a 'request budget' per IP and per net block" (kpcyrd)
- "Write your API servers in more efficient languages." (kpcyrd)

3. 协议与标准的缺失

主要观点：当前缺乏机器可读的协议来指导爬虫如何高效获取数据，导致爬虫与网站之间的协作困难。
关键引用：
- "I wish there were an established protocol for this. Say a $site/.well-known/machine-readable.json" (arjie)
- "robots.txt is pretty sparse... cooperating with robots is currently under-specified." (arjie)

4. 开放数据与AI公司的潜在合作

主要观点：如果AI公司主动联系开放数据项目，可能会获得批量数据导出甚至署名，而不是通过爬取方式。
关键引用：
- "if they’d just contacted MetaBrainz and said 'hey, we’d like to use your dataset for training,' they’d probably get a bulk export" (lep_qq)
- "Metabrainz assumes good intent from bots, and has to lock down when they violate that trust." (dannyobrien)

5. 历史类比与未来展望

主要观点：当前对AI爬虫的抱怨类似于过去对搜索引擎爬虫的抱怨，未来可能会逐渐接受AI爬虫。
关键引用：
- "Nowadays people complain about AI scrapers with the same vain as they complained about search indexers a way back when." (garganzol)
- "Looking forward to the time when everybody suddenly starts to embrace AI indexers." (garganzol)

6. 其他观点

用户行为的影响：用户通过AI工具（如ChatGPT）请求内容摘要，也会被识别为爬虫行为。(falloutx)
匿名性与信任机制：讨论了如何在保持匿名性的同时建立信任机制。(jmward01)
数据质量担忧：有人质疑从开放互联网获取数据的质量，认为其中已包含太多AI生成的偏见。(StephenHerlihyy)

总结

评论普遍认为AI爬虫的低效和粗暴行为对开放数据项目造成了负担，呼吁更好的技术解决方案和协议标准。同时，也有人指出历史相似性和未来可能的转变。不同观点中，技术解决方案和协议改进是最受关注的议题。

AI爬虫横行，好东西难留 -- We can't have nice things because of AI scrapers