文章摘要
MetaBrainz团队近期与无视robots.txt等规则的AI公司展开斗争,这些公司通过逐页抓取MusicBrainz和ListenBrainz数据来训练AI模型,导致服务器过载并影响正常用户访问。尽管MetaBrainz提供完整数据集下载,这些公司仍坚持低效的网页抓取方式,迫使团队采取保护措施。
文章总结
MetaBrainz博客:AI爬虫让我们无法拥有美好的事物
最近几个月,MetaBrainz团队一直在与不择手段的AI公司作斗争。这些公司无视基本的网络礼仪(如robots.txt协议),通过爬取互联网数据来构建他们的AI模型。它们没有选择一次性下载完整的数据集,而是坚持逐页抓取MusicBrainz的内容。这种做法不仅毫无意义(可能需要数百年才能完成),还导致服务器过载,影响了正常用户的访问。
现在,这些AI爬虫又盯上了ListenBrainz,频繁调用多个API接口进行数据收集。为了保护服务不被拖垮,我们做出了以下调整:
API访问限制:
- /metadata/lookup接口(GET和POST版本)现在要求调用者提供授权令牌。
- 移除了ListenBrainz Labs API中用于调试的mbid-mapping相关接口,未来将替换为改进后的新接口。
登录要求:
- LB Radio现在需要用户登录才能使用(API调用者需发送授权头信息)。目前未登录用户的错误提示可能不够友好,我们将在完成“年度音乐回顾”功能后修复。
对于这些突如其来的调整,我们深表歉意,但为了维持服务的正常运行,这些措施是必要的。
用户讨论精选
Jean-Robert Bisaillon提问:
“为什么这些爬虫要逐页抓取?是对MusicBrainz的误解,还是自动化判断错误?能否识别这些爬虫?”- LimeDay回复:
“AI从业者的能力被高估了。这就像偷苹果:他们选择了最粗暴的方式。” - Kazani补充:
“这是自动化爬虫的典型行为——盲目抓取链接内容,缺乏人工监督。”
- LimeDay回复:
相关阅读:
(原文发布于2025年12月11日,归类于开发与ListenBrainz栏目)
(注:本文保留了技术细节和用户互动的核心内容,删减了重复的导航栏、归档列表等非关键信息。)
评论总结
以下是评论内容的总结:
1. AI爬虫对开放数据项目的负面影响
- 主要观点:AI公司无视robots.txt,通过低效的逐页爬取方式加重了志愿者运营的基础设施负担,迫使项目添加认证机制,损害了合法用户的使用体验。
- 关键引用:
- "Instead they’re: ∙ Ignoring robots.txt ∙ Bypassing the provided bulk download ∙ Scraping page-by-page ∙ Overloading volunteer-run infrastructure" (lepqq)
- "AI companies are externalizing their data acquisition costs onto volunteer projects." (lepqq)
2. 技术解决方案的讨论
- 主要观点:建议通过技术手段(如请求预算、高效语言编写API、优化数据库查询)来缓解爬虫带来的负载问题。
- 关键引用:
- "Have a reverse proxy that keeps a 'request budget' per IP and per net block" (kpcyrd)
- "Write your API servers in more efficient languages." (kpcyrd)
3. 协议与标准的缺失
- 主要观点:当前缺乏机器可读的协议来指导爬虫如何高效获取数据,导致爬虫与网站之间的协作困难。
- 关键引用:
- "I wish there were an established protocol for this. Say a $site/.well-known/machine-readable.json" (arjie)
- "robots.txt is pretty sparse... cooperating with robots is currently under-specified." (arjie)
4. 开放数据与AI公司的潜在合作
- 主要观点:如果AI公司主动联系开放数据项目,可能会获得批量数据导出甚至署名,而不是通过爬取方式。
- 关键引用:
- "if they’d just contacted MetaBrainz and said 'hey, we’d like to use your dataset for training,' they’d probably get a bulk export" (lep_qq)
- "Metabrainz assumes good intent from bots, and has to lock down when they violate that trust." (dannyobrien)
5. 历史类比与未来展望
- 主要观点:当前对AI爬虫的抱怨类似于过去对搜索引擎爬虫的抱怨,未来可能会逐渐接受AI爬虫。
- 关键引用:
- "Nowadays people complain about AI scrapers with the same vain as they complained about search indexers a way back when." (garganzol)
- "Looking forward to the time when everybody suddenly starts to embrace AI indexers." (garganzol)
6. 其他观点
- 用户行为的影响:用户通过AI工具(如ChatGPT)请求内容摘要,也会被识别为爬虫行为。(falloutx)
- 匿名性与信任机制:讨论了如何在保持匿名性的同时建立信任机制。(jmward01)
- 数据质量担忧:有人质疑从开放互联网获取数据的质量,认为其中已包含太多AI生成的偏见。(StephenHerlihyy)
总结
评论普遍认为AI爬虫的低效和粗暴行为对开放数据项目造成了负担,呼吁更好的技术解决方案和协议标准。同时,也有人指出历史相似性和未来可能的转变。不同观点中,技术解决方案和协议改进是最受关注的议题。