文章摘要
多家新闻出版商因担忧AI公司通过互联网档案馆抓取内容,开始限制对其数字档案的访问。《卫报》和《纽约时报》等媒体发现互联网档案馆的爬虫频繁抓取其内容,担心这些公开存档可能成为AI训练数据的来源。《卫报》已采取措施,将其文章从互联网档案馆的API和网页快照服务中排除。
文章总结
新闻出版商因AI抓取担忧限制互联网档案馆访问
主要新闻机构如《卫报》和《纽约时报》正在重新评估与互联网档案馆(Internet Archive)的合作关系,担心这个非营利数字图书馆成为AI公司获取训练数据的"后门"。
核心事实: 1. 《卫报》商业事务主管罗伯特·哈恩透露,通过分析访问日志发现互联网档案馆是高频抓取方,已采取措施限制其访问: - 禁止通过API获取文章 - 从Wayback Machine界面过滤文章页面 - 保留地区首页和主题页面的存档
- 其他出版商的应对措施:
- 《纽约时报》在2025年底将archive.org_bot列入robots.txt黑名单
- Reddit于2025年8月宣布限制互联网档案馆访问
- 美国最大报业集团Gannett旗下87%站点屏蔽了两个互联网档案馆爬虫
深层矛盾: - 互联网档案馆创始人布鲁斯特·卡勒警告,出版商限制将损害公众获取历史记录的能力 - 计算机科学教授迈克尔·尼尔森指出,互联网档案馆等"好人"正成为AI竞争中的"附带损害" - 数据显示Wayback Machine数据曾被用于训练谷歌T5和Meta的Llama模型
行业现状: - 在分析的1,167家新闻网站中,241家明确屏蔽至少一个互联网档案馆爬虫 - 93%的屏蔽网站同时屏蔽Common Crawl项目 - 互联网档案馆已采取限速机制和过滤系统应对批量抓取
背景延伸: - 2023年5月,某AI公司每秒数万次的请求导致互联网档案馆服务器崩溃 - 目前互联网档案馆的robots.txt仍对所有爬虫开放,包括主要AI公司
(注:原文中关于作者联系方式和图片版权的非核心内容已省略,保留了关键事实、数据引用和核心观点)
评论总结
评论内容总结:
1. 新闻网站阻止网络存档的现状
- 主要观点:部分新闻网站(如《卫报》《纽约时报》)阻止互联网档案馆(IA)和Common Crawl的爬取,导致历史记录难以保存。
- 关键引用:
- "Publishers like The Guardian and NYT are blocking the IA/Wayback Machine."(《卫报》《纽约时报》等出版商阻止互联网档案馆的爬取。)
- "20% of news websites are blocking both IA and Common Crawl."(20%的新闻网站同时阻止IA和Common Crawl。)
2. 网络存档的价值争议
- 主要观点:部分人认为AI生成的内容不值得存档,而2022年前(ChatGPT发布前)的网络快照更有价值;另一部分人认为存档对文化和学术研究至关重要。
- 关键引用:
- "If most of the Internet is AI-generated slop... is there really any value in preserving it?"(如果大部分网络内容是AI生成的垃圾,存档还有价值吗?)
- "It affects science too... you'd want solid archiving as much as possible."(存档对科学也很重要,应尽可能保存。)
3. 存档的替代方案
- 主要观点:提出分布式存档(如浏览器插件、学术专用存档)或付费模式以解决当前问题。
- 关键引用:
- "We need something like SETI@home... for crawling and archiving the web."(需要类似SETI@home的分布式网络存档方案。)
- "Maybe the Internet Archive might... require an account to access them."(互联网档案馆可设置访问限制,如账号验证。)
4. 合规与法律问题
- 主要观点:网络内容消失可能导致合规问题(如SOC 2、HIPAA),影响审计和法律责任追溯。
- 关键引用:
- "When a vendor’s security documentation... disappears, you’ve got a gap in your audit trail."(第三方文件消失会导致审计漏洞。)
- "Companies fail compliance reviews because... cited URLs no longer exist."(企业因引用链接失效而无法通过合规审查。)
5. 对AI公司的批评
- 主要观点:AI公司滥用爬取内容牟利,导致新闻网站采取防御措施,损害公共利益。
- 关键引用:
- "AI companies plundering the web to enrich themselves."(AI公司掠夺网络内容以自肥。)
- "People ask AI models instead of reading primary sources."(用户转向AI而非原始内容,损害新闻业。)
6. 支持内容消失的声音
- 主要观点:部分人认为内容应自然消失,无需永久保存,以避免未来被滥用。
- 关键引用:
- "It’s better than everything be saved for all time, to be used against folks."(内容消失比永久保存更好,避免未来被利用。)
- "Let things disappear."(让内容消失吧。)
7. 技术解决方案的提议
- 主要观点:建议通过哈希存储(如IPFS)、众包存档或数据盒服务改进存档方式。
- 关键引用:
- "A web where every resource is tied to a hash... making archival transparent."(通过哈希存储实现透明存档。)
- "Sell a 'truck full of DAT tapes' service to AI scrapers."(向AI公司出售数据盒服务以资助存档。)
总结:
评论围绕网络存档的争议展开,主要分歧在于存档的价值(文化保存 vs. 内容质量下降)和可行性(技术方案 vs. 法律限制)。支持者强调学术、合规和历史记录的重要性,反对者则认为AI滥用和内容过载削弱了存档意义。技术提案(如分布式存档、哈希存储)和商业模式(如付费访问)被提出作为折中方案。