Hacker News 中文摘要

RSS订阅

互联网日益难以存档 -- Internet Increasingly Becoming Unarchivable

文章摘要

多家新闻出版商因担忧AI公司通过互联网档案馆抓取内容,开始限制对其数字档案的访问。《卫报》和《纽约时报》等媒体发现互联网档案馆的爬虫频繁抓取其内容,担心这些公开存档可能成为AI训练数据的来源。《卫报》已采取措施,将其文章从互联网档案馆的API和网页快照服务中排除。

文章总结

新闻出版商因AI抓取担忧限制互联网档案馆访问

主要新闻机构如《卫报》和《纽约时报》正在重新评估与互联网档案馆(Internet Archive)的合作关系,担心这个非营利数字图书馆成为AI公司获取训练数据的"后门"。

核心事实: 1. 《卫报》商业事务主管罗伯特·哈恩透露,通过分析访问日志发现互联网档案馆是高频抓取方,已采取措施限制其访问: - 禁止通过API获取文章 - 从Wayback Machine界面过滤文章页面 - 保留地区首页和主题页面的存档

  1. 其他出版商的应对措施:
    • 《纽约时报》在2025年底将archive.org_bot列入robots.txt黑名单
    • Reddit于2025年8月宣布限制互联网档案馆访问
    • 美国最大报业集团Gannett旗下87%站点屏蔽了两个互联网档案馆爬虫

深层矛盾: - 互联网档案馆创始人布鲁斯特·卡勒警告,出版商限制将损害公众获取历史记录的能力 - 计算机科学教授迈克尔·尼尔森指出,互联网档案馆等"好人"正成为AI竞争中的"附带损害" - 数据显示Wayback Machine数据曾被用于训练谷歌T5和Meta的Llama模型

行业现状: - 在分析的1,167家新闻网站中,241家明确屏蔽至少一个互联网档案馆爬虫 - 93%的屏蔽网站同时屏蔽Common Crawl项目 - 互联网档案馆已采取限速机制和过滤系统应对批量抓取

背景延伸: - 2023年5月,某AI公司每秒数万次的请求导致互联网档案馆服务器崩溃 - 目前互联网档案馆的robots.txt仍对所有爬虫开放,包括主要AI公司

(注:原文中关于作者联系方式和图片版权的非核心内容已省略,保留了关键事实、数据引用和核心观点)

评论总结

评论内容总结:

1. 新闻网站阻止网络存档的现状

  • 主要观点:部分新闻网站(如《卫报》《纽约时报》)阻止互联网档案馆(IA)和Common Crawl的爬取,导致历史记录难以保存。
  • 关键引用:
    • "Publishers like The Guardian and NYT are blocking the IA/Wayback Machine."(《卫报》《纽约时报》等出版商阻止互联网档案馆的爬取。)
    • "20% of news websites are blocking both IA and Common Crawl."(20%的新闻网站同时阻止IA和Common Crawl。)

2. 网络存档的价值争议

  • 主要观点:部分人认为AI生成的内容不值得存档,而2022年前(ChatGPT发布前)的网络快照更有价值;另一部分人认为存档对文化和学术研究至关重要。
  • 关键引用:
    • "If most of the Internet is AI-generated slop... is there really any value in preserving it?"(如果大部分网络内容是AI生成的垃圾,存档还有价值吗?)
    • "It affects science too... you'd want solid archiving as much as possible."(存档对科学也很重要,应尽可能保存。)

3. 存档的替代方案

  • 主要观点:提出分布式存档(如浏览器插件、学术专用存档)或付费模式以解决当前问题。
  • 关键引用:
    • "We need something like SETI@home... for crawling and archiving the web."(需要类似SETI@home的分布式网络存档方案。)
    • "Maybe the Internet Archive might... require an account to access them."(互联网档案馆可设置访问限制,如账号验证。)

4. 合规与法律问题

  • 主要观点:网络内容消失可能导致合规问题(如SOC 2、HIPAA),影响审计和法律责任追溯。
  • 关键引用:
    • "When a vendor’s security documentation... disappears, you’ve got a gap in your audit trail."(第三方文件消失会导致审计漏洞。)
    • "Companies fail compliance reviews because... cited URLs no longer exist."(企业因引用链接失效而无法通过合规审查。)

5. 对AI公司的批评

  • 主要观点:AI公司滥用爬取内容牟利,导致新闻网站采取防御措施,损害公共利益。
  • 关键引用:
    • "AI companies plundering the web to enrich themselves."(AI公司掠夺网络内容以自肥。)
    • "People ask AI models instead of reading primary sources."(用户转向AI而非原始内容,损害新闻业。)

6. 支持内容消失的声音

  • 主要观点:部分人认为内容应自然消失,无需永久保存,以避免未来被滥用。
  • 关键引用:
    • "It’s better than everything be saved for all time, to be used against folks."(内容消失比永久保存更好,避免未来被利用。)
    • "Let things disappear."(让内容消失吧。)

7. 技术解决方案的提议

  • 主要观点:建议通过哈希存储(如IPFS)、众包存档或数据盒服务改进存档方式。
  • 关键引用:
    • "A web where every resource is tied to a hash... making archival transparent."(通过哈希存储实现透明存档。)
    • "Sell a 'truck full of DAT tapes' service to AI scrapers."(向AI公司出售数据盒服务以资助存档。)

总结:

评论围绕网络存档的争议展开,主要分歧在于存档的价值(文化保存 vs. 内容质量下降)和可行性(技术方案 vs. 法律限制)。支持者强调学术、合规和历史记录的重要性,反对者则认为AI滥用和内容过载削弱了存档意义。技术提案(如分布式存档、哈希存储)和商业模式(如付费访问)被提出作为折中方案。