Hacker News 中文摘要

文章摘要

多家新闻出版商因担忧AI公司通过互联网档案馆抓取内容,开始限制对其数字档案的访问。《卫报》和《纽约时报》等媒体发现互联网档案馆的爬虫频繁抓取其内容,担心这些公开存档可能成为AI训练数据的来源。《卫报》已采取措施,将其文章从互联网档案馆的API和网页快照服务中排除。

新闻出版商因AI抓取担忧限制互联网档案馆访问

主要新闻机构如《卫报》和《纽约时报》正在重新评估与互联网档案馆（Internet Archive）的合作关系，担心这个非营利数字图书馆成为AI公司获取训练数据的"后门"。

核心事实： 1. 《卫报》商业事务主管罗伯特·哈恩透露，通过分析访问日志发现互联网档案馆是高频抓取方，已采取措施限制其访问： - 禁止通过API获取文章 - 从Wayback Machine界面过滤文章页面 - 保留地区首页和主题页面的存档

其他出版商的应对措施：
- 《纽约时报》在2025年底将archive.org_bot列入robots.txt黑名单
- Reddit于2025年8月宣布限制互联网档案馆访问
- 美国最大报业集团Gannett旗下87%站点屏蔽了两个互联网档案馆爬虫

深层矛盾： - 互联网档案馆创始人布鲁斯特·卡勒警告，出版商限制将损害公众获取历史记录的能力 - 计算机科学教授迈克尔·尼尔森指出，互联网档案馆等"好人"正成为AI竞争中的"附带损害" - 数据显示Wayback Machine数据曾被用于训练谷歌T5和Meta的Llama模型

行业现状： - 在分析的1,167家新闻网站中，241家明确屏蔽至少一个互联网档案馆爬虫 - 93%的屏蔽网站同时屏蔽Common Crawl项目 - 互联网档案馆已采取限速机制和过滤系统应对批量抓取

背景延伸： - 2023年5月，某AI公司每秒数万次的请求导致互联网档案馆服务器崩溃 - 目前互联网档案馆的robots.txt仍对所有爬虫开放，包括主要AI公司

（注：原文中关于作者联系方式和图片版权的非核心内容已省略，保留了关键事实、数据引用和核心观点）

主要观点：部分新闻网站（如《卫报》《纽约时报》）阻止互联网档案馆（IA）和Common Crawl的爬取，导致历史记录难以保存。
关键引用：
- "Publishers like The Guardian and NYT are blocking the IA/Wayback Machine."（《卫报》《纽约时报》等出版商阻止互联网档案馆的爬取。）
- "20% of news websites are blocking both IA and Common Crawl."（20%的新闻网站同时阻止IA和Common Crawl。）

主要观点：部分人认为AI生成的内容不值得存档，而2022年前（ChatGPT发布前）的网络快照更有价值；另一部分人认为存档对文化和学术研究至关重要。
关键引用：
- "If most of the Internet is AI-generated slop... is there really any value in preserving it?"（如果大部分网络内容是AI生成的垃圾，存档还有价值吗？）
- "It affects science too... you'd want solid archiving as much as possible."（存档对科学也很重要，应尽可能保存。）

主要观点：提出分布式存档（如浏览器插件、学术专用存档）或付费模式以解决当前问题。
关键引用：
- "We need something like SETI@home... for crawling and archiving the web."（需要类似SETI@home的分布式网络存档方案。）
- "Maybe the Internet Archive might... require an account to access them."（互联网档案馆可设置访问限制，如账号验证。）

主要观点：网络内容消失可能导致合规问题（如SOC 2、HIPAA），影响审计和法律责任追溯。
关键引用：
- "When a vendor’s security documentation... disappears, you’ve got a gap in your audit trail."（第三方文件消失会导致审计漏洞。）
- "Companies fail compliance reviews because... cited URLs no longer exist."（企业因引用链接失效而无法通过合规审查。）

主要观点：AI公司滥用爬取内容牟利，导致新闻网站采取防御措施，损害公共利益。
关键引用：
- "AI companies plundering the web to enrich themselves."（AI公司掠夺网络内容以自肥。）
- "People ask AI models instead of reading primary sources."（用户转向AI而非原始内容，损害新闻业。）

主要观点：部分人认为内容应自然消失，无需永久保存，以避免未来被滥用。
关键引用：
- "It’s better than everything be saved for all time, to be used against folks."（内容消失比永久保存更好，避免未来被利用。）
- "Let things disappear."（让内容消失吧。）

主要观点：建议通过哈希存储（如IPFS）、众包存档或数据盒服务改进存档方式。
关键引用：
- "A web where every resource is tied to a hash... making archival transparent."（通过哈希存储实现透明存档。）
- "Sell a 'truck full of DAT tapes' service to AI scrapers."（向AI公司出售数据盒服务以资助存档。）

评论围绕网络存档的争议展开，主要分歧在于存档的价值（文化保存 vs. 内容质量下降）和可行性（技术方案 vs. 法律限制）。支持者强调学术、合规和历史记录的重要性，反对者则认为AI滥用和内容过载削弱了存档意义。技术提案（如分布式存档、哈希存储）和商业模式（如付费访问）被提出作为折中方案。