Hacker News 中文摘要

文章摘要

一项新研究发现，一个大型开源AI训练数据集中可能包含数百万张护照、信用卡、出生证明等包含个人身份信息的文件。研究人员在DataComp CommonPool数据集中发现了数千张可识别的面孔和身份文件，由于仅审计了0.1%的数据，估计实际包含个人信息的图像数量可能高达数亿。卡内基梅隆大学的AI伦理研究员William Agnew指出，任何上传到网络的内容都可能被爬取。

文章总结

主要AI训练数据集包含数百万条个人数据

最新研究发现，一个最大的开源AI训练数据集中可能包含了数百万张护照、信用卡、出生证明等包含个人身份信息的文件。研究人员在DataComp CommonPool（一个用于图像生成的主要AI训练数据集）的一个小样本中发现了数千张包含可识别面孔的图像。由于研究人员仅审核了CommonPool数据的0.1%，他们估计整个数据集中包含个人身份信息（如面孔和身份文件）的图像数量可能高达数亿。

卡内基梅隆大学AI伦理博士后研究员William Agnew指出：“你在网上发布的任何内容都可能被爬取。”研究人员发现了数千份经过验证的身份文件，包括信用卡、驾照、护照和出生证明，以及800多份经过验证的求职文件（如简历和求职信）。许多简历披露了敏感信息，如残疾状况、背景调查结果、家属的出生日期和地点、种族等。当简历与有在线存在的人相关联时，研究人员还发现了联系方式、政府标识符、社会人口信息、面部照片、家庭住址等。

DataComp CommonPool于2023年发布，包含128亿个数据样本，是当时最大的公开图像-文本对数据集，常用于训练生成式文本到图像模型。尽管其管理者表示CommonPool旨在用于学术研究，但其许可证并未禁止商业用途。CommonPool是LAION-5B数据集的后续版本，后者用于训练Stable Diffusion和Midjourney等模型。两者都依赖于非营利组织Common Crawl在2014年至2022年间进行的网络爬取数据。

华盛顿大学计算机科学博士生、论文主要作者Rachel Hong表示，由于DataComp CommonPool在过去两年中被下载超过200万次，很可能“有许多下游模型都是基于这个数据集训练的”，这带来了类似的隐私风险。

良好意图不足以保证隐私

都柏林三一学院AI问责实验室负责人Abeba Birhane指出：“你可以假设任何大规模网络爬取的数据集总是包含不应存在的内容。”尽管DataComp CommonPool的管理者意识到数据集中可能出现个人身份信息（PII），并采取了一些隐私保护措施（如自动检测和模糊面部），但Hong的团队在有限的数据集中发现了800多张被算法遗漏的面孔，并估计整个数据集中被遗漏的面孔数量高达1.02亿。此外，他们并未应用能够识别已知PII字符（如电子邮件或社会安全号码）的过滤器。

Agnew表示：“过滤非常难以做好。他们必须在PII检测和删除方面取得重大进展，才能有效过滤这些数据。”

重新考虑同意

CommonPool基于2014年至2022年间的网络爬取数据构建，这意味着许多图像可能早于2020年ChatGPT发布。因此，即使理论上有些人同意将其信息公开给网络上的任何人，他们也无法同意将其数据用于训练当时尚未存在的大型AI模型。此外，网络爬虫经常相互爬取数据，导致最初由所有者上传到特定位置的图像最终出现在其他图像库中。

寻找合适的政策

论文呼吁机器学习社区重新考虑不加选择的网络爬取行为，并指出大规模机器学习数据集中存在PII可能违反现行隐私法，以及这些法律在保护隐私方面的局限性。荷兰前议员、斯坦福网络政策中心研究员Marietje Schaake表示：“欧洲有GDPR，加州有CCPA，但美国仍然没有联邦数据保护法，这意味着不同美国人的权利保护不同。”

Hong表示：“我们发现‘公开可用’的内容包括许多人们可能认为是私密的东西——简历、照片、信用卡号码、各种身份证件、你小时候的新闻报道、家庭博客。这些可能不是人们希望被随意使用的东西。”

希望这项研究能够“敲响警钟并带来改变”。

评论总结

数据隐私与合规性：
- 评论者认为目前没有LLM提供商符合GDPR合规要求。
  - "Yesterday I asked if there is any LLM provider that is GDPR compliant: at the moment I believe the answer is no."（“昨天我问是否有任何LLM提供商符合GDPR合规要求：目前我认为答案是否定的。”）
- 评论者希望未来工具能搜索LLM模型和训练数据中的个人身份信息（PII）。
  - "I hope future functionality of haveibeenpwned includes a tool to search LLM models and training data for PII."（“我希望haveibeenpwned未来的功能包括一个工具，用于搜索LLM模型和训练数据中的PII。”）
数据泄露的影响与公众态度：
- 评论者认为数据泄露的后果被忽视，公众对此缺乏关注，直到个人成为受害者。
  - "I WISH this mattered. I wish data breaches actually carried consequences. I wish people cared about this."（“我希望这很重要。我希望数据泄露真的能带来后果。我希望人们关心这个问题。”）
- 评论者指出互联网上的数据本质上是公开的，人们不应在公开平台上发布个人数据。
  - "People should not be putting personal data on public image hosts and sites like LinkedIn if they did not want them to be scraped."（“如果人们不希望个人数据被爬取，就不应该将它们放在公开的图片托管网站和LinkedIn等平台上。”）
数据集与隐私争议：
- 评论者澄清数据集本身不包含个人数据，而是包含指向个人数据的链接。
  - "the data set doesn't contain personal data. It contains links to personal data."（“数据集本身不包含个人数据，而是包含指向个人数据的链接。”）
技术工具与替代方案：
- 评论者提到archive.is的局限性，并提供了替代方案，如禁用JavaScript和CSS，或使用RSS feed。
  - "archive.is is (a) sometimes blocked, (b) serves CAPTCHAs in some instances and (c) includes a tracking pixel."（“archive.is有时会被屏蔽，在某些情况下会提供验证码，并且包含跟踪像素。”）
  - "Another alternative is the website's RSS feed."（“另一个替代方案是网站的RSS feed。”）

大型AI训练数据集包含数百万条个人数据示例 -- A major AI training data set contains millions of examples of personal data

文章摘要

文章总结

评论总结