Hacker News 中文摘要

RSS订阅

大型AI训练数据集包含数百万条个人数据示例 -- A major AI training data set contains millions of examples of personal data

文章摘要

一项新研究发现,一个大型开源AI训练数据集中可能包含数百万张护照、信用卡、出生证明等包含个人身份信息的文件。研究人员在DataComp CommonPool数据集中发现了数千张可识别的面孔和身份文件,由于仅审计了0.1%的数据,估计实际包含个人信息的图像数量可能高达数亿。卡内基梅隆大学的AI伦理研究员William Agnew指出,任何上传到网络的内容都可能被爬取。

文章总结

主要AI训练数据集包含数百万条个人数据

最新研究发现,一个最大的开源AI训练数据集中可能包含了数百万张护照、信用卡、出生证明等包含个人身份信息的文件。研究人员在DataComp CommonPool(一个用于图像生成的主要AI训练数据集)的一个小样本中发现了数千张包含可识别面孔的图像。由于研究人员仅审核了CommonPool数据的0.1%,他们估计整个数据集中包含个人身份信息(如面孔和身份文件)的图像数量可能高达数亿。

卡内基梅隆大学AI伦理博士后研究员William Agnew指出:“你在网上发布的任何内容都可能被爬取。”研究人员发现了数千份经过验证的身份文件,包括信用卡、驾照、护照和出生证明,以及800多份经过验证的求职文件(如简历和求职信)。许多简历披露了敏感信息,如残疾状况、背景调查结果、家属的出生日期和地点、种族等。当简历与有在线存在的人相关联时,研究人员还发现了联系方式、政府标识符、社会人口信息、面部照片、家庭住址等。

DataComp CommonPool于2023年发布,包含128亿个数据样本,是当时最大的公开图像-文本对数据集,常用于训练生成式文本到图像模型。尽管其管理者表示CommonPool旨在用于学术研究,但其许可证并未禁止商业用途。CommonPool是LAION-5B数据集的后续版本,后者用于训练Stable Diffusion和Midjourney等模型。两者都依赖于非营利组织Common Crawl在2014年至2022年间进行的网络爬取数据。

华盛顿大学计算机科学博士生、论文主要作者Rachel Hong表示,由于DataComp CommonPool在过去两年中被下载超过200万次,很可能“有许多下游模型都是基于这个数据集训练的”,这带来了类似的隐私风险。

良好意图不足以保证隐私

都柏林三一学院AI问责实验室负责人Abeba Birhane指出:“你可以假设任何大规模网络爬取的数据集总是包含不应存在的内容。”尽管DataComp CommonPool的管理者意识到数据集中可能出现个人身份信息(PII),并采取了一些隐私保护措施(如自动检测和模糊面部),但Hong的团队在有限的数据集中发现了800多张被算法遗漏的面孔,并估计整个数据集中被遗漏的面孔数量高达1.02亿。此外,他们并未应用能够识别已知PII字符(如电子邮件或社会安全号码)的过滤器。

Agnew表示:“过滤非常难以做好。他们必须在PII检测和删除方面取得重大进展,才能有效过滤这些数据。”

重新考虑同意

CommonPool基于2014年至2022年间的网络爬取数据构建,这意味着许多图像可能早于2020年ChatGPT发布。因此,即使理论上有些人同意将其信息公开给网络上的任何人,他们也无法同意将其数据用于训练当时尚未存在的大型AI模型。此外,网络爬虫经常相互爬取数据,导致最初由所有者上传到特定位置的图像最终出现在其他图像库中。

寻找合适的政策

论文呼吁机器学习社区重新考虑不加选择的网络爬取行为,并指出大规模机器学习数据集中存在PII可能违反现行隐私法,以及这些法律在保护隐私方面的局限性。荷兰前议员、斯坦福网络政策中心研究员Marietje Schaake表示:“欧洲有GDPR,加州有CCPA,但美国仍然没有联邦数据保护法,这意味着不同美国人的权利保护不同。”

Hong表示:“我们发现‘公开可用’的内容包括许多人们可能认为是私密的东西——简历、照片、信用卡号码、各种身份证件、你小时候的新闻报道、家庭博客。这些可能不是人们希望被随意使用的东西。”

希望这项研究能够“敲响警钟并带来改变”。

评论总结

  1. 数据隐私与合规性

    • 评论者认为目前没有LLM提供商符合GDPR合规要求。
      • "Yesterday I asked if there is any LLM provider that is GDPR compliant: at the moment I believe the answer is no."(“昨天我问是否有任何LLM提供商符合GDPR合规要求:目前我认为答案是否定的。”)
    • 评论者希望未来工具能搜索LLM模型和训练数据中的个人身份信息(PII)。
      • "I hope future functionality of haveibeenpwned includes a tool to search LLM models and training data for PII."(“我希望haveibeenpwned未来的功能包括一个工具,用于搜索LLM模型和训练数据中的PII。”)
  2. 数据泄露的影响与公众态度

    • 评论者认为数据泄露的后果被忽视,公众对此缺乏关注,直到个人成为受害者。
      • "I WISH this mattered. I wish data breaches actually carried consequences. I wish people cared about this."(“我希望这很重要。我希望数据泄露真的能带来后果。我希望人们关心这个问题。”)
    • 评论者指出互联网上的数据本质上是公开的,人们不应在公开平台上发布个人数据。
      • "People should not be putting personal data on public image hosts and sites like LinkedIn if they did not want them to be scraped."(“如果人们不希望个人数据被爬取,就不应该将它们放在公开的图片托管网站和LinkedIn等平台上。”)
  3. 数据集与隐私争议

    • 评论者澄清数据集本身不包含个人数据,而是包含指向个人数据的链接。
      • "the data set doesn't contain personal data. It contains links to personal data."(“数据集本身不包含个人数据,而是包含指向个人数据的链接。”)
  4. 技术工具与替代方案

    • 评论者提到archive.is的局限性,并提供了替代方案,如禁用JavaScript和CSS,或使用RSS feed。
      • "archive.is is (a) sometimes blocked, (b) serves CAPTCHAs in some instances and (c) includes a tracking pixel."(“archive.is有时会被屏蔽,在某些情况下会提供验证码,并且包含跟踪像素。”)
      • "Another alternative is the website's RSS feed."(“另一个替代方案是网站的RSS feed。”)