Hacker News 中文摘要

RSS订阅

Anthropic公司销毁数百万本二手书,并下载700万本盗版书——法官裁定 -- Anthropic cut up millions of used books, and downloaded 7M pirated ones – judge

文章摘要

Anthropic为开发AI聊天机器人Claude,花费数百万美元购买二手印刷书籍,拆除装订、切割页面并扫描成数字文件,最终将原书丢弃,数字版本存储于内部“研究图书馆”。这一做法在版权诉讼中被法官详细描述,引发作者、艺术家和出版商等群体对其使用作品进行模型训练是否构成侵权的争议。

文章总结

Anthropic公司为了构建其AI聊天机器人Claude,投入了“数百万美元”购买二手印刷书籍,随后拆除了书籍的装订,裁剪页面并将其扫描成数字文件。这一过程被称为“破坏性扫描”,由加利福尼亚北区法官William Alsup在周一的一项备受关注的AI版权案件裁决中详细描述。Anthropic公司及其供应商通过这种方式将数百万本原版书籍数字化后丢弃,并将数字版本存储在一个内部的“研究图书馆”中。

此外,Anthropic公司还下载了超过700万本盗版书籍用于训练Claude。法官指出,Anthropic的联合创始人Ben Mann在2021年从Library Genesis下载了“至少500万本书籍”,并完全知道这些材料是盗版的。2022年,公司又从Pirate Library Mirror下载了“至少200万本盗版书籍”。

尽管Anthropic公司辩称使用这些书籍是为了避免“法律/实践/业务上的繁琐”,但去年三位作者对Anthropic提起了集体诉讼,指控公司在未经许可或补偿的情况下使用其盗版书籍来训练大型语言模型。

法官Alsup裁定,Anthropic使用受版权保护的书籍来训练其AI模型属于“极其变革性”的合理使用,符合法律原则,即允许在未经版权所有者许可的情况下使用受版权保护的作品。然而,法官明确表示,Anthropic无权使用盗版书籍来创建其“中央图书馆”,并指出创建永久性、通用目的的图书馆本身并不构成合理使用,不能为Anthropic的盗版行为开脱。

Anthropic公司对法官关于使用书籍训练大型语言模型的裁决表示满意,并称这种方法“符合版权法促进创造力和科学进步的宗旨”。然而,这一裁决是在艺术家、电影制作人、作者和新闻机构对OpenAI等主要AI公司提起诉讼的背景下作出的。创作者们认为,未经许可使用其受版权保护的作品训练AI模型侵犯了他们的权利,而AI高管们则辩称,训练属于合理使用,并未违反版权法。

此外,本月早些时候,迪士尼对AI图像生成器Midjourney提起诉讼,指控该公司从《星球大战》到《辛普森一家》等作品中剽窃了著名角色。

评论总结

主要观点总结:

  1. 对盗版行为的批评

    • pyman 强调“偷窃就是偷窃”,认为不应有双重标准。
      • 引用:“Stealing is stealing. Let's stop with the double standards.”
      • 引用:“These are the people shaping the future of AI? What happened to all the ethical values they love to preach about?”
    • Lionga 质疑为何个人因下载音乐或电影而入狱,而Anthropic却未受惩罚。
      • 引用:“Based on the fact people went to jail for downloading some music or movies, this guy will face a lifetime in prison for 7 million books that he then used for commercial profit right?”
  2. 对AI公司行为的辩护或合理化

    • ramon156 认为盗版并支付罚款可能比单独购买所有书籍更便宜,强调效率问题。
      • 引用:“Pirate and pay the fine is probably hell of a lot cheaper than individually buying all these books.”
    • nickpsecurity 提出购买、扫描和销毁书籍的合法替代方案,认为版权法应允许共享数字副本。
      • 引用:“Buying, scanning, and discarding was in my proposal to train under copyright restrictions.”
  3. 对版权法和司法体系的批评

    • NHQ 批评公司将责任分散,导致个人逃避刑事指控。
      • 引用:“The farce of treating a corporation as an individual precludes common sense legal procedure to investigate people who are responsible for criminal action taken by the company.”
    • trinsic2 质疑AI公司使用受版权保护的内容是否属于“合理使用”。
      • 引用:“Someone correct me if I am wrong but aren’t these works being digitized and transformed in a way to make a profit off of the information that is included in these works?”
  4. 对AI发展及其伦理问题的担忧

    • dandanua 认为AGI(人工通用智能)在当前道德框架下可能带来灾难性后果。
      • 引用:“People who praise AGI are very short sighted. It will ruin the world with our current morals and ethics.”
    • motbus3 批评法院倾向于支持AI公司,忽视自动抄袭问题。
      • 引用:“It is shocking how courts have being ruling towards the benefits of ai companies despite the obvious problem of allowing automatic plagiarism.”
  5. 对行业惯例的讨论

    • marapuru 提到Spotify等公司也被指控使用盗版内容,认为这是常见的商业行为。
      • 引用:“Apparently it’s a common business practice. Spotify (even though I can’t find any proof) seems to have build their software and business on pirated music.”

总结:

评论中既有对Anthropic盗版行为的严厉批评,也有对其行为合理化的辩护,同时涉及对版权法、司法体系以及AI伦理问题的广泛讨论。批评者强调双重标准和道德缺失,而支持者则从效率和行业惯例角度进行解释。此外,许多评论者呼吁对版权法和公司责任进行改革。