Hacker News 中文摘要

文章摘要

文章讨论了GPL许可证是否适用于基于GPL代码训练的AI模型的争议。2021年GitHub Copilot推出时，关于GPL条款应传播至AI模型的观点盛行，但到2025年，这种理论已不如当年常见。尽管仍有自由软件支持者坚持这一观点，但AI编程带来的便利已主导了行业趋势。

文章总结

GPL协议是否适用于基于GPL代码训练的AI模型？——当前理论发展现状

背景与现状

2021年GitHub Copilot发布时，其训练数据包含大量GitHub公开开源代码的事实引发激烈讨论。当时有观点认为，GNU通用公共许可证（GPL）等具有"传染性"的许可证条款将延伸至AI模型本身，要求整个模型必须以相同许可证发布。然而到2025年，这种理论已不再占据主流，尽管仍有自由软件倡导者支持，但AI编程的显著效益使其逐渐被边缘化。

未决的法律争议

目前有两起关键诉讼可能影响该理论的走向： 1. Doe诉GitHub案（美国）：原告指控Copilot在输出代码时未遵守MIT/GPL等许可证的署名要求。虽然部分诉请被驳回，但"违反开源许可证"的核心主张仍存活，法院认为"训练数据使用需遵守许可证义务"的观点具备法律基础。 2. GEMA诉OpenAI案（德国）：慕尼黑地方法院裁定，当ChatGPT模型内部"记忆"并完整复现歌词时，这种参数存储状态构成著作权法意义上的"复制"。该判决首次确认模型内部可包含作品的法定复制件。

理论支持与反对观点

支持依据： - 若模型包含可还原的GPL代码片段，其分发行为可能被视为GPL代码的再分发 - 两起诉讼的交集可能推导出"包含GPL代码的模型需整体遵守GPL"的结论

反对理由： 1. 著作权法层面：模型参数是统计抽象，不构成可感知的创造性表达 2. GPL文本层面：许可证未预设对统计模型的适用性，且模型参数的"可修改形式"难以界定 3. 技术层面：大语言模型本质是概率分布，不存储原始代码的精确副本 4. 实践层面：若要求遵守百万级训练数据的混合许可证，将导致操作不可行

主要组织立场

OSI（开源倡议）：2024年《开源AI定义》要求披露训练数据信息（非原始数据），但不支持许可证传染理论
FSF（自由软件基金会）：主张训练数据与模型参数均应自由，但正在制定新标准而非依赖现有GPL解释
SFC（软件自由保护协会）：谨慎平衡法律追责与社区原则，担忧司法过度干预

日本法律视角

根据《著作权法》第30-4条，AI训练行为原则上属合法"信息分析"，但： - 过度拟合等针对性训练可能丧失例外适用资格 - 模型本身通常不被视为作品复制件，除非高频生成相似内容 - 许可证违约问题留待民法处理，尚无明确指引

未来展望

该理论处于"未完全消失但非主流"的状态。可能的演进路径包括： - 通过司法判例确立部分传播规则 - 行业自发建立训练数据过滤机制 - 新型许可证的出现解决AI特定问题

核心矛盾

如何在AI时代平衡： - 软件自由原则的延续性 - 大模型技术特性（统计本质、数据海量性） - 产业实践的可行性

（注：本文基于2025年11月的法律与技术发展状态分析，后续进展可能改变相关结论。）

评论总结

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

许可证与合同的混淆问题
- graemep指出文章将许可证与合同混为一谈，认为核心问题是LLM训练是否构成对训练材料的版权侵犯。引用:
  "The article repeatedly treats license and contract as though they are the same"
  "whether training an LLM is a breach of copyright... not specific to GPL"
GPL对富豪的无效性
- rvnx认为GPL对富豪无效，侵权只是商业成本。引用:
  "GPL don't apply to billionaires... asking for forgiveness is cheaper"
GPL传染性的法律争议
- pclmulqdq质疑GPL传染性的法律基础，认为目前仅靠社区执行。
- dmezzetti批评copyleft违背开源精神。引用:
  "GPL virality enforcement has just been done by the community"
  "dictating how you use... is not in the spirit of free"
版权边界模糊性
- zamadatix认为案件核心是界定版权侵犯的模糊边界，可能需多年才能明确。引用:
  "defining sharper borders... when does it become copyright violation"
  "much of this won’t be resolved until the end of the decade"
AI输出与训练数据版权
- myrmidon反对"AI输出完全继承训练数据版权"的观点，认为需调整法律适应新情况。
- uyzstvqs主张训练不同于再分发，类比人类学习过程。引用:
  "any output falls under all the copyright... is not defensible"
  "Training is not redistribution... similar to clean-room design"
反AI训练许可提议
- phplovesong呼吁新许可证禁止所有训练行为。
- palata质疑追溯训练材料的可行性。引用:
  "license that forbids all training"
  "how do you prove I did?... LLMs are copyright-laundering machines"
GPL哲学争议
- Orygin反驳文章对GPL精神的解读，强调用户自由而非代码共享。引用:
  "The spirit is the freedom of the user... virality is a byproduct"
  "Washing the code through an AI... goes against open source philosophy"
企业规避策略
- pessimizer推测企业可能刻意排除GPL代码以避免传染风险。引用:
  "AI companies have been pulling GPL code out"
  "GPL will claim to have relicensed the entire model"

GPL协议对AI模型的传播现状 -- The State of GPL Propagation to AI Models