文章摘要
GitHub将于4月24日开始使用用户私有代码仓库训练AI模型,除非用户在截止日期前选择退出。该消息引发技术社区关注,目前已有348个点赞和164条评论。
文章总结
GitHub 将默认使用用户私有代码库训练AI模型,需在4月24日前手动退出
主要内容: 1. GitHub宣布从4月24日起,将默认使用用户的私有代码库(private repos)数据来训练其AI模型Copilot,除非用户主动选择退出。
用户可以通过访问GitHub设置页面(github.com/settings/copilot/features)关闭"允许GitHub使用我的数据进行AI模型训练"选项来退出该计划。
该政策仅适用于免费版、专业版和Pro+版的Copilot用户。企业版和商业版用户不受影响。
GitHub表示他们不会直接使用私有代码库中的静态代码进行训练,而是收集用户与Copilot的交互数据,包括:
- 用户接受或修改的代码建议
- 发送给Copilot的输入内容
- 光标周围的代码上下文
- 用户编写的注释和文档
- 文件名称和仓库结构
社区反应强烈,许多开发者批评这种"默认同意"的做法,认为这违背了私有代码库的隐私承诺。部分用户建议迁移到GitLab、Gitea或自建代码托管平台。
GitHub员工在讨论中澄清,如果不使用Copilot功能,则不受此政策影响。但用户仍可选择现在退出,以防未来开始使用Copilot。
开发者担忧点包括:
- 代码可能通过其他协作者的Copilot使用被间接收集
- 敏感信息如API密钥可能被意外收集
- 欧盟法律可能不认可这种"选择退出"的同意方式
替代方案讨论中,用户推荐了GitLab、Forgejo、Gitea等自托管解决方案,以及加密代码库的工具如git-crypt。
这一变更引发了关于代码隐私、数据所有权和AI训练伦理的广泛讨论,许多开发者表示将重新评估对GitHub的依赖。
评论总结
以下是评论内容的总结:
主要观点和论据
对GitHub通知不足的批评
- 多位用户表示未收到GitHub关于使用私有仓库数据训练Copilot的通知。
- 引用:
- "RIP all the people who have been paying Github for years and never happen to see the notice." (SunshineTheCat)
- "I was never made aware of this by GitHub.." (livinglist)
对数据隐私的担忧
- 用户担心私有代码被用于训练AI模型,尤其是涉及安全风险(如硬编码密钥)。
- 引用:
- "This seems like a security nightmare if it trains on hardcoded keys." (jambutters)
- "The product managers pushing for changes like this are despicable scum." (sethops1)
澄清与解释
- 部分用户指出,GitHub仅收集Copilot交互数据,而非直接使用私有仓库代码。
- 引用:
- "If you don’t use Copilot this will not affect you." (martinwoodward)
- "GitHub will train on your copilot interactions with your private repos." (landl0rd)
寻找替代方案
- 一些用户询问其他免费私有仓库的替代平台。
- 引用:
- "What's a good alternative for free private repos?" (kristianp)
- "is there an easy way to shift all your repos to gitlab?" (daft_pink)
对Copilot功能的调侃与批评
- 用户调侃Copilot可能生成恶意代码或低质量代码。
- 引用:
- "So now CoPilot will be EVEN better at writing viruses, worms and malware!" (starkeeper)
- "You don't want an LLM trained on my private repos. Trust me." (parsimo2010)
对UI设计的批评
- 用户认为设置选项的描述模糊不清。
- 引用:
- "WTF does that mean?" (harikb)
- "How do I opt out of this for my own private repos?" (yonatan8070)
法律与道德讨论
- 用户提到可能的集体诉讼或通过故意提交低质量代码破坏训练数据。
- 引用:
- "I'm looking forward to the class action lawsuit." (rakel_rakel)
- "Time to put adversarial code into GitHub to pollute the training set?" (mxtbccagmailcom)
总结
评论中既有对GitHub政策的不满和担忧,也有对具体影响的澄清。用户普遍关注数据隐私和通知透明度,部分人考虑迁移到其他平台或采取行动抵制AI训练。