Hacker News 中文摘要

RSS订阅

VaultGemma:最具能力的差分隐私大语言模型 -- VaultGemma: The most capable differentially private LLM

文章摘要

随着AI的深入应用,隐私保护成为关键挑战。差分隐私通过添加噪声防止数据记忆,但应用于大语言模型时会影响训练稳定性和计算成本。谷歌与DeepMind合作研究,建立了计算、隐私和效用之间的权衡模型,并推出了VaultGemma,这是首个从头开始训练、具备差分隐私的10亿参数开源模型,相关权重已在Hugging Face发布。

文章总结

VaultGemma:全球最强大的差分隐私大语言模型

随着人工智能(AI)日益融入我们的生活,构建以隐私为核心的AI技术成为该领域的关键前沿。差分隐私(Differential Privacy, DP)通过添加校准噪声来防止数据记忆,提供了一种数学上稳健的解决方案。然而,将DP应用于大语言模型(LLMs)会带来一些权衡,理解这些权衡至关重要。DP噪声的引入改变了传统的扩展法则(scaling laws),降低了训练稳定性(模型在没有损失激增或发散等灾难性事件的情况下持续学习的能力),并显著增加了批量大小(同时发送给模型处理的输入提示集合)和计算成本。

我们与Google DeepMind合作的新研究《差分隐私语言模型的扩展法则》建立了能够准确建模这些复杂性的法则,全面揭示了计算、隐私和效用之间的权衡。基于这项研究,我们推出了VaultGemma,这是迄今为止最大的(10亿参数)从头开始训练的差分隐私开源模型。我们已在Hugging Face和Kaggle上发布了模型权重,并附有技术报告,以推动下一代隐私AI的发展。

理解扩展法则

通过精心设计的实验方法,我们旨在量化在DP训练中增加模型大小、批量大小和迭代次数的效益。我们的研究做出了一些简化假设,以克服可能考虑的指数级组合数量。我们假设模型的学习效果主要取决于“噪声-批量比”,即我们为隐私添加的随机噪声量与用于训练的数据组(批量)大小之比。这一假设之所以成立,是因为我们添加的隐私噪声远大于数据采样中的自然随机性。

为了建立DP扩展法则,我们进行了一系列实验,评估了不同模型大小和噪声-批量比下的性能。结合已知的确定性关系,这些实验数据使我们能够回答各种扩展法则式的问题,例如:“在给定的计算预算、隐私预算和数据预算下,如何配置训练以实现最低的训练损失?”

关键发现:强大的协同效应

在深入探讨完整的扩展法则之前,从隐私会计的角度理解计算预算、隐私预算和数据预算之间的动态关系和协同效应是有益的。例如,单独增加隐私预算会导致收益递减,除非同时增加计算预算(浮点运算次数)或数据预算(令牌数)。进一步的可视化展示了不同约束下最佳训练配置的变化,揭示了在隐私和计算预算变化时,投资于更大模型与使用更大批量或更多迭代之间的权衡。

应用扩展法则构建VaultGemma

Gemma模型以责任和安全为核心设计,这使其成为开发生产级DP训练模型(如VaultGemma)的理想基础。我们使用扩展法则确定了训练一个计算最优的10亿参数Gemma 2模型所需的计算量,并分配了批量大小、迭代次数和序列长度以实现最佳效用。

在训练VaultGemma时,我们最初使用统一批量加载数据,但后来切换到泊松采样以获得最佳的隐私保证和最小的噪声。这种方法带来了两个主要挑战:创建不同大小的批量,并要求特定的随机数据处理顺序。我们通过可扩展的DP-SGD解决了这些问题,允许我们在保持强大隐私保护的同时处理固定大小的批量。

结果

凭借新的扩展法则和先进的训练算法,我们构建了VaultGemma,这是迄今为止最大的完全预训练的差分隐私开源模型。VaultGemma的最终训练损失与我们的预测非常接近,验证了我们的研究,并为未来的隐私模型开发提供了可靠的路线图。

我们还在多个标准学术基准上比较了VaultGemma与其非隐私对应模型的性能。为了量化当前隐私所需的资源投入,我们还与类似大小的GPT-2模型进行了比较。这一比较表明,当前的隐私训练方法产生的模型效用与大约5年前的非隐私模型相当,凸显了我们工作将帮助社区系统性地缩小这一差距。

正式隐私保证

VaultGemma以序列级DP保证(ε ≤ 2.0, δ ≤ 1.1e-10)进行训练,其中序列由从异构数据源提取的1024个连续令牌组成。序列级隐私单位是我们的训练混合物的自然选择,但在数据与用户之间有明确映射的情况下,用户级差分隐私将是更好的选择。

实证记忆

序列级DP可证明限制任何单个训练序列(示例)对最终模型的影响。我们通过从训练文档中提取50个令牌的前缀来提示模型,观察其是否生成相应的50个令牌后缀。VaultGemma 1B未检测到其训练数据的记忆,成功展示了DP训练的有效性。

结论

VaultGemma在构建强大且隐私设计的AI道路上迈出了重要一步。通过开发和应用对DP扩展法则的新理解,我们成功训练并发布了迄今为止最大的开源DP训练语言模型。尽管DP训练模型与非DP训练模型之间仍存在效用差距,但我们相信通过更多关于DP训练机制设计的研究,这一差距可以系统性地缩小。我们希望VaultGemma和我们的研究能够赋能社区,为每个人构建下一代安全、负责任且隐私的AI。

致谢

我们感谢整个Gemma和Google隐私团队在项目中的贡献和支持,特别是Peter Kairouz、Brendan McMahan和Dan Ramage对博客文章的反馈,Mark Simborg和Kimberly Schwede在可视化方面的帮助,以及Google团队在算法设计、基础设施实现和生产维护方面的支持。

评论总结

评论主要围绕Google的VaultGemma模型及其隐私保护技术展开,观点多样,既有对其技术潜力的认可,也有对其实际应用和隐私性的质疑。

  1. 技术潜力与隐私保护
    评论2和评论3对VaultGemma的技术表示认可,认为其通过差分隐私(DP)技术有效保护了训练数据的隐私。评论2提到:“他们可以通过统计魔法‘模糊’训练集,使得模型难以泄露训练集中的信息,同时提供相同的输出。”评论3则指出:“VaultGemma从头开始使用差分隐私进行预训练,提供了强大的数学隐私保证。”

  2. 实际应用与硬件需求
    评论3和评论4讨论了VaultGemma的实际应用和硬件需求。评论3提到:“训练大型语言模型需要TPU硬件,DP对性能有很大影响,因此不太可能在家庭实验室等环境中运行。”评论4则质疑其实际用途:“为什么我要在本地运行这个模型?它是否只是一个用于未来医疗数据训练的概念验证?”

  3. 隐私性与数据使用
    评论1和评论4对VaultGemma的隐私性提出质疑。评论1认为:“它仍然运行在Google的云上,因此在任何有意义的层面上都不算‘私有’。”评论4则怀疑:“他们是否试图通过应用噪声来合理化对用户个人数据的训练?”

  4. 版权与数据扩展
    评论6提到VaultGemma在避免版权争议方面的潜力:“如果模型没有记忆化,版权主张会弱化,甚至可能开启分布式训练的大门,用户可以在不担心个人信息泄露的情况下持续提供数据。”

总结:VaultGemma在隐私保护和技术创新方面受到认可,但其实际应用、硬件需求和隐私性仍存在争议。