Hacker News 中文摘要

RSS订阅

嵌套学习:持续学习的新机器学习范式 -- Nested Learning: A new ML paradigm for continual learning

文章摘要

谷歌研究团队提出"嵌套学习"新范式,通过模拟人脑神经可塑性机制,使机器学习模型能够持续学习新知识而不遗忘旧技能。该方案克服了传统方法中"灾难性遗忘"问题,突破了当前大语言模型仅依赖静态预训练或有限输入窗口的局限,为实现持续自我改进的人工智能开辟了新路径。

文章总结

标题:嵌套学习:持续学习的新机器学习范式

过去十年,机器学习(ML)取得了巨大进步,主要得益于强大的神经网络架构和训练算法。然而,尽管大语言模型(LLMs)取得了成功,一些根本性挑战仍然存在,尤其是在持续学习方面——即模型在不遗忘旧知识的情况下持续获取新知识和技能的能力。

人类大脑是持续学习和自我改进的黄金标准,它通过神经可塑性(neuroplasticity)适应新经验、记忆和学习。如果没有这种能力,人类将局限于即时情境(如顺行性遗忘症)。当前的LLMs也存在类似局限:它们的知识要么局限于输入窗口的即时上下文,要么局限于预训练期间学习的静态信息。

简单地对模型参数进行持续更新通常会导致“灾难性遗忘”(CF),即学习新任务会牺牲旧任务的熟练度。传统上,研究人员通过调整架构或优化规则来应对CF,但长期以来,我们一直将模型架构(网络结构)和优化算法(训练规则)视为两个独立的部分,这阻碍了真正统一、高效的学习系统的实现。

在发表于NeurIPS 2025的论文《嵌套学习:深度学习架构的错觉》中,我们提出了嵌套学习(Nested Learning),它弥合了这一差距。嵌套学习将单个ML模型视为一个由相互关联、多层级学习问题组成的系统,这些问题同时优化。我们认为,模型架构和训练规则本质上是相同的概念,只是优化的不同“层级”,每一层级都有其内部信息流(“上下文流”)和更新速率。通过揭示这种内在结构,嵌套学习为设计更强大的人工智能提供了新的维度,使我们能够构建具有更深计算深度的学习组件,从而解决灾难性遗忘等问题。

我们通过一个名为“Hope”的概念验证自修改架构测试并验证了嵌套学习。Hope在语言建模中表现出色,并在长上下文记忆管理方面优于现有最先进的模型。

嵌套学习范式

嵌套学习揭示,复杂的ML模型实际上是一组相互嵌套或并行运行的优化问题。每个内部问题都有其上下文流——它试图从中学习的一组独特信息。

这一视角表明,现有的深度学习方法本质上是通过压缩其内部上下文流来工作的。更重要的是,嵌套学习为模型设计提供了新维度,使我们能够构建计算深度更大的学习组件。

联想记忆为例(如通过人脸回忆名字):
- 我们证明,训练过程(尤其是反向传播)可以被建模为联想记忆。模型学习将数据点映射到其局部误差值,以衡量该数据点的“意外”程度。
- 类似地,如Miras等研究所示,Transformer中的注意力机制也可以形式化为简单的联想记忆模块,学习序列中标记之间的映射。

通过定义更新频率(即每个组件的权重调整频率),我们可以将这些相互关联的优化问题排序为“层级”。这种有序集合构成了嵌套学习范式的核心。

嵌套学习的应用

嵌套学习视角为改进现有算法和架构提供了原则性方法:

深度优化器

嵌套学习将优化器(如基于动量的优化器)视为联想记忆模块,从而允许我们从联想记忆的角度应用优化原则。我们发现,许多标准优化器依赖于简单的点积相似度,其更新未考虑数据样本之间的关系。通过将优化目标改为更标准的损失指标(如L2回归损失),我们为动量等核心概念推导出新公式,使其对不完美数据更具鲁棒性。

连续记忆系统

在标准Transformer中,序列模型充当短期记忆(保存即时上下文),而前馈神经网络充当长期记忆(存储预训练知识)。嵌套学习将这一概念扩展为“连续记忆系统”(CMS),其中记忆被视为一系列模块,每个模块以不同的特定频率更新,从而为持续学习构建更丰富、更有效的记忆系统。

Hope:具有连续记忆的自修改架构

作为概念验证,我们基于嵌套学习原则设计了Hope,它是Titans架构的变体。Titans架构是长期记忆模块,根据记忆的“意外”程度确定优先级。尽管其记忆管理强大,但仅有两层参数更新,导致一阶上下文学习。而Hope是一种自修改循环架构,可利用无限层级的上下文学习,并通过CMS块扩展以处理更大的上下文窗口。它本质上通过自引用过程优化自身记忆,形成具有无限循环学习层级的架构。

实验结果

我们在语言建模、长上下文推理、持续学习和知识整合任务上评估了深度优化器和Hope的性能。完整结果见论文

Hope在多样化的语言建模和常识推理任务中表现出比现代循环模型和标准Transformer更低的困惑度和更高的准确性。在长上下文“大海捞针”(NIAH)下游任务中,Hope展示了卓越的记忆管理能力,证明CMS为处理长序列信息提供了更高效的方法。

结论

嵌套学习范式推动了我们对深度学习的理解。通过将架构和优化视为一个嵌套优化问题的统一系统,我们解锁了新的设计维度。Hope等模型表明,统一这些元素的原理性方法可以带来更具表现力、能力和高效的学习算法。

我们相信,嵌套学习为缩小当前LLMs的有限、易遗忘性与人类大脑卓越的持续学习能力之间的差距提供了坚实基础。期待研究社区探索这一新维度,共同构建下一代自我改进的AI。

致谢

本研究由Ali Behrouz、Meisam Razaviyayn、Peilin Zhong和Vahab Mirrokni完成。感谢Praneeth Kacham和Corinna Cortes的审阅与宝贵建议,以及Yuan Deng和Zeman Li的贡献。同时感谢Mark Simborg和Kimberly Schwede协助撰写本文。

评论总结

总结:

  1. 关于项目复现:
  • 有用户发现有人在GitHub上尝试复现该项目
  • 引用:"Someone's trying to reproduce it in open"(有人在公开尝试复现)
  • 引用:"https://github.com/kmccleary3301/nested_learning"(GitHub项目链接)
  1. 关于项目价值:
  • 有用户表示期待此类项目已久,认为其价值显而易见
  • 引用:"I've been waiting for someone to make this since about 2019"(自2019年就期待有人做这个)
  • 引用:"it seemed pretty self-evident"(这看起来非常显而易见)
  1. 未来发展预期:
  • 用户对混合异构架构网络的未来发展表示期待
  • 引用:"It will be interesting when they get to mixed heterogeneous architecture networks"(当他们实现混合异构架构网络时会很有趣)
  • 引用:"with a meta network that optimizes for specific tasks"(带有针对特定任务优化的元网络)