Hacker News 中文摘要

RSS订阅

递归语言模型(RLMs) -- Recursive Language Models (RLMs)

文章摘要

文章探讨了递归语言模型(RLM)的创新方法,通过让语言模型递归调用自身或其他大模型来处理无限长度的输入输出,有效缓解了上下文衰减问题。实验显示,基于GPT-5-mini的RLM在长上下文基准测试中表现优于GPT-5,正确率翻倍且成本更低,甚至在处理千万级token时性能仍不下降。研究者认为RLM将成为重要的推理范式。

文章总结

递归语言模型(RLM):突破上下文限制的新范式

核心概念

我们提出递归语言模型(RLM),这是一种通过让语言模型递归调用自身或其他大模型来处理无限长输入/输出的创新方法。RLM通过Python REPL环境将用户提示存储为变量,使模型能动态分解和交互式处理超长上下文,从而有效缓解"上下文衰减"(context rot)问题。

关键优势

  1. 性能突破:在OOLONG长上下文基准测试中,RLM(GPT-5-mini)的正确率是GPT-5的两倍以上,且单次查询成本更低。
  2. 超长上下文处理:在包含10M+token的BrowseComp-Plus文档检索任务中,RLM保持完美准确率,而传统方法性能骤降。
  3. 灵活架构:模型可自主选择"窥探"(peeking)、"分区映射"(partition+map)、"语义检索"(grepping)等策略处理上下文,无需预设流程。

技术实现

  • 环境设计:采用Python REPL环境,允许根模型(depth=0)通过代码块交互式处理上下文变量,并递归调用子模型(depth=1)。
  • 响应机制:模型通过FINAL()直接输出结果,或通过FINAL_VAR()返回环境变量中的计算结果。
  • 成本控制:根模型无需直接处理完整上下文,通过智能分块降低计算开销。

实验发现

  • 对抗上下文衰减:在132k token的OOLONG测试中,RLM性能比GPT-5提升114%;即使上下文扩展至263k token,仍保持49%优势。
  • 超大规模测试:处理1000份文档(约10M token)时,RLM准确率100%,而传统检索方法(如ReAct+BM25)性能下降60%。
  • 新兴策略:模型自主发展出"首行窥探"、"正则过滤"、"分块摘要"等处理模式,展现类人类的信息处理逻辑。

理论意义

RLM代表继思维链(CoT)和智能体模型(ReAct)后的第三代推理范式,其特点包括: 1. 环境中心化:将上下文作为可编程对象而非静态输入 2. 递归可扩展性:支持多级深度递归调用(当前实验仅用depth=1) 3. 模态无关性:理论上支持任何可加载到内存的数据形式

现存挑战

  • 延迟问题:同步递归调用导致响应时间从数秒到数分钟不等
  • 成本预测:缺乏对总API开销和运行时间的强保证
  • 优化空间:前缀缓存、异步调用等系统级优化尚未实现

未来展望

RLM的潜力在于: 1. 训练范式:通过强化学习优化递归策略 2. 架构扩展:支持跨模态数据处理 3. 性能突破:基础模型能力提升将直接放大RLM优势

这项研究由MIT团队完成,特别感谢OOLONG基准测试作者的协作。完整论文即将发布,技术细节可参考预印本。

注:本文保留核心方法论、实验结果和理论创新,精简了技术细节和部分对比实验,删除作者致谢等非技术内容。关键数据均通过可视化图表呈现,符合中文技术文献的表述习惯。

评论总结

总结评论内容如下:

  1. 创新性争议

    • 支持方认为该研究具有突破性:"It broke new ground!"(评论2)
    • 反对方认为只是现有技术的重新包装:"This is old news! Agent-loops are not a model architechture"(评论1);"in today's news: MIT researchers found out about AI agents and rebranded it as RLM for karma."(评论10)
  2. 技术实质性质疑

    • 多名评论者指出这与现有代理架构相似:"this is just subagent architecture?"(评论15);"Not much different from agent-to-agent workflow"(评论6)
    • 与ViperGPT等现有技术比较:"This reminded me of ViperGPT...which is similar but specific to vision language models"(评论12)
  3. 命名与实现问题

    • 递归深度仅1层引发质疑:"It feels a little disingenuous to call it a Recursive Language Model when the recursive depth was only 1"(评论5)
    • 术语过于宽泛:"The term 'recursive language model' is heavily overloaded"(评论4)
  4. 潜在应用价值

    • 系统级优化的必要性:"focus on systems versus LLM's is the proper next move"(评论8)
    • 多模型协作潜力:"Extending this so that the Root LLM can choose the best option from many other LLMs seems powerful"(评论13)
  5. 技术细节讨论

    • 具体实现方式:"wraps an existing language model with a Python REPL environment"(评论7)
    • 参数设置建议:"would you set a higher temperature for the root LLM calls..."(评论16)

(注:所有评论均无评分数据,故未体现认可度指标)