Hacker News 中文摘要

RSS订阅

RAG讣告:被代理终结,葬于上下文窗口 -- The RAG Obituary: Killed by agents, buried by context windows

文章摘要

作者认为,随着大模型上下文窗口的扩展和智能体架构的成熟,曾经主导AI领域的检索增强生成(RAG)技术正在走向衰落。RAG原本是为解决早期模型(如GPT-3.5)有限的上下文窗口(仅4096token)而设计的架构,但随着技术发展,其重要性正在降低。

文章总结

《RAG讣告:被智能体终结,被上下文窗口埋葬》

作者在AI和搜索领域深耕十年,曾打造欧洲最大法律搜索引擎Doctrine,现创立金融研究平台Fintool。经过三年实践,他预言检索增强生成(RAG)架构即将没落,原因在于两大技术演进:

一、上下文窗口的革命性突破 2022年GPT-3.5仅支持4,096token(约6页文本),面对5.1万token的SEC 10-K年报(130+页),传统方案束手无策。RAG应运而生,其核心逻辑是:当无法载入全文时,检索最相关片段供模型处理。但这种"碎片化阅读"存在致命缺陷:

  1. 文档结构破坏:财务报表的表格与说明被割裂,风险因素描述遭腰斩
  2. 语义检索失效:数字表达差异(如"$45.2M"与"$45,200,000")导致漏检
  3. 关联断裂:无法追踪"参见注释12"的引用链
  4. 术语鸿沟:企业对相同概念使用不同表述(如"调整后EBITDA"与"特殊项目前营业利润")

Fintool虽开发了智能分块技术(保持表格完整、维护层级结构、关联脚注等),但始终无法解决碎片化本质问题。

二、智能体架构的降维打击 2025年Anthropic推出的Claude Code终端智能体展现了新范式: - 直接调用grep/ripgrep进行实时文件搜索 - 支持正则表达式精准匹配 - 自动追踪代码引用关系 - 并行执行多路径调查

这种"智能体导航"模式依托三大技术突破: 1. 上下文窗口暴增:Claude Sonnet 4达20万token,Gemini 2.5突破100万token 2. 注意力机制优化:模型长文本处理能力显著提升 3. 智能体行为进化:自主规划多步骤调查任务

典型案例:查询66.5亿美元租赁债务时,智能体像人类分析师般: 1. 定位财务报表中的"租赁"条目 2. 追踪"参见注释12"的引用 3. 关联已终止业务(注释23)的20亿美元债务 4. 核对管理层讨论与分析中的解释 5. 搜索后续事件中的5亿美元终止条款

最终精准计算出:50亿持续业务+20亿终止业务-5亿终止条款=66.5亿

未来已来: 1. 混合搜索将退居二线,成为智能体的辅助工具 2. 基础设施成本骤降:ripgrep实现零索引、零维护的实时搜索 3. 理解取代检索:智能体通过完整上下文把握文档关联 4. 精准性飞跃:消除因碎片化导致的幻觉风险

RAG作为"上下文贫乏时代"的临时方案已完成历史使命。当模型能直接消化整部百科全书时,谁还需要检索片段?这不是技术的改良,而是范式的颠覆。

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

支持RAG的观点

  1. RAG仍有价值:评论者认为RAG需要针对任务调整检索,且适用于特定场景(如企业知识库)。

    • "RAG isn't dead, RAG is just fiddly, you need to tune retrieval to the task." (CuriouslyC)
    • "Grep works great when you have thousands of files... but most enterprise RAG use cases involve millions of documents." (davidmckayv)
  2. 语义理解优势:向量搜索能解决关键词不匹配问题,优于grep的精确匹配。

    • "If a user searches for 'revenue growth drivers'... grep returns nothing. This is the vocabulary mismatch problem that embeddings actually solve." (davidmckayv)
    • "embeddings definitely give you a much superior search experience compared to (only) classic BM25 text search." (cmenge)

质疑RAG的观点

  1. 技术限制与成本:处理大规模数据时,RAG存在性能和成本问题。

    • "Even if the LLM supported that insane context window... inference would be thousands of dollars." (cmenge)
    • "Constantly pinging these yuge LLMs is not economic and not good for sensitive docs." (jgalt212)
  2. 代理搜索的潜力:智能代理可能超越传统RAG。

    • "Agentic search... blows the lid off RAG in my experience." (intalentive)
    • "The winners will be... the ones who design the smartest agents to traverse abundant context." (sergiotapia引用原文)

中立/其他观点

  1. 技术演进类比:当前限制是暂时的,如同早期计算机内存不足。

    • "We are constantly finding workarounds for technical limitations... We will probably be saying the same thing for LLMs in a few years." (selcuka)
    • "LLMs have a similar issue with their context windows... Slowly the memory is increasing." (aussieguy1234)
  2. 适用场景差异:不同文本类型适合不同方法。

    • "These corpora have a high degree of semantic ambiguity... Other types of text are far more amenable to RAG." (djoldman)
    • "Weird to see the use case referenced specifically code search when that's a very targeted one." (redwood)

关键争议点在于:RAG是否被高估(如代码搜索场景能否推广),以及代理搜索是否代表未来方向。支持者强调RAG的语义理解和扩展性,反对者则指出其复杂性和成本问题。