文章摘要
作者认为,随着大模型上下文窗口的扩展和智能体架构的成熟,曾经主导AI领域的检索增强生成(RAG)技术正在走向衰落。RAG原本是为解决早期模型(如GPT-3.5)有限的上下文窗口(仅4096token)而设计的架构,但随着技术发展,其重要性正在降低。
文章总结
《RAG讣告:被智能体终结,被上下文窗口埋葬》
作者在AI和搜索领域深耕十年,曾打造欧洲最大法律搜索引擎Doctrine,现创立金融研究平台Fintool。经过三年实践,他预言检索增强生成(RAG)架构即将没落,原因在于两大技术演进:
一、上下文窗口的革命性突破 2022年GPT-3.5仅支持4,096token(约6页文本),面对5.1万token的SEC 10-K年报(130+页),传统方案束手无策。RAG应运而生,其核心逻辑是:当无法载入全文时,检索最相关片段供模型处理。但这种"碎片化阅读"存在致命缺陷:
- 文档结构破坏:财务报表的表格与说明被割裂,风险因素描述遭腰斩
- 语义检索失效:数字表达差异(如"$45.2M"与"$45,200,000")导致漏检
- 关联断裂:无法追踪"参见注释12"的引用链
- 术语鸿沟:企业对相同概念使用不同表述(如"调整后EBITDA"与"特殊项目前营业利润")
Fintool虽开发了智能分块技术(保持表格完整、维护层级结构、关联脚注等),但始终无法解决碎片化本质问题。
二、智能体架构的降维打击 2025年Anthropic推出的Claude Code终端智能体展现了新范式: - 直接调用grep/ripgrep进行实时文件搜索 - 支持正则表达式精准匹配 - 自动追踪代码引用关系 - 并行执行多路径调查
这种"智能体导航"模式依托三大技术突破: 1. 上下文窗口暴增:Claude Sonnet 4达20万token,Gemini 2.5突破100万token 2. 注意力机制优化:模型长文本处理能力显著提升 3. 智能体行为进化:自主规划多步骤调查任务
典型案例:查询66.5亿美元租赁债务时,智能体像人类分析师般: 1. 定位财务报表中的"租赁"条目 2. 追踪"参见注释12"的引用 3. 关联已终止业务(注释23)的20亿美元债务 4. 核对管理层讨论与分析中的解释 5. 搜索后续事件中的5亿美元终止条款
最终精准计算出:50亿持续业务+20亿终止业务-5亿终止条款=66.5亿
未来已来: 1. 混合搜索将退居二线,成为智能体的辅助工具 2. 基础设施成本骤降:ripgrep实现零索引、零维护的实时搜索 3. 理解取代检索:智能体通过完整上下文把握文档关联 4. 精准性飞跃:消除因碎片化导致的幻觉风险
RAG作为"上下文贫乏时代"的临时方案已完成历史使命。当模型能直接消化整部百科全书时,谁还需要检索片段?这不是技术的改良,而是范式的颠覆。
评论总结
以下是评论内容的总结,平衡呈现不同观点并保留关键引用:
支持RAG的观点
RAG仍有价值:评论者认为RAG需要针对任务调整检索,且适用于特定场景(如企业知识库)。
- "RAG isn't dead, RAG is just fiddly, you need to tune retrieval to the task." (CuriouslyC)
- "Grep works great when you have thousands of files... but most enterprise RAG use cases involve millions of documents." (davidmckayv)
语义理解优势:向量搜索能解决关键词不匹配问题,优于grep的精确匹配。
- "If a user searches for 'revenue growth drivers'... grep returns nothing. This is the vocabulary mismatch problem that embeddings actually solve." (davidmckayv)
- "embeddings definitely give you a much superior search experience compared to (only) classic BM25 text search." (cmenge)
质疑RAG的观点
技术限制与成本:处理大规模数据时,RAG存在性能和成本问题。
- "Even if the LLM supported that insane context window... inference would be thousands of dollars." (cmenge)
- "Constantly pinging these yuge LLMs is not economic and not good for sensitive docs." (jgalt212)
代理搜索的潜力:智能代理可能超越传统RAG。
- "Agentic search... blows the lid off RAG in my experience." (intalentive)
- "The winners will be... the ones who design the smartest agents to traverse abundant context." (sergiotapia引用原文)
中立/其他观点
技术演进类比:当前限制是暂时的,如同早期计算机内存不足。
- "We are constantly finding workarounds for technical limitations... We will probably be saying the same thing for LLMs in a few years." (selcuka)
- "LLMs have a similar issue with their context windows... Slowly the memory is increasing." (aussieguy1234)
适用场景差异:不同文本类型适合不同方法。
- "These corpora have a high degree of semantic ambiguity... Other types of text are far more amenable to RAG." (djoldman)
- "Weird to see the use case referenced specifically code search when that's a very targeted one." (redwood)
关键争议点在于:RAG是否被高估(如代码搜索场景能否推广),以及代理搜索是否代表未来方向。支持者强调RAG的语义理解和扩展性,反对者则指出其复杂性和成本问题。