Hacker News 中文摘要

文章摘要

作者认为，随着大模型上下文窗口的扩展和智能体架构的成熟，曾经主导AI领域的检索增强生成(RAG)技术正在走向衰落。RAG原本是为解决早期模型(如GPT-3.5)有限的上下文窗口(仅4096token)而设计的架构，但随着技术发展，其重要性正在降低。

《RAG讣告：被智能体终结，被上下文窗口埋葬》

作者在AI和搜索领域深耕十年，曾打造欧洲最大法律搜索引擎Doctrine，现创立金融研究平台Fintool。经过三年实践，他预言检索增强生成（RAG）架构即将没落，原因在于两大技术演进：

一、上下文窗口的革命性突破 2022年GPT-3.5仅支持4,096token（约6页文本），面对5.1万token的SEC 10-K年报（130+页），传统方案束手无策。RAG应运而生，其核心逻辑是：当无法载入全文时，检索最相关片段供模型处理。但这种"碎片化阅读"存在致命缺陷：

Fintool虽开发了智能分块技术（保持表格完整、维护层级结构、关联脚注等），但始终无法解决碎片化本质问题。

二、智能体架构的降维打击 2025年Anthropic推出的Claude Code终端智能体展现了新范式： - 直接调用grep/ripgrep进行实时文件搜索 - 支持正则表达式精准匹配 - 自动追踪代码引用关系 - 并行执行多路径调查

这种"智能体导航"模式依托三大技术突破： 1. 上下文窗口暴增：Claude Sonnet 4达20万token，Gemini 2.5突破100万token 2. 注意力机制优化：模型长文本处理能力显著提升 3. 智能体行为进化：自主规划多步骤调查任务

典型案例：查询66.5亿美元租赁债务时，智能体像人类分析师般： 1. 定位财务报表中的"租赁"条目 2. 追踪"参见注释12"的引用 3. 关联已终止业务（注释23）的20亿美元债务 4. 核对管理层讨论与分析中的解释 5. 搜索后续事件中的5亿美元终止条款

最终精准计算出：50亿持续业务+20亿终止业务-5亿终止条款=66.5亿

未来已来： 1. 混合搜索将退居二线，成为智能体的辅助工具 2. 基础设施成本骤降：ripgrep实现零索引、零维护的实时搜索 3. 理解取代检索：智能体通过完整上下文把握文档关联 4. 精准性飞跃：消除因碎片化导致的幻觉风险

RAG作为"上下文贫乏时代"的临时方案已完成历史使命。当模型能直接消化整部百科全书时，谁还需要检索片段？这不是技术的改良，而是范式的颠覆。

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

RAG仍有价值：评论者认为RAG需要针对任务调整检索，且适用于特定场景（如企业知识库）。
- "RAG isn't dead, RAG is just fiddly, you need to tune retrieval to the task." (CuriouslyC)
- "Grep works great when you have thousands of files... but most enterprise RAG use cases involve millions of documents." (davidmckayv)
语义理解优势：向量搜索能解决关键词不匹配问题，优于grep的精确匹配。
- "If a user searches for 'revenue growth drivers'... grep returns nothing. This is the vocabulary mismatch problem that embeddings actually solve." (davidmckayv)
- "embeddings definitely give you a much superior search experience compared to (only) classic BM25 text search." (cmenge)

技术限制与成本：处理大规模数据时，RAG存在性能和成本问题。
- "Even if the LLM supported that insane context window... inference would be thousands of dollars." (cmenge)
- "Constantly pinging these yuge LLMs is not economic and not good for sensitive docs." (jgalt212)
代理搜索的潜力：智能代理可能超越传统RAG。
- "Agentic search... blows the lid off RAG in my experience." (intalentive)
- "The winners will be... the ones who design the smartest agents to traverse abundant context." (sergiotapia引用原文)

技术演进类比：当前限制是暂时的，如同早期计算机内存不足。
- "We are constantly finding workarounds for technical limitations... We will probably be saying the same thing for LLMs in a few years." (selcuka)
- "LLMs have a similar issue with their context windows... Slowly the memory is increasing." (aussieguy1234)
适用场景差异：不同文本类型适合不同方法。
- "These corpora have a high degree of semantic ambiguity... Other types of text are far more amenable to RAG." (djoldman)
- "Weird to see the use case referenced specifically code search when that's a very targeted one." (redwood)

关键争议点在于：RAG是否被高估（如代码搜索场景能否推广），以及代理搜索是否代表未来方向。支持者强调RAG的语义理解和扩展性，反对者则指出其复杂性和成本问题。