Hacker News 中文摘要

RSS订阅

构建可靠的自主AI系统 -- Building reliable agentic AI systems

文章摘要

拜耳公司利用大语言模型与检索增强生成技术,构建了名为PRINCE的智能体AI系统,以解决临床前药物研发中数据访问与分析难题,使研究人员能用自然语言提问并获得基于专有数据的精准答案。

文章总结

好的,这是根据您的要求,对原文主要内容进行的中文重述,保留了关键细节,并删减了与主题无关的内容。


标题:构建可靠的智能体AI系统

核心内容:

临床前药物研发是一个数据密集型过程,研究人员面临高效访问和分析海量信息的挑战。传统的基于关键词的搜索方法,在处理复杂的研究问题时往往力不从心。

大型语言模型(LLM)的出现带来了变革机遇。通过将LLM的生成能力与信息检索系统的精确性相结合,检索增强生成(RAG)技术应运而生,有望彻底改变临床前数据的访问方式。

拜耳公司(Bayer)认识到这一潜力,开发了PRINCE系统。这是一个基于智能体RAG(Agentic RAG)的AI系统,旨在将临床前数据检索从复杂的迷宫转变为直观的对话式体验。

核心挑战:

拜耳的临床前研究数据存在三大问题: 1. 数据孤岛:信息分散在众多不同的系统中,难以获得全面视图。 2. 搜索能力有限:传统关键词搜索难以处理复杂的专业术语和研究问题,结果往往不相关或不完整。 3. 手动分析耗时:从多个文档中提取特定见解需要大量人工操作,占用了研究人员宝贵的时间。

解决方案:PRINCE平台

PRINCE平台旨在解决上述挑战,其发展经历了三个阶段: 1. 搜索(Search):整合多个内部数据孤岛,创建一个统一的、可搜索的临床前研究报告门户,主要利用结构化元数据。 2. 询问(Ask):引入基于RAG的AI问答系统,使研究人员能够通过自然语言直接从非结构化数据(如历史PDF报告)中获取洞察。 3. 执行(Do):当前阶段,PRINCE成为一个主动的研究助手,通过集成多智能体系统,能够处理复杂查询、编排工作流,并支持起草监管文件等活动。

系统架构:构建可靠的智能体RAG系统

PRINCE的系统架构由LangGraph编排,通过FastAPI应用提供服务,其核心设计原则是上下文纪律框架工程

  • 上下文纪律:系统避免将所有信息塞入一个巨大的提示词中。相反,不同阶段(如规划、研究、反思、写作)的智能体接收不同的、有针对性的上下文,这减少了上下文污染,使系统更易于调试和评估。
  • 框架工程:围绕模型构建了强大的支撑框架,包括编排、工具边界、状态持久化、重试、回退、验证、反思循环、可观测性和人工审核。

核心工作流程:

  1. 澄清用户意图:系统主动提出澄清性问题,以确定用户查询的具体领域或数据类型,避免在模糊查询上浪费计算资源。
  2. 思考与规划:该步骤进行过程反思,评估智能体是否朝着最终目标正确前进,并规划后续步骤。这对于多步骤工作流中正确选择工具至关重要。
  3. 研究员智能体:负责信息收集,采用两种策略:
    • RAG:处理非结构化数据(PDF报告)。其流程包括关键词提取、元数据过滤、查询扩展、混合检索(结合语义和关键词搜索)、重排序,最终生成带有引用的答案。
    • Text-to-SQL:查询结构化数据。通过动态少样本提示生成SQL查询,并包含错误处理和迭代机制。
  4. 反思智能体:进行数据反思,评估收集到的数据是否足以回答用户问题。如果数据不足,它会生成后续问题,引导系统进行更多检索。
  5. 写作智能体:负责综合证据,生成最终答案,并严格遵守引用规则和格式要求。

建立信任:

  • 透明度和可解释性:系统向用户展示其执行的中间步骤、使用的工具以及引用的源文档。用户可以通过悬停查看每个句子的具体引用来源(包括页码和原文引用)。
  • 评估:通过数据集评估(使用专家准备的参考答案)和实时流量评估(对真实用户查询进行每日评估)来监控系统性能。
  • 监控:使用Langfuse等平台持续监控系统,以识别潜在问题。

工程韧性:错误处理与恢复

系统设计了强大的错误处理机制: * 状态持久化:工作流状态被持久化存储,允许从失败节点直接恢复执行。 * 内置重试:在多个步骤配置了自动重试。 * 用户发起的重试:用户可手动重试失败查询,系统会从断点继续。 * LLM回退:如果主要LLM失败,系统会自动切换到备用模型。

数据质量提升:

为了提升结构化元数据的质量,系统利用命名实体识别(NER)技术,直接从研究PDF中提取并创建准确的注释,用于自动纠正和丰富数据库。

结论:

PRINCE案例表明,通过结合强大的数据基础设施、先进的检索技术(RAG和Text-to-SQL)以及智能的多智能体编排系统,可以从海量、难以访问的数据中解锁宝贵洞察。构建生产级LLM应用的关键在于工程韧性、用户信任的建立,以及上下文工程框架工程的实践。前者确保模型在正确阶段获得正确信息,后者确保工作流可控、可观测、可恢复,这对于受监管的研究环境至关重要。

评论总结

以下是对评论内容的总结,涵盖主要观点、论据及不同视角的平衡性,并保留了关键引用(中英文)。

1. 对多智能体系统架构的质疑

  • 观点:多智能体系统(如“研究员”“写手”等角色)缺乏评估,显得“氛围感”过重,实际价值有限。
  • 论据:作者未尝试其他方法或角色,智能体本质只是系统提示和输出合约。
  • 关键引用
    • “These vast multi-agentic systems... lack evals as to the merit of agent decomposition.”(这些庞大的多智能体系统……缺乏对智能体分解价值的评估。)
    • “an agent is just a system prompt and output contracts, and these rich architectures seem to be pontificating beyond their worth.”(智能体只是系统提示和输出合约,这些丰富的架构似乎夸大了其价值。)

2. 对上下文管理与数据质量的强调

  • 观点:更大的上下文窗口不能替代对模型“不应看到”内容的决策;数据质量(如数据库清洁度)比智能体调优更重要。
  • 论据:动态数据获取导致持久性收益缺失,而精心设计的数据库模式可减少“耶稣式提示”。
  • 关键引用
    • “Larger context windows don’t remove the need to decide what the model shouldn’t see.”(更大的上下文窗口不能消除决定模型不应看到什么的需求。)
    • “The most important part is the database that the agent can see and how clean the data is... it’s more like 99/1 [data vs agent tuning].”(最重要的部分是智能体能看到的数据库及其数据清洁度……数据与智能体调优的比例更像是99/1。)

3. 对AI在搜索与代码/写作中表现的对比

  • 观点:AI在搜索(信息检索)中表现出色,但在代码编写和写作中常导致质量下降。
  • 论据:搜索时AI能精准检索文档;代码和写作则缺乏全局一致性,内容“听起来不错但缺乏实质”。
  • 关键引用
    • “For search... AI is great as you don’t ask it to build stuff... you just want to retrieve relevant documents with laser precision.”(对于搜索,AI很棒,因为你不需要它构建东西……你只想以激光般的精度检索相关文档。)
    • “I’m mostly disappointed with agents writing code as they always degrade the quality of the codebase... writing... just sounds good but doesn’t have a lot of substance.”(我对智能体编写代码感到失望,因为它们总是降低代码库质量……写作听起来不错但缺乏实质。)

4. 对文章使用AI辅助写作的质疑

  • 观点:文章声称使用AI辅助,但描述模糊,可能掩盖了AI实际参与程度。
  • 论据:第一句暗示仅用于润色,第二句却暗示AI完成90%工作,存在矛盾。
  • 关键引用
    • “The first sentence makes it seem like they just used to improve sentence structure... but the second line makes it seem like they used it for 90% of the work. Which one is true?”(第一句似乎表明仅用于改善句子结构……但第二行似乎表明AI完成了90%的工作。哪个是真的?)

5. 对评估环节不足的批评

  • 观点:文章在大量描述系统后,仅用两段讨论评估,显得头重脚轻。
  • 论据:评估部分过于简短,与系统描述的篇幅不成比例。
  • 关键引用
    • “Two paragraph section on Evaluation after 30 paragraphs explaining the most bog standard rag system you’ve ever heard of.”(在30段解释最普通的RAG系统后,评估部分只有两段。)

6. 对动态工作流与透明性矛盾的担忧

  • 观点:动态循环工作流(含LLM决策点)的非确定性本质与透明性要求不兼容。
  • 论据:这种设计难以满足对系统决策过程的可追溯性需求。
  • 关键引用
    • “The non-deterministic nature of these loops with LLM decision points doesn’t mesh well with the transparency requirement.”(这些包含LLM决策点的循环的非确定性本质与透明性要求不兼容。)

7. 对网站审查或偏见的怀疑

  • 观点:有评论被“杀死”(隐藏或删除),暗示网站存在不透明操作。
  • 论据:用户质疑为何某条评论消失,认为“有可疑情况”。
  • 关键引用
    • “Why is comment from padolsey dead? Seriously, something fishy is going on on this website.”(为什么padolsey的评论被“杀死”?说真的,这个网站有可疑情况。)

8. 对作者背景的讽刺

  • 观点:作者身份(Thoughtworks顾问、O'Reilly课程讲师)被质疑为“骗子”。
  • 论据:用户认为这种背景与文章内容不符,暗示存在利益冲突或夸大。
  • 关键引用
    • “isn’t this basically saying that you are a scammer? or am I paranoid?”(这难道不是在说你是骗子吗?还是我多疑了?)