什么是Agentic RAG?|莫尔索随笔 Vol.30

大家好!会员计划第 30 期会员通讯已送达!本期内容讨论了 Agentic RAG 及其在 AI 领域的应用,介绍了 ChunkRAG、Star Attention、ShowUI、Thanos 等模型和技术的最新进展,以及 DataWind 平台、LazyGraphRAG 模型、QwQ、GGUF-my-LoRA 平台、MCP、文本水印技术、纳米搜索等产品和工程的实践与发展,并探讨了 AI 在教育和营销领域的应用前景,以及 OpenAI 创始人 Sam 关于 AI 未来的看法。


论文

  1. ChunkRAG:RAG 系统的全新 LLM-Chunk 过滤之法:ChunkRAG 是一种新型的检索增强生成(RAG)系统,它通过在块级别评估和过滤检索信息,提高了系统的准确性和可靠性。该方法首先通过语义分块将文档分成连贯的部分,然后利用基于 LLM 的相关性评分来评估每个块与用户查询的契合度。在生成阶段之前滤除不相关的块,有效降低了幻觉现象,提高了事实准确性。实验结果显示,ChunkRAG 在准确率上优于现有的 RAG 模型,尤其是在需要精准信息检索的任务中,性能得到了显著提升。ChunkRAG 的进步体现在其精细的块级过滤和细粒度相关性评估上,这使得生成的响应更加事实准确且连贯。然而,ChunkRAG 也存在一些局限性,例如高度依赖块分割的成效和嵌入质量,以及在大数据集或实时系统中可能较高的计算成本。此外,ChunkRAG 目前在其他领域的可用性验证和在处理长格式生成任务时的表现尚未得到深入剖析。

  2. Star Attention:一种高效的长序列 LLM 推理方案:是一种两阶段的块稀疏注意力近似机制。在第一阶段,即 Context Encoding 阶段,系统将长上下文分块并在多个主机间并行处理。第二阶段,即 Query Encoding 阶段,查询和响应 token 通过全局注意力机制访问所有缓存的 token。该机制引入了 “锚块”(anchor block) 机制,每个块都会附加第一个块作为锚点,并采用分布式 softmax 算法以最小化主机间通信开销。通过分片注意力计算,Star Attention 实现了计算效率的显著提升。相比 Ring Attention 基线,Star Attention 提速最高可达 11 倍,同时保持了 95-100% 的准确率,并大幅降低了内存需求。该机制可与大多数基于 Transformer 的 LLM 无缝集成,无需额外的模型微调,并且可与其他优化方法 (如 Flash Attention) 结合使用。Star Attention 具有良好的可扩展性,上下文长度可以随主机数量线性扩展,并在更大模型 (如 Llama-3.1-70B) 上获得更显著的速度提升。在多个基准测试上的评估显示,Star Attention 在简单任务上表现接近全局注意力,在复杂任务上略有性能下降但仍保持较高准确率,并在块大小设置为序列长度的 1/4 时效果最佳。

  3. ShowUI:一种轻量级的视觉语言动作模型:旨在提高 GUI 助手的效率和准确性,通过 UI 引导的视觉标记选择、交替视觉语言动作流和小规模高质量的 GUI 指令跟随数据集来实现。

    它通过以下几个创新点提高了 GUI 助手的性能:

    1. UI-Guided Visual Token Selection:通过将屏幕截图作为连接的 UI 图形来表示,自适应识别冗余关系,并作为自注意力块中标记选择的标准,减少了计算成本,并在无需预训练的情况下实现了高准确率。
    2. Interleaved Vision-Language-Action Streaming:这种方法灵活地统一了 GUI 任务中的多种需求,有效地管理了视觉动作历史记录,提高了在导航或将多轮查询动作序列与每个屏幕截图配对以提高训练效率的能力。
    3. Small-scale High-quality GUI Instruction-following Datasets:通过精心策划的数据收集和采用重采样策略,解决了数据类型不平衡的问题,创建了高质量的 GUI 指令跟随数据集。

    ShowUI 模型使用 256K 数据实现了 75.1% 的准确率,并在不同的环境中进行了导航实验,证明了其在提升 GUI 视觉代理方面的有效性和潜力。此外,ShowUI 的 UI-Guided Token Selection 在训练过程中进一步减少了 33% 的冗余视觉标记,并加快了性能 1.4 倍。相关模型已经在 GitHub 上开源,可在 https://github.com/showlab/ShowUI 获取。

  4. Thanos:通过注入思维技能(skill-of-mind)的大语言模型增强对话代理:通过教授AI在回答之前选择社交技能,来提升聊天机器人的自然性。他们构建了一个包含 100K 条对话的多面性技能思维数据集,这些对话都带有解释和对话技能的注释。研究团队还创建了一个分层的对话技能分类体系,分为五个类别:人际关系、记忆与知识、认知与问题解决、沟通与倾听,以及任务导向。基于这个数据集,他们开发了 Thanos 模型,包括 10 亿、30 亿和 80 亿参数的模型,用于预测适当的对话技能并生成上下文解释。通过使用技能思维作为指导,Thanos 模型能够缩小回应选项,提高推理速度。该研究的关键洞察包括:人类自然地根据社交背景选择对话技能,这个过程可以被建模;提供技能指导有助于减少对话生成中的一对多问题;单一的技能专家代理比多个专门的代理更高效;技能思维促进了通过伦理技能选择的社会正向行为。实验结果表明,Thanos 模型在人类评估中获得了高分,在技能分类和回应生成任务中超过了基线模型,并在不同对话场景中展现了良好的泛化能力。当作为增强的输入提示使用时,模型在回应质量方面显示出了显著改进。

工程

  1. 通过查询重写(QR)和新的语义重排器(SR)功能,提升检索增强生成(RAG)的性能,提高搜索结果的相关性和效率:QR 利用小语言模型快速生成查询重写,提高了召回率和搜索相关性,且无额外费用。 SR 采用交叉编码器模型,提升搜索结果的相关性和性能,降低了延迟。文章进一步解释了三个关键概念:查询重写、召回率和交叉编码器,以及它们如何在 Azure AI Search 中提升搜索性能。查询重写能够提升召回率,处理用户输入问题,扩展查询语义。召回率是衡量系统检索完整性的重要指标,权衡关系与精确率。交叉编码器能够深度捕捉查询和文档之间的语义关系,提供更精确的相关性评分。最后,文章总结了向量查询与交叉编码器的结合使用,以及这些新功能对开发者和用户体验的提升。

  2. 什么是Agentic RAG :Agentic RAG 是 RAG 技术的一种进化,它通过引入智能代理来克服传统 RAG 方法的局限性。智能代理具备角色和任务,能够访问记忆、规划和外部工具,如计算器、网络搜索等,以提高信息检索和生成响应的质量。Agentic RAG 的核心是智能代理,它可以是单一的或者多个代理组成的系统,后者能够更好地协调和执行复杂的任务。与传统的 RAG 相比,Agentic RAG 允许多步骤检索、查询预处理、使用外部工具以及对检索到的上下文进行验证。实现 Agentic RAG 可以通过使用语言模型的函数调用功能或者利用专门的代理框架,如 DSPy、LangChain 等。企业采用 Agentic RAG 的原因包括它能够产生更准确的响应、自主完成任务以及更好地与人类协作。尽管 Agentic RAG 有其优势,但它也存在一些局限性,如可能增加延迟、LLM 的不可靠性以及代理可能无法充分完成任务的风险。

    与传统的 RAG 相比,Agentic RAG 的主要区别在于:

    1. 工具使用的泛化:Agentic RAG 允许智能代理使用各种外部工具和 API,如网络搜索、计算器等,而传统 RAG 通常只依赖单一的外部知识源。
    2. 多步骤检索:Agentic RAG 可以执行多轮的信息检索和处理,而传统 RAG 通常只进行一次性的信息检索。
    3. 查询预处理:Agentic RAG 能够在实际检索之前对查询进行预处理,以优化检索过程。
    4. 检索内容的验证:Agentic RAG 的智能代理可以对检索到的信息进行评估和验证,以确保响应的准确性和可靠性,而传统 RAG 缺乏这种验证机制。
  3. 火山引擎基于大模型 ChatBI 的演进与实践:这篇文章分享了火山引擎的 DataWind 平台在大模型 ChatBI 的基础上的演进与实践。首先,从 BI 平台的演进趋势谈起,DataWind 从最初的报表平台发展到全民数据分析时代,再到智能化的数据分析与处理,不断完善其核心能力。随后,详细剖析了 DataWind 在数据生产、分析、决策与洞察等方面的能力矩阵,强调了其核心价值在于 “零门槛、全自助、强协调、强协作”,以及与大模型结合的深度融合。接着,文章举例说明了 DataWind 在抖音集团内部的实际应用场景,包括数据产品工具的使用、AI+BI 的探索与落地、以及数据消费与决策的各种功能。最后,总结了 DataWind 在数据生产与加工领域的实践,并展望了未来的发展趋势,包括垂类场景的深度挖掘、指标治理与应用、AI 能力的深化以及多边系统协同等。

  4. 微软推出了新的 LazyGraphRAG 模型,大幅降低了成本,同时保持了高质量的问答性能:微软的 LazyGraphRAG 项目是对原有 GraphRAG 模型的改进,旨在解决成本和速度问题。

    1. LazyGraphRAG 相对于传统的向量 RAG(或 “语义搜索”)的关键优势在于,它能够回答涉及整个数据集的全局查询,同时在局部查询上也表现出色。
    2. LazyGraphRAG 通过在查询时动态生成数据索引,避免了完整 GraphRAG 成本的 0.1% 的前置索引成本。
    3. 与向量 RAG 相比,LazyGraphRAG 在本地查询中优于所有竞争方法,包括长上下文向量 RAG 和 GraphRAG DRIFT 搜索,以及 GraphRAG 本地搜索。
    4. LazyGraphRAG 在全局查询时,提供的答案质量与 GraphRAG 全局搜索相当,但查询成本低了 700 多倍。
    5. LazyGraphRAG 在查询成本的 4% 时,在本地和全局查询类型上显著优于所有竞争方法,包括 GraphRAG 全局搜索。
    6. LazyGraphRAG 的索引成本与标准向量 RAG 相当,且随着相关性测试预算的增加,其性能可以进一步提升。
    7. LazyGraphRAG 通过迭代加深的方式结合了最佳优先和广度优先搜索的动态,提高了答案生成的效率。
    8. LazyGraphRAG 在性能上优于一系列专门的查询机制,适用于一次性查询、探索性分析和流式数据用例。
    9. 尽管 LazyGraphRAG 具有许多优势,但微软研究团队认为,不是所有的图形使能的 RAG 都应该采用懒惰方法,因为预先总结的数据索引在其他场景中也具有价值。
  5. Qwen团队开源 QwQ:QwQ-32B-Preview 是由 Qwen 团队开发的一个对标 o1 的实验性研究模型,旨在增强 AI 的推理能力。该模型在语言切换、推理循环、安全性和能力差异等方面存在局限性,但在数学和编程领域表现出色。通过对 16 张扑克牌的逻辑推理样例的分析,QwQ-32B-Preview 展示了其深度自省和推理能力,最终确定了一张特定的扑克牌。

产品

  1. Hugging Face 推出了 GGUF-my-LoRA 平台:随着 llama.cpp 对 LoRA 支持的重构,Hugging Face 推出了 GGUF-my-LoRA 平台,以便更容易地将参数高效微调(PEFT)的 LoRA 适配器转换为 GGUF 格式,以便与 GGUF 基础模型一起加载运行,简化了模型微调的流程。

    LoRA(Low-Rank Adaptation,低秩适配)是一种用于高效微调大语言模型的机器学习技术。可以将 LoRA 想象成给一个大型通用模型添加一小组专门的指令。与重新训练整个模型(既昂贵又耗时)不同,LoRA 允许你高效地为模型添加新功能。例如,可以快速将一个标准聊天机器人适配用于客户服务、法律咨询或医疗保健,每个场景只需要一组小的额外指令,而无需创建全新的模型。

    PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)是 Hugging Face 的一个库,用于实现像 LoRA 这样的高效模型微调技术。

  2. Anthropic 宣布发布 Model Context Protocol(MCP),这是一种新的标准,旨在帮助 AI 助手更好地连接到数据所在的系统:Anthropic 推出了 Model Context Protocol(MCP),这是一个开源的标准,旨在帮助前沿 AI 模型更有效地与数据源连接,包括内容仓库、商业工具和开发环境。MCP 的目标是解决 AI 助手即使具备高级推理和质量提升能力,但由于与数据隔离而受限的问题。通过 MCP,开发者可以构建安全的双向连接,使 AI 系统能够更简单、可靠地访问所需数据。MCP 的架构简单,允许开发者通过 MCP 服务器暴露数据,或者构建连接到这些服务器的 AI 应用。Anthropic 发布了 MCP 的三个主要组件:MCP 规范和 SDK,Claude Desktop 应用中的本地 MCP 服务器支持,以及一个开源的 MCP 服务器仓库。Claude 3.5 Sonnet 能够快速构建 MCP 服务器实现,使得组织和个人可以轻松地将重要数据集连接到各种 AI 工具。Anthropic 还提供了一些预构建的 MCP 服务器,用于流行的企业系统,如 Google Drive、Slack、GitHub、Git、Postgres 和 Puppeteer。

    一些公司如 Block 和 Apollo 已经将 MCP 集成到他们的系统中,而开发工具公司如 Zed、Replit、Codeium 和 Sourcegraph 正在使用 MCP 来增强他们的平台,使 AI 代理能够更好地检索与编码任务相关的信息,并以更少的尝试生成更细致和功能性的代码。开发者可以开始构建和测试 MCP 连接器,Claude for Work 的客户可以在本地开始测试 MCP 服务器,并将 Claude 连接到内部系统和数据集。Anthropic 计划提供用于部署远程生产 MCP 服务器的开发者工具包,以服务于整个 Claude for Work 组织。

  3. 利用嵌入模型为文本添加”隐形水印”:Jina AI 提出了一种基于嵌入模型的文本水印技术。这种技术不仅能够在不改变文本原有意义和可读性的前提下,隐藏地将作者的签名嵌入到文本中,而且这种水印能够抵抗各种内容转换,如使用大语言模型(LLM)进行改编或翻译。文章详细介绍了文本水印的关键要求:保持语义不变、对人类读者几乎不可察觉、能够被机器检测到,并且对内容转换具有不变性。接着,作者描述了文本水印系统的构建过程,包括输入文本、水印表、嵌入模型、水印词汇、注入器、水印文本等组件。其中,水印表是一个秘密的词汇库,包含了可以在不同上下文中自然融入的词汇;嵌入模型用于选择语义上合适的水印词汇以及检测潜在的改编文本;注入器则负责将水印词汇无缝插入到输入文本中。文章还提供了算法和实现细节,包括使用 jina-embeddings-v3 模型和 gpt4o 服务来选择和注入水印词汇,以及模拟内容盗窃者的行为。通过实例分析,文章展示了水印词汇在原文、改编文本和翻译文本中的检测过程,证明了基于嵌入模型的水印技术的有效性和跨语言的鲁棒性。最后,文章指出了改进水印系统的几个方向,如扩大和多样化水印表、优化注入器的插入策略,以及对水印词汇的分布进行更细致的控制。

  4. 纳米搜索:360 公司推出的一款新一代 AI 搜索引擎,它通过深度学习和自然语言处理技术,实现了多模态搜索的功能,能够理解和处理文本、图片、音频等多种类型的数据。此外,纳米搜索还具备一键生成短视频的能力,用户可以通过输入关键词,快速获取到与搜索内容相关的短视频。

    AI搜索看重的就是准和快,现在所谓慢思考搜索模式,就是准确度差太多了,只能牺牲速度了,最怕慢思考之后给的结果还是一坨屎,Kimi的深度搜索使用了几次效果就很一般。

  5. 智谱AI推出了 AutoGLM 和 GLM-PC,这两款产品分别实现了在手机和电脑上自主执行复杂任务的能力。AutoGLM 能够执行超过 50 步的长步骤操作,跨 app 执行任务,支持短口令和随便模式,以及在多个网站上实现无人驾驶的上网体验。GLM-PC 则是面向 “无人驾驶” 电脑的一次技术探索,能够帮助用户预定和参与会议、处理文档、搜索和总结网页内容,以及执行远程和定时操作。

市场

  1. AI 影响最大的行业?LLM 如何让教育产品化:教育一直被认为是会被LLM改变最大的行业之一。ChatGPT 的使用场景中,教育占据了很大比重,其用量常随开学和假期规律波动。而 Andrej Karpathy 也选择了教育作为他的创业方向。人们都期待能够有全能的AI Tutor,因材施教,提供给每个人最好、最个性化的教育。虽然 AI Tutor 的理想还没有实现,但随着 LLM、Voice Agent、多模态理解和 o1 等 AI 能力的不断提升,创业公司在教育领域解锁了越来越多的应用场景。LLM+EdTech 的核心,是将传统教育服务转化为产品。这一趋势在语言学习、拍照搜题等细分领域尤为明显。例如,基于 LLM 和 Voice Agent 的语言导师,通过自然对话提升降低外教门槛;基于多模态理解的拍搜应用,为基于图片的问题提供了更精准的解答。o1 的推出也为数学和逻辑推理相关的学科场景打开了新的可能性。而应用层创业公司的价值在于提供 ChatGPT 等大模型做不到的体验——提供更懂用户需求、更贴合实际场景的功能。例如,通过优化产品设计,让用户更愿意在产品中互动,获得更直接的反馈。本文是对 AI & Edu 赛道的梳理。
  2. 中国AI+营销趋势洞察与企业落地建议

观点

  1. OpenAI创始人Sam最新访谈

    • OpenAI 需要从非营利组织转变为有利可图结构,以吸引更多资本来扩大计算机的规模,这对于保持在扩展研究的最前沿至关重要。
    • 政府理论上可以无限制地推进技术创新,但在实践中,企业在某些方面更具有这种能力。
    • 监管对于 AI 的发展至关重要,过多的监管会减缓创新,而监管不足则会导致一系列其他问题。
    • AI 在科学发现中的应用将大大提升科学发现的速度,这是让世界可持续变得更好的方式。
    • 人们会从与 AI 互动的体验中获得某种形式的陪伴感,但真实人类的需求将增加,而不是减少。
    • 技术可能会推动公平,但需要通过建立紧密的反馈循环来进行引导,以观察和解决问题。
    • AI 时代可能需要转向某种形式的资本税,而不是仅仅通过对收入和企业利润征税。
    • OpenAI 不应该拥有独自制定规则的权力,而是应该通过民主性和权力制衡来达成共识,AI 可以帮助实现这一点。
  2. 面向AI搜素撰写内容:本文首先指出,一些作者开始为大语言模型(LLM)编写特定的文本,而不是为人类直接消费。这种趋势可能受到版权和广告收入的影响,甚至可能导致诉讹,如《纽约时报》对 OpenAI 和微软提起的版权侵权诉讼。然而,有些开发者希望通过编写 LLM 友好的文档来帮助这些模型更好地理解和使用他们的软件库。LLM 在处理复杂网站方面不如人类,但在阅读长篇密集的文本方面更胜一筹。因此,为了帮助 LLM 理解,可能需要编写单独的、简化的文本,而这对人类来说可能是笨拙的。

什么是Agentic RAG?|莫尔索随笔 Vol.30

https://liduos.com/the-memeber-newsletter-30.html

作者

莫尔索

发布于

2024-12-02

更新于

2025-01-05

许可协议

评论