RAG 在企业落地中的挑战|莫尔索随笔 Vol.12
⼤家好,会员计划第 12 期会员通讯已送达!论文部分提到了大模型的归因问题,斯坦福提出了统一归因框架以帮助开发者安全验证大模型。接着,详细讨论了 RAG 技术的最佳实践方法,包括对不同 RAG 模块的优化研究,以及提出的两种 RAG 实施策略。此外,介绍了 LLM 路由原则框架 RouteLLM,以及 Mooncake 等技术报告,这些技术旨在提高资源利用率和系统性能。在工程领域,探讨了构建面向表格智能任务的大语言模型,以及基于知识图谱的 RAG 实现案例。产品部分展示了 Kyutai 等公司发布的实时语音多模态模型,以及 CodeGeeX 第四代模型的发布。市场部分分析了 AI 大模型对营销行业的影响,并提供了对话腾讯汤道生的访谈摘要。最后,观点部分讨论了大模型对程序员和产品经理角色的影响,以及 RAG 在企业应用中面临的挑战,包括数据安全、准确性、可解释性和可扩展性等方面。
论文
大语言模型中佐证性和贡献性归因的统一:ChatGPT 等大模型的应用日渐广泛,对其输出内容的真实性和安全性提出了挑战。学术界提出了“归因”概念,其中有协同归因和贡献归因两种方法。协同归因旨在验证模型输出的准确性,可通过生成引文或参考文献并检索相关知识来实现,贡献归因则评估训练数据对模型输出的影响程度。斯坦福提出了“统一归因”框架,集成了这两种方法,以帮助开发者对大模型进行安全验证。
RAG 技术的最佳实践方法:这篇论文主要研究了 RAG 技术的最佳实践方法,从 RAG 整体工作流、每个步骤的不同方法选择、实验对比方法,来论证 RAG 过程的影响因素。作者采用了逐步优化的方法来寻找 RAG 系统中每个模块的最佳实践。 首先确定了每个 RAG 步骤的代表性方法,然后逐一测试这些方法对整体性能的影响,在多个 NLP 任务和数据集上进行了广泛的实验,以评估不同 RAG 配置的性能。 使用了包括准确性、F1 分数、精确匹配分数和 RAG 分数等多种评估指标。实验结果显示,每个 RAG 模块都对系统的整体性能有独特的贡献,而且通过精心选择和组合这些模块,可以实现更高效和更有效的 RAG 系统。 论文提出了两种 RAG 实施策略:一种是优先考虑性能的策略,另一种是在性能和效率之间取得平衡的策略。
RouteLLM: Learning to Route LLMs with Preference Data:LLM 最权威评估榜单维护者 lmsys 开源 RouteLLM(LLM 路由)提供了一种解决方案,其中每个查询首先由一个系统处理,该系统决定将其路由到哪个 LLM。理想情况下,所有可以由较弱模型处理的查询都应路由到这些模型,而所有其他查询则路由到较强模型,以最大限度地降低成本,同时保持响应质量。RouteLLM 是一个基于偏好数据的 LLM 路由原则框架,它形式化了 LLM 路由问题,并探索增强技术以提高路由器性能。使用 Chatbot Arena 的公共数据训练了四种不同的路由器,并证明它们可以在不影响质量的情况下显着降低成本。相较于仅使用 GPT-4,在 MT Bench 上的成本降低了 85%以上,在 MMLU 上的成本降低了 45%,在 GSM8K 上的成本降低了 35%,同时仍能实现 GPT-4 性能的 95%。训练了四种路由器的方式包括:
- 相似度加权(SW)排名路由器,根据相似度执行“加权 Elo 计算”
- 矩阵分解模型,用于学习评分函数,评估模型回答提示的能力
- BERT 分类器,可预测哪个模型可以提供更好的响应
- 因果 LLM 分类器,还可预测哪个模型可以提供更好的响应
Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving:月之暗面发布了 Kimi 的底层推理平台 Mooncake 的技术报告,Mooncake 是 Moonshot AI 提供的领先大规模语言模型(LLM)服务 Kimi 的服务平台。其特色在于采用了一种以 KVCache 为中心的分散式架构,这种架构将预填充(prefill)和解码(decoding)集群分离。此外,Mooncake 还利用了 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分散式缓存,从而提高了资源利用率。Mooncake 的核心是一个围绕 KVCache 优化的调度器,该调度器在满足与延迟相关的服务等级目标(SLOs)的同时,力求最大化整体的有效吞吐量。
工程
构建面向表格智能任务的大语言模型:文档智能是指模型自动阅读、 理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向,文档中可能包含多种元素,包括文本、图片、表格等,面对复杂多样的文档元素,文档智能模型需要理解文档图像中的信息并完成下游任务,比如文档信息抽取、文档视觉问答等,这其中当然包括回答关于文档中表格的问题。这个项目从 ChatGPT 识别表格的局限性出发,探讨了不同类型的表格及其表示方法,总结了表格问答、表格事实验证、表格基础结构理解、文本到表格绘制等不同任务来评估模型识别表格的能力,最后比较了国内外已有的表格智能产品的技术实现和优劣。
meet-libai:知识图谱是一种基于语义的知识表示模型,可以将结构化的知识以图的形式展现出来,使机器能够更好地理解和处理自然语言。基于知识图谱技术,可以开发出针对特定主题的问答系统。比如,构建以诗人李白为核心的古诗词文化知识图谱,并基于此实现问答功能,为用户提供诗词相关的信息查询服务。同时,对知识图谱进行可视化探索,有助于更好地理解其内部结构和内容。这个项目通过构建李白知识图谱的 AI 智能体,以生成式对话应用的形式,推广及普及李白古诗词文化,一个非常全的基于知识图谱实现 RAG 的案例。
GraphRAG:微软正式开源的项目,基于知识图谱构建的 RAG 方案,GraphRAG 在索引阶段将输入切分成 TextUtils,使用 LLM 提取三元组和实体关系、使用 Leiden 对图进行聚类分层形成层级社区,并且提供每个社区的语义化摘要,检索环节分为Global 搜索 (利用社区摘要进行全局搜索)和 Local 搜索(查询特定实体相邻或相关概念搜索),当前语义搜索只考虑 K 个最相似的文本块,并无依赖关系,甚至可能是表面相似的答案,Global Search 则是针对 Indexing 阶段建立的社区摘要形成对图谱数据的整体理解,提供了事实性的支撑,详细的技术实现介绍,前往阅读。
gptpdf:一个仅用 293 行代码将 PDF 解析为 Markdown 的开源工具 gptpdf,首先使用 PyMuPDF 库,对 PDF 进行解析出所有非文本区域,并做好标记,然后使用视觉大模型(如 GPT-4o)进行解析,得到 markdown 文件。
- 它首先将每一页 PDF 内容生成一张图片
- 检测其中有没有图片、表格,如果有图片、表格,就找出位置和尺寸,画上红框,标上编号
- 提示词里面说明,红框里面的是图片,不需要 OCR,使用 Markdown 的图片标记直接显示即可 Prompt:“图片中用红色框和名称(%s)标注出了一些区域。如果区域是表格或者图片,使用
![]()
的形式插入到输出内容中,否则直接输出文字内容。”
不过由于模型的幻觉问题,有时候会红把框内的内容也生成 Markdown,直接把图片或表格的位置涂成纯色背景的,这样就可以保证这部分不会被 OCR,减少幻觉,非常非常好的思路。
产品
Kyutai:Kyutai 是一家法国的 AI 实验室,最近发布了一个开源的实时语音多模态模型,与 GPT-4o 相媲美。该模型能够听、说、看,而且根据演示,能够随时打断,具备模仿法国口音说英语和低语量交流的能力。虽然效果略逊于 GPT-4o,但已经非常接近。
Moshi 可在本地设备上运行。
延迟不超过 300 毫秒,同时语言模型质量可媲美 Llama 8B 模型,能够在你问问题尚未结束时就做出回应,或者当你打断模型讲话时迅速作出反应。模型具备预测编码功能,能够实时更新你要说的话。
他们的模型训练管道和架构非常简单,且具备很强的可扩展性。Kyutai 这样的仅有 8 人的小团队在 4 个月内就能完成,合成数据在这方面发挥了巨大作用。
他们的论文和模型权重将很快发布,可以关注起来。
专为实时交互场景设计的语音-文字大模型–Gazelle(https://tincans.ai/)
fixieai 发布的实验性多模态低延迟大模型Ultravox
实时语音机器人:GPT-4o 发布,让低延迟多模态 AI 热闹起来,音视频通话中,实时音视频传输和声音完成检测是两个非常重要的环节, WebRTC,用于音视频传输,这一类产品服务商有很多选择:1、TRTC: http://trtc.io 2、Agora:http://agora.io 3、Zego:http://zegocloud.com 4、Livekit: http://livekit.io 5、Daily: http://daily.co 6、Dyte:http://dyte.io 7、Twilio: http://twilio.com;VAD:Voice Activity Detection,可以使用 Silero VAD 获得更高精度体验 ,也可以通过pipecat这个项目,自定义 ASR、TTS 和 LLM、WebRTC,实现自己场景自己语言环境下的实时语音对话机器人。
Kimi 公测上下文缓存技术:Kimi 正式开始公测新技术——上下文缓存(Context Caching),该技术在 API 价格不变的前提下,可为开发者降低最高 90% 的长文本旗舰大模型使用成本,并且显著提升模型的响应速度。
CodeGeeX 第四代模型正式发布,同时提供开源版本 CodeGeeX4-ALL-9B:CodeGeeX 是智谱 AI 旗下的代码生成大模型,2022 年 9 月发布第一代模型,以每半年更新一代模型的迭代速度不断进化,致力于探索大模型代码生成能力的上限。基于模型打造的 CodeGeeX 智能编程助手,不仅支持代码补全、代码注释、代码修复、代码翻译等基础功能,还支持联网代码问答、代码解释器、检索增强等进阶实用功能。CodeGeeX 对个人用户完全免费,在各种主流 IDE 均可免费下载使用。
市场
- 盘点 34 家企业,AI 大模型给营销行业带来了哪些改变?:通过产品功能梳理,了解当前市场各类内容营销行业+AI 的企业级产品解决方案。
- 对话腾讯汤道生:AI 不止于大模型:这是中国科技大公司如何思考 AI 技术革命的一个截面。和我们此前报道的杨植麟、朱啸虎、王小川等创业者、投资人视角不同,汤道生提供了一个大企业经营者的视角看人工智能。近 4 小时访谈中,汤道生回答了诸如,“怎么看待价格战”、“在大模型上的投资思考”、“平台型企业和大模型创业公司的关系”等新鲜话题;
- AI 编码助手白皮书:InfoQ、稀土掘金、SegmentFault 思否、开源中国等技术社区联合发布的一份 AI 编码助手白皮书,从基础模型能力、产品工程能力、市场生态等盘点了各家代表性厂商的产品,以前讲软件吞噬世界,如今讲 AI 吞噬世界,而这个实现路径就是当下正在发生的 AI 吞噬软件,抛开关于商汤的 PR 部分内容不看,整个报告质量挺不错的,推荐一读。
观点
大模型吞了谁?程序员彷徨,产品经理消失)角色我觉得蛮匹配的,大家可以读读。我的理解是做基础大模型研发和做基础设施构建的程序员除外,常规做应用层的开发者写应用接口已经占整体工作很少一部分了,准备高质量数据,做微调,设计提示词,做完模型自己封装,这部分工作占用的精力很大,也基本决定了最终产品的呈现效果;反过来,作为产品经理,如果不从训练数据准备阶段就介入进来,不了解大模型项目的底层机制,只像过去一样写 PRD,画 UI,理解程度是‘画一个界面’,那最后基本没眼看,这也给了开发者介入产品设计的机会,还不如让一个人干。我觉得好的合作关系是,程序员和产品经理首先都懂大模型运行机制,对模型的能力边界达成一致,程序员聚焦在能力边界内提升模型效果,产品经理专注于模型能力和用户需求之间关系思考。
RAG 不适用于企业:文章题目有点标题党,其实可以叫做 RAG 在企业落地中的挑战,Strative(专门提供面向企业的检索增强生成(RAG)解决方案,和 salesforece、OpenAI、Pinecone 等都有合作)公司 CTO 写的。
在企业应用中,RAG 面临着重重挑战,尤其是在合规监管领域的实施。主要挑战包括数据安全、准确性、可解释性和可扩展性。文章通过调研阐明了主要挑战、企业需求和技术改进方向等。
当前 RAG 方法的调查及其局限性:
- 控制和合规性限制:现有 RAG 系统缺乏对检索和生成过程的细粒度控制,这对确保准确性、一致性和遵守法规至关重要。
- 可扩展性和性能挑战:处理大规模、异构企业知识库时,现有 RAG 系统的性能和可扩展性受限。
- 解释性和可审计性不足:RAG 输出缺乏足够解释性和可审计性,在高风险企业用例中建立信任和问责至关重要。
- 企业环境中的集成挑战:将 RAG 能力集成到现有企业系统和工作流程中具有挑战性,通常需要复杂的安全、治理和数据管理。
企业环境中 RAG 的独特要求和约束:
- 准确性、一致性和可解释性:在合规监管领域,RAG 输出通常具有法律或财务影响,需要比面向消费者的应用程序更高水平的准确性、一致性和可审计性。
- 数据安全、隐私和合规性:企业必须确保 RAG 系统符合严格的数据安全和隐私法规,如 HIPAA、GDPR 和 CCPA。
- 可扩展性和性能:企业通常拥有庞大且复杂的知识库,这给 RAG 架构带来了显著的可扩展性挑战,跨越多个领域、格式和系统。
- 集成和互操作性:企业有现有的 IT 基础设施、工作流程和安全协议,RAG 系统必须与这些系统集成,通常需要定制连接器、API 和认证机制。
- 定制和领域适应性:每个企业都有独特的数据模式、分类法和特定领域术语,RAG 系统必须适应这些以实现准确的检索和生成。
技术进步方向:
- 语义搜索技术:介绍了密集向量索引和稀疏编码索引,这些技术可以提高检索的语义精度和相关性。
- 混合查询策略:结合语义匹配和关键词匹配,以优化检索过程并提高相关性。
- 企业系统和知识库的集成策略:强调了为现有企业系统和知识库设计的 RAG 解决方案无缝集成的需求。
实验评估结果:
- 数据集和基准测试:使用包括 NQ、HotpotQA、TREC COVID 等的多个数据集和基准测试评估 RAG 系统。
- 评估指标:包括 Exact Match、F1 分数、Precision、Recall、MRR、ROUGE 分数等,用于评估 RAG 的准确性、精确性和相关性。
- 比较分析:与现有的开源 RAG 模型和商业 RAG 产品进行比较,通过消融研究隔离各个组件的影响。
- 可扩展性和性能测试:针对不同大小的知识库进行压力测试,评估吞吐量、延迟和资源利用率。
- 合规监管行业的案例研究和应用:评估在医疗保健、金融服务和法律领域中的应用。
必要性讨论:
- 定量改进:展示在多个基准和数据集上与基线相比的准确度、精确度和相关性的改进。
- 定性分析:通过领域专家和最终用户的定性分析获取关于检索结果和生成输出的反馈。
- 消融研究:通过系统性消融研究量化语义搜索和混合查询策略对整体性能的贡献。
- 企业 RAG 部署和定制的影响:讨论 RAG 性能改进对企业部署的潜在影响,尤其是在合规监管行业中。
RAG 在企业落地中的挑战|莫尔索随笔 Vol.12