如何利用大模型解决传统行业的老问题?|莫尔索随笔 Vol.7

本期分享的内容包括:通过比较不同的 RAG 评估框架(RAGAs、CDQA、RECALL、MedRAG 等),教你如何设计一个合适的 RAG 评估体系;为了提高 RAG 召回率,如何使用非 chunking 方式,对数据预处理阶段进行优化;如何结合大语言模型,从用户或商品评论中生成更精确的用户和商品档案,用于推荐系统;产品方面分享了服装行业与 AI 技术如何结合,在面料设计、产品设计、定向改款和与 ODM 供应商的协作中发挥重要作用;详细盘点了在教育、法律、金融、医疗这类高价值行业做文档处理时,是如何对化学式、数学公式、表格、图表等重要信息做准确识别和处理的,包括开源方案和商业化产品;市场方面看看 a16z 是如何解读 AI 实时语音助手市场的,包括产品及项目调研,更多内容请查看周刊全文。本期共包括 4 篇论文、5 篇工程实践相关文章、5 条 AI 产品相关和 2 条市场方面的洞见,最后在观点部分分享下为什么 Scaling Law 本身代表一个非常悲观的未来?本期内容为会员每周通讯,加入会员可免费阅读所有会员付费内容,会员计划详细信息戳此了解

论文

  1. Evaluation of Retrieval-Augmented Generation:A Survey:这篇论文提出了一个名为 RGAR(Retrieval, Generation, and Additional Requirement)的分析框架,梳理评估检索增强生成(RAG)系统时面临的挑战,并将其分为三个主要部分:检索(Retrieval)、生成(Generation)和整个 RAG 系统(作为整体)。

    检索组件的挑战
    动态和广泛的知识库:评估检索组件时需要处理知识库的动态性和广泛性,这要求评估指标能有效衡量检索文档的精确度、召回率和相关性。
    时间敏感性:信息的相关性和准确性随时间变化,增加了评估过程的复杂性。
    信息源的多样性:评估还需考虑信息源的多样性,以及可能检索到的误导性或低质量信息。

    生成组件的挑战
    忠实度和准确性:生成组件评估重点在于生成内容对输入数据的忠实度和准确性,涉及事实正确性、查询相关性和生成文本的连贯性。
    主观性:某些任务(如创意内容生成或开放式问题回答)的主观性增加了评估的复杂性,因为存在关于”正确”或”高质量”响应的变异性。

    RAG 系统作为整体的挑战
    检索与生成的相互作用:整个 RAG 系统的评估引入额外复杂性,因为检索和生成组件的相互作用意味着无法单独评估每个组件来理解整个系统性能。
    实际考虑:评估系统的整体有效性和可用性很重要。

现有RAG系统评估框架盘点

  1. Question-Based Retrieval using Atomic Units for Enterprise RAG:为了提高召回率,这篇论文提出的思路对 chunking 阶段进行优化,确切来说就是不是盲目分块,而是将块划分为基本语句,然后基于这些基本语句生成一组综合问题(以块为上下文),然后通过密集检索找到与用户查询最相关的综合问题集以及相关的块。(这是一种非常不错的 RAG 优化方式,也是我在实践中采用的,特别是在客服问答场景,这种方式能够发挥作用的关键在于能够提前掌握用户问题的分布情况)。

    图像

  2. Evaluating Task-based Effectiveness of MLLMs on Charts:这篇论文深入探讨了 GPT-4V 在图表低级数据分析任务中的表现。论文作者团队创建了一个名为 ChartInsights 的大规模数据集,涵盖了 7 类图表的 10 种分析任务。经过系统评估,结果显示 GPT-4V 的准确率达 56.13%,远高于平均水平 36.17%。为了进一步理解 GPT-4V 的局限性,作者设计了一系列实验,并探究了视觉元素变化对其性能的影响。最后,作者提出了 Chain-of-Charts 和视觉提示策略,成功将准确率提升至 83.83%。 GPT-4V 在低级数据分析中,能力还是有限。

  3. RDRec: Rationale Distillation for LLM-based Recommendation:大语言模型的推理能力已经广受认可,并在推荐系统领域取得进展,如新闻、商品推荐,一种直接的方法是通过提示词预测用户信息和商品 ID;另一种最近提出的 P5 范式,将用户-商品交互、用户行为序列和评论转化为文本提示,为 LLMs 推荐系统提供更深层次的语义理解,本文作者提出了 RDRec(Rationale Distillation)推荐系统框架,能够从用户所有相关评论或商品评论中生成更精确的用户和商品档案,用于推荐系统。代码地址https://github.com/WangXFng/RDRec

工程

  1. FlashRAG:这个项目其实是一篇论文的工程实现,提供了构建 RAG 系统的最基本组件。涵盖 32 个预处理的基准 RAG 数据集、12 种 RAG 算法以及 5 大 RAG 组件,包括检索器、重排器、生成器、精炼器和评测器。使用 FlashRAG 及其提供的资源,可轻松复制 RAG 领域的现有最新技术成果,复现一些论文中的 RAG 研究,也可自定义 RAG 流程和组件,相比 LangChain 和 LlamaIndex 更加轻量且易操作。

    img

  2. 解读大模型应用的可观测性:大模型应用并不神秘,仍然是一种软件系统。就像使用一个库或者 web 服务,以及 SaaS 乃至云计算服务,我们需要对库、服务、SaaS 以及平台进行评估、监控和追踪,这可以被粗略地认为是它们的可观测性。对大模型应用而言,也是如此。

  3. tiny-gpu: tiny-gpu 是一个最小化的 GPU 实现,经过优化后,可以从头开始学习 GPU 的工作原理。随着通用 GPU (GPGPU) 和 ML 加速器(如 Google 的 TPU)的发展趋势,tiny-gpu 专注于阐述所有这些架构的基本原理,而非特定硬件的细节。如果想学习 GPU 编程,了解 GPU 在硬件层面的工作原理,这个开源项目非常值得推荐!

  4. document-convert:海量的高质量数据以 PDF 或扫描图像的形式存在,由于布局和格式的多样性以及扫描图像质量的不一致,从这些数据构建数据集是一项具有挑战性的任务,需要将这些内容转换为类 markdown 格式方可使用。其核心问题集中在两个方面:分析布局信息(包括文本、标题、说明、图像、表格和公式),识别不同元素并处理这些布局组件之间的关系。几个出色的开源解决方案,如 PP-StructureV2、Marker、Vary 和 Nougat,每个都有待改进的地方。 PP-StructureV2 缺乏识别 LaTeX 格式内容的能力;Marker 支持的语言较少,且不能有效处理图形;Nougat 对多栏数据支持有限;Vary、Vary-toy 和 Texify 需要大量计算资源,这个方案整合开源方案的优势。

    pipeline

  5. 数据收集魔法:获取顶级训练数据的方法:ChatGPT 诞生一年多后的今天,人们逐渐理解了大模型的运行逻辑,并在积极探索其落地场景。作者团队坚信大模型是一个以数据为中心的领域(data-centric),而不是以模型为中心(model-centric)。因此,在大模型时代的探索中,积累了大量关于数据的经验和思考,数据在大模型中的作用已经不言而喻,合理地收集数据以及选择收集哪些数据是一个非常重要的话题,本篇文字详细探讨几种主要的数据收集方法,分析其优缺点和实际应用情况。

产品

  1. 公式识别类产品:在第 4 期的会员通讯种我提到了文档识别 SaaS 服务 Mathpix,谷歌 Gemini,Anthropic,Facebook 都是其客户,这篇公式识别性能报告盘点了常见 Mathpix 类产品,包括开源项目和商业化产品。为什么要提这个非常细分领域的点呢,还是源于 RAG 类产品的流行,去做教育科研、金融、医疗这类高价值行业的知识库问答,化学公式、数学公式等信息的准确识别和处理是非常关键的痛点,客户现场的测试文档案例基本就是包含图表公式的复杂元素集成。

    同类竞品

  2. AI 来了,干票大的!想改变 4 万亿服装行业的人 | 访谈「轻链」创始人 CEO Frank:本期播客节目讲述了嘉宾 Frank 创办的 AI 创业项目轻链,并介绍了 AI 技术在解决服装行业问题和创造新价值方面的应用。轻链项目帮助供应商更快地设计和推出款式,并与合作伙伴合作将其销售出去。通过与 ODM 供应商的合作,AI 工具可以帮助设计师更好地满足客户需求,实现利益分配的平衡。AI 技术还在面料设计、产品设计、定向改款和与 ODM 供应商的协作中发挥重要作用。

    又是一个+AI 的案例,Frank 代表着一类典型的 AI 创业者,他们并不是互联网背景或技术背景,而是在自己的垂直行业深耕多年到顶尖位置后,再借助 AI 创业,希望用 AI 解决行业的旧问题、赋能出新价值。因此,比起多数创业者,他们往往能更清晰地知道行业痛点,也能更准确地找到 PMF。

  3. 腾讯发布 C 端 AI 产品「腾讯元宝」:腾讯元宝是依托于腾讯混元大模型的 AI 产品,提供了 AI 搜索、AI 总结、AI 写作等核心能力,能够一次性解析多个微信公众号链接、网址,以及 PDF、word、txt 等多种格式的文档,并支持超长的上下文窗口。面向日常生活场景,支持创建个人智能体等玩法。

    值得一提的是 AI 搜索功能,搜索源覆盖了微信公众号生态内容,答案质量可以比竞品可以高一个 Level。

  4. Introducing GPT-4o and more tools to ChatGPT free users:GPT-4o 结束免费用户试用灰度测试,正式向所有免费用户全量开放,包括支持联网搜索能力、 支持上传文件进行数据分析(Python CodeInterpreter)、支持读取图片进行提问、免费使用 GPTs 和 GPT Store、以及 Memory 能力等。

  5. Unify:Unify 旨在整合 LLM 的生态系统,允许用户根据任务的需求动态地选择最合适的 LLM 模型,在质量、速度和成本之间轻松平衡。解决方案包括了一个可调整的路由系统,可以将简单的提示发送给更快更便宜的模型,而将复杂任务发送给更加强大的 LLM,如 GPT-4o、Opus 和 Gemini 等。

市场

  1. Artificial Analysis :Artificial Analysis 是目前最全面的大型语言模型性能对比网站。 它不仅基于大量数据进行了深入分析和可视化展示,还给出了质量、价格、性能、速度、上下文窗口等关键指标的详细排名。不过可惜的是,它仍然只统计国外模型,所以我对国内模型进行了统计,后续陆续接入其他指标。

    图像

  2. a16z 发布的 AI 实时语音助手市场调研:a16z 发布了关于 AI 实时语音助手的调研报告,提出了几个关键的创业洞见:

    1. 市场刚刚兴起,未来可能会出现赢家。企业可以通过语音助手降本增效,而消费者也能获得拟人级别的语音体验。

    2. 语音助手技术栈包括 ASR、LLM、TTS 等基础能力,以及情感引擎、对话引擎等扩展能力。厂商可以选择构建全栈的语音 Infra,或聚焦在特定垂类领域优化。

    3. 语音助手可以应用于 B2C 和 B2B 两个市场,为企业和消费者带来不同的价值。企业可以通过语音助手减少人力成本和提升客户体验,而消费者则可获得免费的或拟人化的语音服务。

    4. 整个语音助手市场仍存在很大的机会,无论是底层的 Infra 层,还是面向消费者或企业的应用层,都有待进一步探索和创新。制作产品时,可选择全栈平台或自行组装技术栈。全栈平台提供快速落地与定制灵活性,但成本较高;自定义技术栈则更具灵活性和成本控制。当前 AI 语音助手头部玩家包括全栈平台和组装技术栈的公司。市场正从电话呼叫向 AI 语音交互 2.0 转变,为行业定制的垂类 AI 语音产品以及作为现有产品功能扩展的 AI 语音附加服务等,均存在发展机会。

      构建 AI 语音助手的 Fullstack 平台

观点

Scaling Law 代表一个非常悲观的未来:Scaling law 也许是对的,但不会是全部,因为 Scaling Law 本身代表一个非常悲观的未来——Scaling Law 的本质是,用指数级的数据增长,来获得几个点的收益。最终人类世界可能会有很多长尾需求,需要人类的快速反应能力去解决,这些场景的数据本身也很少,LLM 做不到。Scaling law 发展到最后,可能每个人都站在一个数据孤岛上。

Sam Altman Is Full Of Shit:这篇文章对 Sam Altman 和 OpenAI 公司进行了批评,作为 OpenAI 首席执行官,Sam Altman 最近在 AI 模型 GPT-4o 发布新功能时,发生了与演员斯嘉丽·约翰逊的相关争议。OpenAI 声称该新功能的声音助手并未以约翰逊为原型,但约翰逊本人表示曾两次拒绝 OpenAI 使用她的声音。这表明 OpenAI 可能未经约翰逊同意擅自使用了她的声音特征,随后又试图掩盖这一事实。此事暴露了 OpenAI 存在伪造内容和误导公众的问题,反映出该公司缺乏透明度和诚信。近日,OpenAI 最高技术官员 Mira Murati 向《The Verge》记者 Kylie Robison 作出虚假陈述,否认”Sky”语音模型与女演员斯嘉丽·约翰逊的声音有任何相似之处。事实上,OpenAI 曾与约翰逊的代表进行过对话,希望将她的声音引入 ChatGPT,但遭到拒绝。同时,OpenAI 还解散了负责 AI 安全长期风险的团队,并有两名重要高管离职,OpenAI 近期的一系列行为都充满了可疑和谎言,CEO Sam Altman 的话也值得怀疑,他似乎更像一个游说者和说谎者,而非一名真正的工程师。OpenAI 的技术负责人 Mira Murati 曾向《The Verge》说谎,并拒绝回答其视频生成器 Sora 是否使用了 YouTube 视频进行训练。这种欺骗做法表明,OpenAI 公司及其高管缺乏道德、透明度和对用户及整个科技行业的尊重,媒体和公众应该对这些人物抱持怀疑态度,不能轻易相信他们的言论和承诺,直到他们真正交出能够证明自己实力的成果。

如何利用大模型解决传统行业的老问题?|莫尔索随笔 Vol.7

https://liduos.com/the-memeber-newsletter-07.html

作者

莫尔索

发布于

2024-06-03

更新于

2025-02-16

许可协议

评论