Vol.26:AI Agent 应用、商业化以及当前行业的现状

大家好!Weekly Gradient 第 26 期内容已送达!

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

论文

  1. StructRAG:通过推理时的混合信息结构化提升LLMs的知识密集型推理:论文详细介绍了 StructRAG 模型的设计理念和实现细节,它是为了解决 GraphRAG 在处理大规模图数据时速度慢的问题而提出的。StructRAG 通过引入结构感知的机制,能够更有效地处理图结构数据,同时保持了高准确性。该模型在多个实验中展现了优于 GraphRAG 的性能,尤其在处理大规模图数据时,显示出了显著的速度提升。此外,论文还讨论了 StructRAG 在不同场景下的应用潜力,以及未来可能的改进方向。

  2. KAG:通过知识增强生成在专业领域提升LLMs:KAG 框架在 9 月份发布并最近开源,它提出了一种针对大语言模型友好的知识表示方法 LLMFriSPG,该方法通过概念将实例和概念分开,以实现与 LLMs 更有效的对齐。KAG 框架还包括了知识图谱与原始文本块之间的相互索引机制,以及一个基于逻辑形式的混合推理和求解引擎。这些创新使得 KAG 在 2wiki 和 MuSiQue 数据集上的 EM 指标直接翻倍,并在蚂蚁集团的电子政务问答和电子健康问答场景中表现出更高的准确性。KAG 框架的核心在于构建了一个从数据到信息再到知识的层次化表示,包括实体类型、概念类型、归纳关系和可执行规则等数据结构定义。它支持从数据到信息再到知识的层次化表示,并通过信息提取、领域知识注入和约束、预定义知识结构等方式,实现了知识和信息的层次表示。相互索引机制是 KAG 框架的关键部分,它通过语义分块、信息提取与描述性上下文、领域知识注入和约束、预定义知识结构以及文本块向量与知识结构的互索引等技术,提高了知识表示和检索的效率。KAG 框架的混合推理引擎能够将自然语言问题转化为结合语言和符号的解题过程,通过逻辑形式规划、逻辑形式推理和逻辑形式检索等方法,提升了问题解决的能力。知识对齐策略是 KAG 框架的另一个亮点,它通过知识对齐的必要性、概念图的利用、语义关系的分类、增强索引和增强检索等策略,解决了知识对齐时的挑战,提高了检索的专业性和逻辑性。

    KAG 框架的核心模型优化了LLMs的三个关键能力:自然语言理解(NLU)、自然语言推理(NLI)和自然语言生成(NLG)。通过单次推理(Onepass Infere)的方法,KAG 框架减少了系统复杂性和建设成本,同时提高了模型的性能.

  3. AI 搜索的16个局限性及针对性建议

    答案文本设计建议

    • S-I:对于偏导性或可能带有偏见的问题,应提供中立、平衡的答案,避免强化用户偏见。
    • S-II:答案应包含客观细节,如数据和统计信息,以支撑所做声明。
    • S-III:去除无关信息,确保答案内容直接相关于问题。
    • S-IV:答案引擎应透明展示来源选择和使用的理念,增强用户信任。

    引用设计建议

    • C-I:所有声明都应有适当引用支持,不足以证明的内容应去除或标注其相关性。
    • C-II:答案引擎应核实引用的准确性,避免错误归属或上下文失真。
    • C-III:对于需要多重支持的声明,应全面引用所有相关来源。
    • C-IV:确保引用的来源数量与构建答案实际使用的来源数量一致。

    来源设计建议

    • S-I:答案引擎应优先考虑权威专家来源,特别是在提供明确答案时。
    • S-II:模型应精简检索来源,确保仅采用构建准确、上下文合适回答所必需的来源。
    • S-III:系统应明确区分来源内容与模型自生内容,以提升透明度和信任度。
    • S-IV:答案引擎应辨识并优先使用最可信、相关的来源类型。

    用户界面设计建议

    • U-I:接纳人类反馈对搜索结果和生成内容的评价,以提升答案的准确性和相关性。
    • U-II:实施交互式引用功能,如悬停弹出窗口,以增强用户对信息来源的理解和验证。
    • U-III:采用段落级引用,明确标注引用信息及来源,提高透明度。
    • U-IV:在信息不足以直接回答问题时,答案引擎应避免提供误导性或无关的答案。
  4. AutoRAG:用于优化检索增强生成管道的自动化框架:AutoRAG 是一个自动化的 RAG Pipeline 优化工具,它能够评估多种 RAG 模块组合,并帮助用户找到最适合其特定用例的 RAG Pipeline。该工具支持 16 种解析模块、10 种切块模块和 40 种检索、排序、生成模块,以及 15 种评价指标。为了优化 RAG,用户需要准备两种数据集:QA 数据集和 Corpus 数据集。AutoRAG 的使用流程包括设置 YAML 文件、运行评估、评估完成后选择最佳的 RAG Pipeline 并部署。

工程

  1. 深入探讨prompt工程(Anthropic官方 ):主要探讨了 AI Prompt 工程的深入应用,分享了 Anthropic 官方对 prompt 工程的讨论,以及如何通过提升技术能力展示技术方案,并讨论了成为优秀提示工程师的特质、优化 prompt 的方法、角色扮演和隐喻在提示中的应用、以及提示技能的提升技巧等。

    本文是Anthropic官方在youtube的一个播客文字版,原播客地址 AI prompt engineering: A deep dive

    参与讨论的四位专家及主要观点:

    • Alex Albert (Anthropic开发者关系负责人)

      1. 提示工程师需要理解模型如何解读指令
    • David Hershey (主要负责客户服务工作,专注于协助客户进行fine-tuning以及解决语言模型应用和系统构建中的各类问题)

      1. 提示工程师需要基于实际用户行为而非理想情况来设计提示。
      2. 写下任务指令是一项极其具有挑战性的工作
      3. 许多人在写提示词时往往只是简单地写下自己知道的内容,而没有系统地分析完成任务所需的完整信息集。
      4. 在与客户交流时,经常听到他们过分关注这个内容在互联网上出现了多少次这样的问题。这种基于互联网内容的直觉虽然有其基础,但在实际进行提示时往往被过度应用,因为模型已经经过了其他处理步骤。
    • Amanda Askell (负责领导一个致力于提升Claude诚实度和友善度的微调团队)

      1. 提示工程师需要具备清晰沟通能力,能够准确地陈述事物、理解任务、思考和描述概念
      2. 人们往往误认为提示工程是写一次就完成的工作,但实际上这是一个持续迭代的过程
      3. 优秀的提示工程师还需要能预见并应对各种可能出错的情况
      4. 一种改进提示词的方法。她在给出初始提示词时,会要求模型不要直接执行指令,而是先分析指令中不清晰或存在歧义的部分。
      5. 一个常被忽视的方法是直接询问模型为什么会出错,并请求提供改进后的指令版本
      6. 对AI模型采取永不轻信的态度
      7. 对于提示任务,每次查询都能获得较强的信号,因此精心设计的几百个提示可能比数千个不够精确的提示更有价值
      8. 一些研究者没有充分重视实验中的提示词组件,但实际上提示词的优化可能导致模型性能在前5%、前1%或前0.1%之间产生显著差异
      9. 对于如何判断任务是否可能通过完美的提示词来实现,Amanda Askell表示通常是通过观察模型是否理解任务来判断。
      10. 角色扮演是一个著名的提示技巧,但他观察到这种方法在不同模型中显示出混合的效果,可能在较早的模型中效果更好
      11. 编写提示词时,首先假设对方是一个缺乏具体背景但了解很多世界知识的人,先尝试这种方式,如果不奏效再进行调整。
      12. 在设计提示词时,人们常常忽视处理边缘情况
      13. 在提示词中明确指出:当遇到异常且模型不确定该如何处理时,应输出带标签的unsure
    • Zach Whitten (作为prompt engineer,从个别客户服务转向开发prompt generator和教育材料,致力于提升社会整体的prompting水平)

      1. 提示工程的本质是尝试让模型完成任务,通过清晰的沟通来实现原本无法完成的目标**
      2. 提示工程中的工程体现在其独特的试错过程
      3. 提示应避免过度抽象,关键是清晰地描述任务。同时,提示需要像代码一样进行版本控制和实验管理。这形成了一个独特的范式:文本提示实际上承担了代码的功能,需要采用相应的管理方法
      4. 在提示工程中仔细阅读模型输出的重要性。正如机器学习领域中查看数据是基本原则一样
      5. 文本提示的经验很难迁移到图像领域,特别是多示例提示在图像处理中的效果远不如文本
  2. 《Practices for Governing Agentic AI Systems》白皮书:Agentic AI这一概念源起于2023年12月,在白皮书中,OpenAI将Agentic AI系统定义为在有限的直接监督下追求复杂目标的人工智能系统,并提出了一套确保Agentic AI系统安全和负责任的初步实践方法,为理解、管理和控制Agentic AI提供了一个全面的框架。近期,Gartner发布《2025年十大战略技术趋势》,也将Agentic AI列为第一大趋势。

    Agentic AI系统实践框架

  1. data-formulator:微软开源了一个结合 AI 能力的数据可视化工具,使得用户可以通过界面和自然语言混合输入方式来创建数据可视化。该工具利用 AI 智能帮助用户自动化完成数据提取、转换等步骤,极大简化了可视化流程,并能够对用户的截图和复杂文本进行有效解析和提取。
  2. 从通才到专家:AI 系统向复合 AI 的演变:本文从单体架构和微服务架构的演变切入,揭示了复合AI系统如何通过模块化的方式优化任务执行,提升灵活性与精准度。以Databricks Mosaic AI平台为例,作者Yared Gudeta分析了复合AI在维护系统中的应用实例,展示了该系统如何整合向量嵌入、图数据库和大语言模型以高效解决复杂问题。

产品

  1. ChatGPT 搜索功能正式上线:ChatGPT 可以根据问题自动选择是否进行网页搜索,用户也可以手动操作。此外,ChatGPT 结合网页信息,以自然对话方式提供更好的答案,并且可以通过追问深入探讨,同时考虑聊天的完整上下文。OpenAI 还与新闻和数据提供商合作,增加了新信息和视觉设计,聊天中提供了来源链接,并且任何网站或出版商都可以选择参与。搜索模型是基于 GPT-4o 的微调版本,未来将继续改进搜索功能,并扩展到更多用户和场景。目前,ChatGPT Plus 和 Team 用户以及 SearchGPT 等待列表的用户可以使用这一功能。企业和教育用户将在未来几周内获得访问权限,而免费用户将在未来几个月逐步开放。
  2. 腾讯推出结合AI搜索知识库类产品ima:腾讯最新发布的 ima 定位为 “会思考的知识库”,它的 AI 搜索能够利用公众号文章内容,这些通常在其他搜索引擎中无法索引的高质量内容,使得 ima 能够产出优质的搜索结果。用户可以通过 ima 的 AI 搜索功能查询信息,并且可以进一步深入研究,扩展搜索范围到全网内容。ima 还支持用户创作长文,能够输出 2500 字的文章,优于市场上的其他大模型。ima 的知识库功能允许用户上传文档或保存 AI 搜索结果,并可以通过知识库内容进行 AI 问答。知识库界面清晰,还可以为每个文档生成脑图,帮助用户组织和整理信息。ima 笔记功能使得用户可以随时记录想法,并且可以在笔记中唤起 AI 进行内容的扩写、缩写和翻译。此外,ima 的 AI 还能够在笔记中绘图,并且支持对专业术语的解读。
  3. Recraft文生图模型:该模型由 AI 初创公司 Recraft 开发,在 Hugging Face 的文本转图像排行榜上获得了第一名的成绩,其 ELO 评分为 1172,超越了其他多个知名 AI 模型,如Flux、Midjourney。Recraft V3 模型以其在文本生成、设计控制和风格精确控制方面的优异表现而受到关注。它能够生成包含长文本的图像,允许用户控制文本的大小和位置,以及精确的样式控制,支持矢量艺术和风格一致性的 API,为设计师提供了强大的工具。

市场

  1. AI Agent 应用、商业化以及当前行业的现状:澜码科技 CEO 周健深入探讨了 AI Agent 的应用、商业化以及当前行业的现状,包括 AI Agent 的技术特性、商业价值、在不同行业的应用案例、以及与传统 SaaS 的区别和对企业运作的影响。
  2. 2024 年的 SaaStr Annual 大会回顾了全球企服和 SaaS 市场的发展,强调了 AI 的兴起和 SaaS 的持续发展。
  3. AI在文创领域的市场应用现状

观点

  1. 生成式 AI 不仅仅是创造旧媒体内容的工具,它本身就是一种新媒体:Valenzuela认为Runway 不是一个 AI 公司,而是一个媒体和娱乐公司,因为 AI 正变得与电力或互联网同样基础,每个公司都将利用 AI。Runway 从七年前就开始将 AI 视为故事讲述的必要工具,并通过建立顶尖的研究团队和产品,为这一愿景而努力。Valenzuela 将 Runway 的工作比作新型的相机,它不仅仅是捕捉图像,而是有潜力孕育整个产业、经济和艺术形式。他认为 AI 正如相机一样,将改变我们创造现实的方式,而这只是开始,AI 的模型和技术能力将像最初的照相术一样,虽然原始但充满可能性。

    Valenzuela 指出,许多人错误地将 AI 视为最终目标,而实际上 AI 只是使得更大事物成为可能的机制。真正的革命在于 AI 使得新的表达方式、故事讲述方式和连接人类经验的方式成为可能。传统媒体像一条单行道,内容通过已建立的渠道流向消费者。但现在,随着内容能够实时塑形,创作与分发之间的界限正在消失。这为全新的媒体景观奠定了基础,媒体将变得互动、生成性、个性化,同时也是共享和普遍的。随着 AI 公司的消亡,更有趣的是,我们将如何利用这些工具创造新的媒体形式和体验方式。技术基础已经建立,现在的关键是用这些工具创造有意义的内容。这标志着新媒体真正创新的开始,不仅仅是新的平台或格式,而是全新的创作和体验内容的方式。

Vol.26:AI Agent 应用、商业化以及当前行业的现状

https://liduos.com/the-memeber-newsletter-26.html

作者

莫尔索

发布于

2024-11-04

更新于

2025-06-25

许可协议

评论