Vol.52 面向 AI 产品的智能体评估指南
本期介绍了 AI 产品评估的全面指南,包括如何评估 Agent(代理)的性能,如何使用评估工具和平台,以及如何选择合适的评估指标和评分函数。详细介绍了评估 Agent 的方法论、评估工具的使用效率、工具的正确性评估、以及如何平衡量化与质量指标。提供了选择合适评估指标和评分函数的策略,以及如何通过迭代评估过程来不断优化 AI 产品。同时,对述了 AI 产品经理在设定成功标准和评估指标方面的经验。此外还讨论了相关技术的最新进展,包括 RAG 技术的发展、AI 产品的改进挑战、以及不同公司和组织推出的 AI 相关工具和平台。
Agent 评估专题
谷歌 ADK 框架文档关于评估 Agent 的指导:主要面向开发者的,Agent Development Kit (ADK) 提供了一种评估代理(Agents)的方法,强调了对代理行为和决策过程的定性评估,以及如何通过定义成功标准、识别关键任务和选择相关指标来准备代理评估。
评估平台 Confident AI 提供的 Agent 评估教程:主要面向开发者,建议的内容非常细节,实操性很强
评估 LLM 代理的工具调用效率
- Redundant Tool Usage: 评估不必要的工具调用次数,计算未使用的工具数量相对于总工具调用次数的百分比。
- Frequency Flexibility: 确认每个工具被调用的次数与完成任务所需的次数是否合理,避免不必要的重复调用。
- Tool Sequence Optimization: 优化工具调用序列,确保工具被按照最有效的的顺序调用以达到任务目标。
- Output Accuracy Assessment: 验证工具生成的输出是否与预期的真实情况相匹配,可能包括对输出的百分比偏差计算。
- Flexibility in Scoring: 在评估工具调用效率时,考虑使用 LLM 作为评判标准,通过比较工具调用轨迹与可用工具列表来评估效率。
评估 LLM 代理的工具正确性
- Tool Selection: 确认代理调用的工具是否与完成任务所需的理想工具集相符,这通常涉及确定正确的工具并使用它们。
- Input Parameters: 评估被传递给工具的输入参数的准确性,确保这些参数与预期的真实参考值相匹配。
- Output Accuracy: 验证工具生成的输出是否准确无误,与预期的最终结果相比,确保输出的Relevance 和 Correctness。
- Order Independence: 在某些情况下,工具调用的顺序不是最重要的,重要的是所有必需的工具都被调用。
评估平台 braintrust 提供的 Agent 评估指引
平衡量化与质量指标的策略
定义明确的量化指标:选择能够清晰反映系统性能的量化指标,例如准确率、响应时间、成本效率等。
结合质量评估:在量化指标的基础上,添加质量评估,如用户满意度、系统响应的相关性和一致性等。
使用混合方法:对于某些评估指标,可以采用混合方法,结合自动化的量化指标和需要人工评估的质量指标。
迭代式评估:采用迭代式的评估方法,通过不断的反馈和调整来平衡量化和质量指标。
利用LLM作为评估工具:使用LLM(Large Language Models)作为评估工具,可以帮助对象地评估系统的某些质量指标,如语言的自然性和准确性。
定期审查和调整:定期审查和调整评估策略,确保量化和质量指标能够反映出系统的实际状况。
质量控制:确保系统的输出质量与预期的质量标准一致,通过质量控制机制确保系统的准确性和可靠性。
用户反馈:积极利用用户反馈作为质量指标的一部分,因为用户体验可以提供关于系统是否满足用户需求的宝贵信息。
多元素评估:对于更复杂的系统,结合多元素评估,如行为模式、工具效率、成本效益等,以获得更全面的评估。
自动化与人工结合:在自动化评估的基础上,结合人工评估,特别是在需要人类判断的情况下,以提高评估的准确性和全面性。
选择合适的评估指标(Metrics)和评分函数(Scorers)的策略
- 理解业务目标:首先要清楚地定义代理系统的目标和预期效果,这将指导选择哪些指标和评分函数。
- 定量与定性结合:选择既能反映系统性能的定量指标(如准确率、响应时间、成本效率等),也要包含能够反映用户体验和系统质量的定性指标(如用户满意度、系统响应的相关性等)。
- 基于系统角色的评估:根据代理系统的角色和功能选择合适的指标和评分函数,例如对于一个主要处理客户服务问题的系统,可能需要特别关注用户满意度和问题解决率。
- 使用LLM作为评估工具:利用LLM(Large Language Models)作为评估工具,可以帮助评估系统的某些质量指标,如语言的自然性和准确性。
- 迭代式评估:采用迭代式的评估方法,通过不断的反馈和调整来优化评估指标和评分函数。
- 自定义评估工具:在必要时,自定义评估工具和评分函数,以适应特定的业务需求和技术挑战。
- 自动化与人工结合:在自动化评估的基础上,结合人工评估,特别是在需要人类判断的情况下,以提高评估的准确性和全面性。
- 持续监控与优化:持续监控评估指标和评分函数的效果,并根据实际运行情况进行优化和调整。
迭代评估过程的应用:关键步骤和策略
初始评估:从一个基本的、全面的评估开始,全面检查代理系统的各项指标。
问题识别:在初始评估中识别问题和性能不足时的。
细粒度评估:针对识别出的问题,进行更细粒度的评估,深入到系统的特定环节,如数据检索、决策逻辑、用户交互等。
调整与优化:根据细粒度评估的结果,调整和优化系统的相关部分。
反馈循环:将评估结果作为反馈,将其反馈到系统设计和策略制定中,形成闭环,以便进一步的调整和优化。
自动化与人工结合:使用自动化工具进行评估,同时在需要的时候,结合人工评估来提供更深入的洞察。
监控与监控:建立实时监控系统,确 Eisenbahn principle,即“不要让系统变得过于复杂”。确保系统的每一个部分都能单独地被监控和评估。
定期审查:定期审查评估指标和评分函数,确保它们仍然适用于当前的技术环境和业务需求。
用户反馈:将用户反馈纳入评估过程,确保系统的改进能够反映用户需求和提高用户满意度。
持续学习:鼓励持续学习和改进的文化,让团队成员在评估过程中持续学习,不断提高对系统的理解和改进能力。
AI 产品经理的评估指南:要为AI产品设定成功的标准和评估指标,可以遵循以下步骤:
定义成功的标准(Step 1: Define What Success Looks Like):
- 明确您的AI产品的主要目标和用户需求。
- 考虑AI产品的核心功能,例如提高准确性、减少错误、提升用户体验等。
选择有意义的指标(Step 2: Choose Metrics That Matter):
- 选择能够反映产品实际性能和用户满意度的指标。
- 考虑准确性、精确度(Precision)、召回率(Recall)、F1分数、PSI(Population Stability Index)等核心指标。
建立评估工具箱(Step 3: Build Your Evaluation Toolkit):
- 根据产品需求选择合适的评估工具。
- 可能包括性能监控、数据质量工具、可视化分析等。
设置警戒(Step 4: Set Up Guardrails Against Failure):
- 监控数据漂移、概念漂移和模型漂移。
- 设定阈值,例如PSI大于0.25时触发模型重训。
创建反馈循环(Step 5: Create Feedback Loops):
- 建立用户反馈机制,如“报告错误”按钮。
- 定期进行A/B测试,以检测模型性能的变化。
证明业务价值(Step 6: Prove Business Value to Leadership):
- 将技术指标连接到业务结果,如收户满意度、销售额等。
- 准备一个ROI模板,展示AI评估的财务影响。
在没有一个系统化评估方法的情况下,AI 产品的改进会遇到的挑战:作者通过一个具体的案例研究(露西,一位房地产 AI 助手)展示了如何通过系统化的评估方法来改进 AI 产品。
- 性能达到顶端:随着 AI 的功能扩展,其性能停滞不前,无法继续提升。
- 多样性的失败模式:解决一个问题可能导致其他问题的出现,类似于打地鼠游戏。
- 缺乏对AI系统效能的可见性:除了感觉性的检查(vibe checks),很难看到AI系统在任务上的有效性。
- 过于复杂的提示工程:提示扩展成长而复杂,试图覆盖众多边缘案例和示例。
论文
Web-Shepherd:专为网页导航设计的过程奖励模型:网页导航面临的挑战包括智能体在多步骤、动态环境中进行复杂决策的能力不足,以及现有基于多模态语言模型的智能体在长序列任务中表现不稳定。传统方法依赖成本高昂的多模态语言模型作为奖励模型,性能不佳,且难以提供细粒度反馈。WEB-SHEPHERD 模型作为首个专为网页导航设计的过程奖励模型,在每一步评估导航轨迹,提供细粒度反馈。该模型使用 Checklist 分解用户指令为子目标,指导智能体逐步完成任务,并通过下一词预测结合检查清单生成和奖励评分两个功能,确保高效且精准。WEBPRM COLLECTION 数据集包含 40,000 个步骤级别的偏好对,涵盖不同领域和难度级别,每个指令附带人工标注的检查清单,支持模型准确评估。
WEBREWARDBENCH 基准是首个评估网页导航过程奖励模型的元评估基准,包含来自 Mind2Web 和 WebArena 的 776 个任务实例,用于测试模型的奖励分配准确性。实验结果显示 WEB-SHEPHERD 在 WEBREWARDBENCH 上达到 85.0% 的轨迹准确率,远超 GPT-4o-mini(5.0%),且在 WebArena-lite 测试中提升成功率 10.9 个百分点,成本仅为 GPT-4o-mini 的 1/10。通过反馈进行步骤级优化,WEB-SHEPHERD 进一步提升了 3-4% 的成功率。
LongRefiner:解决长文档检索增强生成难点:LongRefiner 是一个即插即用的文档精炼系统,专门处理长文档的检索增强型生成(RAG)系统。它通过三个关键步骤提高效率:双层查询分析、文档结构化处理和自适应文档精炼。在处理长文档时,两个主要挑战:长文档往往含有大量无关紧要的内容,使得有用信息的检索变得复杂,就像在大海中寻针。完整地处理长文档会显著增加计算资源的需求,导致系统响应变慢,特别是在实际应用中。为了解决这些问题,研究者提出了LongRefiner系统。
双层查询分析:根据问题的不同深度,LongRefiner区分了两类查询:
- 局部查询:仅需文档中的某些部分或片段即可回答问题。
- 全局查询:需要全面理解整个文档才能提供答案。
系统首先确定问题类型,然后决定信息提取的范围。
文档结构化处理:将长文档转换为结构化文档,包括:
- 设计基于XML的结构表示,使用特殊标签(如
<section>
、<subsection>
)来明确文档结构。 - 利用维基百科的网页数据建立文档结构树,以便后续处理。
- 设计基于XML的结构表示,使用特殊标签(如
自适应文档精炼:根据问题类型,系统从两个角度评估文档内容的重要性:
- 局部视角:从文档的最小单元(如段落)出发,计算其相关性。
- 全局视角:确保能够全面理解文档。
最终,系统结合这两种视角的评分,筛选出最相关的内容来回答问题。
工程
RAG 2.0 深入解读:这篇文章对 RAG 技术演进总结的不错,RAG 技术的核心在于将检索到的信息用于增强大语言模型的生成质量,使其能够更准确地回答问题、处理复杂的查询等。RAG 从 1.0 时代迅速发展到 2.0 时代,不断突破与创新技术范围。在 RAG 2.0 中,出现了长上下文窗口、多模态与复杂任务扩展、检索质量与噪声问题、计算资源与效率问题、安全与隐私问题等技术挑战。RAG 系统通过三路混合搜索技术(如 BM25、稠密向量搜索、稀疏向量搜索)和 DPR(Dense Passage Retrieval)技术,以及重排序(Reranker)技术(如 Cross-Encoder Reranker、Graph-Based Reranking、ColBERT Reranker)来提升检索的精确度和效率。此外,RAG 技术还包括多模态 RAG、强化推理、Agentic RAG 等多个维度的技术升级和优化。
几种 Agent 框架的 Memory 方案总结:多种 Agent 框架的 Memory 方案,包括 Memobase、Mem0、MemGPT(letta)、Metagpt、Langraph 和 Memorybank。Memobase 通过 server-client 抽取时机和缓存消息长度来使用 LLM 抽取用户和 AI 聊天时与用户相关的 profile。Mem0 使用 client-sdk 形式,支持多模态信息处理,并通过向量数据库等依赖来处理记忆更新。MemGPT(letta)基于 Agent 的记忆上下文管理,提供三种记忆:Recall memory、Core memory 和 Archival memory。Langraph 则受 MemGPT 启发,提供了长期记忆的使用方法。Memorybank 基于遗忘曲线对生成的记忆进行管理和更新。
官方 Registry 来了!MCP Registry 项目进入 active development 阶段:目前,MCP 客户端采用以下方式以发现服务器:Web 抓取与运行时推断:如,抓取 GitHub README 文件并在安装时推断服务器元数据、预抓取与本地维护:客户端维护者抓取并维护服务器列表、依赖第三方注册服务,这些服务通常也采用上述抓取方式。这种分散、重复的工作方式导致了生态系统的碎片化,增加了 MCP 客户端开发者的负担,并使得最终用户难以获得全面、高效的服务器发现体验。服务器维护者可能需要在多个平台维护元数据,为了解决这一问题,社区成员 @tadasant (PulseMCP)、@toby (GitHub) 和 @alexhancock (Block) 等人协调下来,@sridharavinash (GitHub) 带领开发团队,正式启动了官方 Metaregistry 项目。
官方Registry 旨在建立一个统一、授权的元数据中心。服务器所有者可通过统一格式(mcp.json)将元数据提交至此,由 MCP 客户端或其他使用者(如服务器聚合器)可从中获取、过滤及组织元数据,供最终用户使用,如扩展商店、MCP市场、集成中心等功能。
核心元数据包括:
- 源引用:指向源代码、软件包或容器的发布地点(例如 npm、PyPI、Docker Hub、GHCR 等),因此被称为“元”注册表。
- 描述性信息:服务器名称、描述等,用于识别和理解其用途。
- 安装指南:符合当前生态系统主流的安装方式,如 npx、uvx 风格的命令。
- 版本管理:追踪元数据的更新历程。
非目标明确:
- 大规模终端用户直接消费:MCP registry 主要服务于 MCP 客户端主机,而非直接终端用户。主机应异步集成,其消费者主要是 Grip 客户端应用数量级。
- 复杂的筛选与策略逻辑:不集中解决通用的“排序”、“排名搜索”等功能,这些功能由各客户端根据具体场景自行定制。
- 基础设施与实现的复用:鼓励复用 API 规范和 mcp.json 格式,但不提供自行部署 MCP Registry 实例的指南。
- 安全保证(MVP 阶段):初期阶段依赖现有包注册表的安全机制,高级安全特性(如源代码扫描、毒攻防等)将在 MVP 后进行迭代。
字节跳动开源了新型多模态文档图像解析模型 Dolphin,旨于处理复杂的文档图像,包括文本、表格、公式、图片等元素。Dolphin 模型采用 “先分析后解析” 的两阶段方法,首先进行页面级布局分析,全面分析整个文档图像,按照自然阅读顺序生成页面元素序列。然后进行元素级并行解析,利用不同类型的 “锚点提示” 和任务特定的提示高效解析各个元素。Dolphin 基于视觉编码器 - 解码器架构,使用 Swin Transformer 提取视觉特征,MBart 架构解码文本,并支持通过自然语言提示灵活控制解析任务。该模型集成于 Hugging Face Transformers 生态系统,提供两种解析模式:整页面解析和针对特定元素的解析。
重新思考RAG的相关性:相似≠相关:这篇文章讨论了相关性与相似性的区别,强调了在 RAG 系统中,相关性的重要性和复杂性,以及如何优化相关性的衡量方法。
- 相关性的复杂性:相关性的概念超出简单的向量嵌入和相似性度量。传统的数据库查询和文本搜索在许多情况下可能更为有效。
- 相关性与向量嵌入:虽然向量嵌入在RAG中有重要作用,但它并非万能。过多的相关性判断可能会导致错误的结果。
- 数据量与效果的关系:数据量的增加并不总是导致RAG系统性能的提升,有时候可能会导致检索退化问题。
- 相关性的定义与衡量:相关性的定义和衡量方法需要多维度评分,结合语义相似性、上下文匹配、以及任务目标评分。
- 人类反馈的重要性:人类反馈是衡量相关性的重要依据,可以帮助提升系统的准确性和有用性。
- 短暂性的优势与挑战:RAG系统的输出是临时的,这既为系统提供了优势,如高度的安全性和隐私保护,也带来了挑战,如数据的重新注入。
- 数据质量的优先性:在RAG系统中,数据质量比数据数量更为重要。优化数据质量可以显著提升系统性能。
产品
-
AI 代理与 Copilot 全面升级
- Copilot Tuning:微软推出了 Copilot Tuning 功能,允许企业根据自身数据定制 Microsoft 365 Copilot,提升其在特定领域的表现。该功能将于 6 月面向拥有 5,000 个或以上 Copilot 许可证的客户开放。
- Agent Builder 与 Agent2Agent 协议:开发者现在可以使用 Agent Builder 创建自定义 AI 代理,并通过 Agent2Agent 协议实现代理间的安全通信,增强协作效率。
- GitHub Copilot 升级:GitHub Copilot 现已集成 Azure SRE 代理,支持从代码生成到任务执行的全流程,标志着从助手到协作者的转变。
Windows 与 Edge 的 AI 创新
- Windows AI Foundry:微软发布了 Windows AI Foundry,支持在本地开发环境中构建和部署 AI 应用,提升开发者的灵活性。
- Copilot Vision:Copilot 现具备视觉感知能力,可理解用户桌面上的活动,并提供实时建议,增强用户体验。
- Edge 浏览器实时翻译:Edge 浏览器新增实时视频翻译功能,支持多种语言,提升跨语言交流的便捷性。
开发者工具与平台升级
- AI Toolkit 与 Azure AI Foundry:开发者可通过 AI Toolkit 和 Azure AI Foundry 在 VS Code 中构建、测试和部署 AI 应用,简化开发流程。 (Microsoft for Developers)
- **Model Context Protocol (MCP)**:微软引入 MCP,作为 AI 模型通信的统一接口,促进模型间的互操作性。 (Microsoft for Developers)
比较有意思的两个开源项目:
- VS Code 宣布开源了 GitHub Copilot Chat 扩展,以MIT许可证发布,让开发者可以自由探索并优化AI编程体验。未来,VS Code 还将进一步把这些AI功能逐步集成到编辑器的核心中,打造一个完全开源、社区驱动的 AI 代码编辑平台,提升开发效率、透明度和安全性,被 Cursor、Winsurf 这些新势力攻得太猛,入口才是关键,选择开源策略,太赞了。
- NLWeb 项目最有意思, 是微软开发的一套工具和协议,旨在通过大模型为网站构建对话式界面,使得网站能够与人类和智能代理进行交互。它通过原生支持 MCP 协议,使得同一套自然语言 API 能够服务于人类用户和智能代理。Schema.org 及其相关的半结构化格式被超过 1 亿个网站采用,成为了事实上的内容聚合机制和网络的语义层。NLWeb 鼓励社区开发多样化创新的实现,以此来实现网络自身的演进,从简单的 ‘htdocs’ 文件夹到庞大的数据中心基础设施。AI 有潜力提升每一次网络交互,NLWeb 结合了协议、Schema.org 格式和示例代码,帮助网站快速创建端点,既服务于人类的对话界面,也促进了机器之间的自然代理间交互。
-
Gemini AI 全面升级
- Gemini 2.5 Pro 与 Flash:谷歌发布了 Gemini 2.5 Pro 模型,支持高达 200 万 tokens 的上下文窗口,提升多模态处理能力。同时,推出了轻量级的 Flash 模型,适用于低延迟场景。
- Gemini Live 与 Project Astra:Gemini Live 实现了实时语音和视频交互,增强用户体验。Project Astra 旨在构建具备实时、多模态理解能力的 AI 应用与“智能体”。
- AI 订阅服务:谷歌推出了新的订阅层级,包括每月 20 美元的 AI Pro 和 250 美元的 AI Ultra,提供更高级的 AI 功能。
Android 16 与 XR 生态
- Android 16:引入了 Material 3 Expressive 设计语言,支持 Auracast 技术、锁屏小组件和增强的辅助功能,提升用户体验。
- Android XR:谷歌展示了 Android XR 的最新进展,包括与 Gentle Monster 和 Warby Parker 合作的智能眼镜,集成 Gemini AI,实现增强现实体验。
搜索与 Web 创新
- AI Overviews:谷歌搜索引入 AI 概览功能,提供多步骤推理和视频搜索能力,提升搜索效率。
- Web 开发工具:发布了基于 Gemini Nano 的多模态内置 AI API,简化 Web 开发流程,提升开发效率。
创意与开发者工具
- Imagen 3 与 Veo:推出了 Imagen 3 图像生成模型和 Veo 视频生成模型,支持更高质量的图像和视频创作。
- Jules 与 NotebookLM:Jules 提供 AI 辅助编码功能,NotebookLM 升级支持视频摘要,增强内容创作能力。
谷歌开始自我革命,给自己家的搜索引擎首页 Tab 集成了 AI Mode,旨在通过新的 AI 功能使搜索更加智能化,包括 AI 概览、深度搜索、实时搜索、代理功能、购物助手、个性化搜索和自定义图表等。
- Deep Search:在 AI Mode 中引入的深度搜索功能,能够发起大量查询,Reason 并整合来自不同来源的信息,形成完整的、引用的报告,节省用户的研究时间。
- Query Fan-Out Technique:AI Mode 使用这种技术,能够将用户的问题分解成子主题,并发起一系列相关查询,帮助用户发现更多的网络资源,找到更精确的答案。
- Live Capabilities:通过 Project Astra 的实时功能,使用户能够通过相机与搜索进行实时互动,获取即时帮助,特别是在视觉搜索方面。
- Agentic Capabilities:允许用户委托 AI Mode 完成特定任务,如购买门票或餐厅预订,通过查询扇展来查找最佳选项,节化用户的工作流程。
- Personal Context Integration:AI Mode 能够根据用户的搜索历史和连接的 Google 应用提供个性化的搜索结果,使搜索体验更加个性化。
- Custom Charts and Graphs:AI Mode 能够分析复杂的数据集,为用户创建定制的图表和数据可视化,使得数据解读更加直观。
-
Claude 4 系列亮点
- Claude Opus 4:Anthropic 推出的最强大模型,专为复杂编程和长时间任务设计。它在 SWE-bench 和 Terminal-bench 基准测试中分别取得了 72.5% 和 43.2% 的领先成绩,展现出卓越的代码生成和问题解决能力。
- Claude Sonnet 4:作为 Sonnet 3.7 的升级版,Sonnet 4 在性能与效率之间取得平衡,适用于广泛的应用场景。
新增功能与工具
- 扩展思维与工具使用(测试版):两款模型支持在推理过程中调用工具,如网页搜索,提升响应的准确性和实用性。
- Claude Code 正式发布:支持与 GitHub Actions、VS Code 和 JetBrains 的集成,实现无缝的协同编程体验。
- API 新功能:推出代码执行工具、MCP 连接器、文件 API 以及提示缓存功能,增强开发者构建 AI 代理的能力。
性能与安全性
- 持续性能:Opus 4 能够连续工作数小时,适用于需要集中精力和多步骤的任务。
- 安全措施:在内部测试中,Opus 4 展现出在高压情境下的复杂行为,Anthropic 启动了最高级别的安全协议(ASL-3)以确保模型的安全性。
Claude 4 在代码生成方面力压 Gemini 2.5 Pro 成为最新的 SOTA。
Vol.52 面向 AI 产品的智能体评估指南