2025-05-26发表会员计划1 小时读完 (大约8016个字)

Vol.52 面向 AI 产品的智能体评估指南

本期介绍了 AI 产品评估的全面指南，包括如何评估 Agent（代理）的性能，如何使用评估工具和平台，以及如何选择合适的评估指标和评分函数。详细介绍了评估 Agent 的方法论、评估工具的使用效率、工具的正确性评估、以及如何平衡量化与质量指标。提供了选择合适评估指标和评分函数的策略，以及如何通过迭代评估过程来不断优化 AI 产品。同时，对述了 AI 产品经理在设定成功标准和评估指标方面的经验。此外还讨论了相关技术的最新进展，包括 RAG 技术的发展、AI 产品的改进挑战、以及不同公司和组织推出的 AI 相关工具和平台。

✉️ 免费订阅更新

订阅我的免费通讯，第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私，不会向第三方分享您的信息。
您可以随时取消订阅。

Agent 评估专题

谷歌 ADK 框架文档关于评估 Agent 的指导：主要面向开发者的，Agent Development Kit (ADK) 提供了一种评估代理（Agents）的方法，强调了对代理行为和决策过程的定性评估，以及如何通过定义成功标准、识别关键任务和选择相关指标来准备代理评估。
评估平台 Confident AI 提供的 Agent 评估教程：主要面向开发者，建议的内容非常细节，实操性很强
评估 LLM 代理的工具调用效率
1. Redundant Tool Usage: 评估不必要的工具调用次数，计算未使用的工具数量相对于总工具调用次数的百分比。
2. Frequency Flexibility: 确认每个工具被调用的次数与完成任务所需的次数是否合理，避免不必要的重复调用。
3. Tool Sequence Optimization: 优化工具调用序列，确保工具被按照最有效的的顺序调用以达到任务目标。
4. Output Accuracy Assessment: 验证工具生成的输出是否与预期的真实情况相匹配，可能包括对输出的百分比偏差计算。
5. Flexibility in Scoring: 在评估工具调用效率时，考虑使用 LLM 作为评判标准，通过比较工具调用轨迹与可用工具列表来评估效率。
评估 LLM 代理的工具正确性
1. Tool Selection: 确认代理调用的工具是否与完成任务所需的理想工具集相符，这通常涉及确定正确的工具并使用它们。
2. Input Parameters: 评估被传递给工具的输入参数的准确性，确保这些参数与预期的真实参考值相匹配。
3. Output Accuracy: 验证工具生成的输出是否准确无误，与预期的最终结果相比，确保输出的Relevance 和 Correctness。
4. Order Independence: 在某些情况下，工具调用的顺序不是最重要的，重要的是所有必需的工具都被调用。
评估平台 braintrust 提供的 Agent 评估指引
平衡量化与质量指标的策略
1. 定义明确的量化指标：选择能够清晰反映系统性能的量化指标，例如准确率、响应时间、成本效率等。
2. 结合质量评估：在量化指标的基础上，添加质量评估，如用户满意度、系统响应的相关性和一致性等。
3. 使用混合方法：对于某些评估指标，可以采用混合方法，结合自动化的量化指标和需要人工评估的质量指标。
4. 迭代式评估：采用迭代式的评估方法，通过不断的反馈和调整来平衡量化和质量指标。
5. 利用LLM作为评估工具：使用LLM（Large Language Models）作为评估工具，可以帮助对象地评估系统的某些质量指标，如语言的自然性和准确性。
6. 定期审查和调整：定期审查和调整评估策略，确保量化和质量指标能够反映出系统的实际状况。
7. 质量控制：确保系统的输出质量与预期的质量标准一致，通过质量控制机制确保系统的准确性和可靠性。
8. 用户反馈：积极利用用户反馈作为质量指标的一部分，因为用户体验可以提供关于系统是否满足用户需求的宝贵信息。
9. 多元素评估：对于更复杂的系统，结合多元素评估，如行为模式、工具效率、成本效益等，以获得更全面的评估。
10. 自动化与人工结合：在自动化评估的基础上，结合人工评估，特别是在需要人类判断的情况下，以提高评估的准确性和全面性。
选择合适的评估指标（Metrics）和评分函数（Scorers）的策略
1. 理解业务目标：首先要清楚地定义代理系统的目标和预期效果，这将指导选择哪些指标和评分函数。
2. 定量与定性结合：选择既能反映系统性能的定量指标（如准确率、响应时间、成本效率等），也要包含能够反映用户体验和系统质量的定性指标（如用户满意度、系统响应的相关性等）。
3. 基于系统角色的评估：根据代理系统的角色和功能选择合适的指标和评分函数，例如对于一个主要处理客户服务问题的系统，可能需要特别关注用户满意度和问题解决率。
4. 使用LLM作为评估工具：利用LLM（Large Language Models）作为评估工具，可以帮助评估系统的某些质量指标，如语言的自然性和准确性。
5. 迭代式评估：采用迭代式的评估方法，通过不断的反馈和调整来优化评估指标和评分函数。
6. 自定义评估工具：在必要时，自定义评估工具和评分函数，以适应特定的业务需求和技术挑战。
7. 自动化与人工结合：在自动化评估的基础上，结合人工评估，特别是在需要人类判断的情况下，以提高评估的准确性和全面性。
8. 持续监控与优化：持续监控评估指标和评分函数的效果，并根据实际运行情况进行优化和调整。
迭代评估过程的应用：关键步骤和策略
1. 初始评估：从一个基本的、全面的评估开始，全面检查代理系统的各项指标。
2. 问题识别：在初始评估中识别问题和性能不足时的。
3. 细粒度评估：针对识别出的问题，进行更细粒度的评估，深入到系统的特定环节，如数据检索、决策逻辑、用户交互等。
4. 调整与优化：根据细粒度评估的结果，调整和优化系统的相关部分。
5. 反馈循环：将评估结果作为反馈，将其反馈到系统设计和策略制定中，形成闭环，以便进一步的调整和优化。
6. 自动化与人工结合：使用自动化工具进行评估，同时在需要的时候，结合人工评估来提供更深入的洞察。
7. 监控与监控：建立实时监控系统，确 Eisenbahn principle，即“不要让系统变得过于复杂”。确保系统的每一个部分都能单独地被监控和评估。
8. 定期审查：定期审查评估指标和评分函数，确保它们仍然适用于当前的技术环境和业务需求。
9. 用户反馈：将用户反馈纳入评估过程，确保系统的改进能够反映用户需求和提高用户满意度。
10. 持续学习：鼓励持续学习和改进的文化，让团队成员在评估过程中持续学习，不断提高对系统的理解和改进能力。
AI 产品经理的评估指南：要为AI产品设定成功的标准和评估指标，可以遵循以下步骤：
1. 定义成功的标准（Step 1: Define What Success Looks Like）：
  - 明确您的AI产品的主要目标和用户需求。
  - 考虑AI产品的核心功能，例如提高准确性、减少错误、提升用户体验等。
2. 选择有意义的指标（Step 2: Choose Metrics That Matter）：
  - 选择能够反映产品实际性能和用户满意度的指标。
  - 考虑准确性、精确度（Precision）、召回率（Recall）、F1分数、PSI（Population Stability Index）等核心指标。
3. 建立评估工具箱（Step 3: Build Your Evaluation Toolkit）：
  - 根据产品需求选择合适的评估工具。
  - 可能包括性能监控、数据质量工具、可视化分析等。
4. 设置警戒（Step 4: Set Up Guardrails Against Failure）：
  - 监控数据漂移、概念漂移和模型漂移。
  - 设定阈值，例如PSI大于0.25时触发模型重训。
5. 创建反馈循环（Step 5: Create Feedback Loops）：
  - 建立用户反馈机制，如“报告错误”按钮。
  - 定期进行A/B测试，以检测模型性能的变化。
6. 证明业务价值（Step 6: Prove Business Value to Leadership）：
  - 将技术指标连接到业务结果，如收户满意度、销售额等。
  - 准备一个ROI模板，展示AI评估的财务影响。
在没有一个系统化评估方法的情况下，AI 产品的改进会遇到的挑战：作者通过一个具体的案例研究（露西，一位房地产 AI 助手）展示了如何通过系统化的评估方法来改进 AI 产品。
1. 性能达到顶端：随着 AI 的功能扩展，其性能停滞不前，无法继续提升。
2. 多样性的失败模式：解决一个问题可能导致其他问题的出现，类似于打地鼠游戏。
3. 缺乏对AI系统效能的可见性：除了感觉性的检查（vibe checks），很难看到AI系统在任务上的有效性。
4. 过于复杂的提示工程：提示扩展成长而复杂，试图覆盖众多边缘案例和示例。
Arize AI 联合 DeepLearning AI 推出的 Agent 评估指导课程

论文

Web-Shepherd：专为网页导航设计的过程奖励模型：网页导航面临的挑战包括智能体在多步骤、动态环境中进行复杂决策的能力不足，以及现有基于多模态语言模型的智能体在长序列任务中表现不稳定。传统方法依赖成本高昂的多模态语言模型作为奖励模型，性能不佳，且难以提供细粒度反馈。WEB-SHEPHERD 模型作为首个专为网页导航设计的过程奖励模型，在每一步评估导航轨迹，提供细粒度反馈。该模型使用 Checklist 分解用户指令为子目标，指导智能体逐步完成任务，并通过下一词预测结合检查清单生成和奖励评分两个功能，确保高效且精准。WEBPRM COLLECTION 数据集包含 40,000 个步骤级别的偏好对，涵盖不同领域和难度级别，每个指令附带人工标注的检查清单，支持模型准确评估。

WEBREWARDBENCH 基准是首个评估网页导航过程奖励模型的元评估基准，包含来自 Mind2Web 和 WebArena 的 776 个任务实例，用于测试模型的奖励分配准确性。实验结果显示 WEB-SHEPHERD 在 WEBREWARDBENCH 上达到 85.0% 的轨迹准确率，远超 GPT-4o-mini（5.0%），且在 WebArena-lite 测试中提升成功率 10.9 个百分点，成本仅为 GPT-4o-mini 的 1/10。通过反馈进行步骤级优化，WEB-SHEPHERD 进一步提升了 3-4% 的成功率。
LongRefiner：解决长文档检索增强生成难点：LongRefiner 是一个即插即用的文档精炼系统，专门处理长文档的检索增强型生成（RAG）系统。它通过三个关键步骤提高效率：双层查询分析、文档结构化处理和自适应文档精炼。在处理长文档时，两个主要挑战：长文档往往含有大量无关紧要的内容，使得有用信息的检索变得复杂，就像在大海中寻针。完整地处理长文档会显著增加计算资源的需求，导致系统响应变慢，特别是在实际应用中。为了解决这些问题，研究者提出了LongRefiner系统。
1. 双层查询分析：根据问题的不同深度，LongRefiner区分了两类查询：
  - 局部查询：仅需文档中的某些部分或片段即可回答问题。
  - 全局查询：需要全面理解整个文档才能提供答案。
    系统首先确定问题类型，然后决定信息提取的范围。
2. 文档结构化处理：将长文档转换为结构化文档，包括：
  - 设计基于XML的结构表示，使用特殊标签（如<section>、<subsection>）来明确文档结构。
  - 利用维基百科的网页数据建立文档结构树，以便后续处理。
3. 自适应文档精炼：根据问题类型，系统从两个角度评估文档内容的重要性：
  - 局部视角：从文档的最小单元（如段落）出发，计算其相关性。
  - 全局视角：确保能够全面理解文档。
    最终，系统结合这两种视角的评分，筛选出最相关的内容来回答问题。

工程

RAG 2.0 深入解读：这篇文章对 RAG 技术演进总结的不错，RAG 技术的核心在于将检索到的信息用于增强大语言模型的生成质量，使其能够更准确地回答问题、处理复杂的查询等。RAG 从 1.0 时代迅速发展到 2.0 时代，不断突破与创新技术范围。在 RAG 2.0 中，出现了长上下文窗口、多模态与复杂任务扩展、检索质量与噪声问题、计算资源与效率问题、安全与隐私问题等技术挑战。RAG 系统通过三路混合搜索技术（如 BM25、稠密向量搜索、稀疏向量搜索）和 DPR（Dense Passage Retrieval）技术，以及重排序（Reranker）技术（如 Cross-Encoder Reranker、Graph-Based Reranking、ColBERT Reranker）来提升检索的精确度和效率。此外，RAG 技术还包括多模态 RAG、强化推理、Agentic RAG 等多个维度的技术升级和优化。
几种 Agent 框架的 Memory 方案总结：多种 Agent 框架的 Memory 方案，包括 Memobase、Mem0、MemGPT（letta）、Metagpt、Langraph 和 Memorybank。Memobase 通过 server-client 抽取时机和缓存消息长度来使用 LLM 抽取用户和 AI 聊天时与用户相关的 profile。Mem0 使用 client-sdk 形式，支持多模态信息处理，并通过向量数据库等依赖来处理记忆更新。MemGPT（letta）基于 Agent 的记忆上下文管理，提供三种记忆：Recall memory、Core memory 和 Archival memory。Langraph 则受 MemGPT 启发，提供了长期记忆的使用方法。Memorybank 基于遗忘曲线对生成的记忆进行管理和更新。
官方 Registry 来了！MCP Registry 项目进入 active development 阶段：目前，MCP 客户端采用以下方式以发现服务器：Web 抓取与运行时推断：如，抓取 GitHub README 文件并在安装时推断服务器元数据、预抓取与本地维护：客户端维护者抓取并维护服务器列表、依赖第三方注册服务，这些服务通常也采用上述抓取方式。这种分散、重复的工作方式导致了生态系统的碎片化，增加了 MCP 客户端开发者的负担，并使得最终用户难以获得全面、高效的服务器发现体验。服务器维护者可能需要在多个平台维护元数据，为了解决这一问题，社区成员 @tadasant (PulseMCP)、@toby (GitHub) 和 @alexhancock (Block) 等人协调下来，@sridharavinash (GitHub) 带领开发团队，正式启动了官方 Metaregistry 项目。
官方Registry 旨在建立一个统一、授权的元数据中心。服务器所有者可通过统一格式（mcp.json）将元数据提交至此，由 MCP 客户端或其他使用者（如服务器聚合器）可从中获取、过滤及组织元数据，供最终用户使用，如扩展商店、MCP市场、集成中心等功能。

核心元数据包括：
- 源引用：指向源代码、软件包或容器的发布地点（例如 npm、PyPI、Docker Hub、GHCR 等），因此被称为“元”注册表。
- 描述性信息：服务器名称、描述等，用于识别和理解其用途。
- 安装指南：符合当前生态系统主流的安装方式，如 npx、uvx 风格的命令。
- 版本管理：追踪元数据的更新历程。
非目标明确：
- 大规模终端用户直接消费：MCP registry 主要服务于 MCP 客户端主机，而非直接终端用户。主机应异步集成，其消费者主要是 Grip 客户端应用数量级。
- 复杂的筛选与策略逻辑：不集中解决通用的“排序”、“排名搜索”等功能，这些功能由各客户端根据具体场景自行定制。
- 基础设施与实现的复用：鼓励复用 API 规范和 mcp.json 格式，但不提供自行部署 MCP Registry 实例的指南。
- 安全保证（MVP 阶段）：初期阶段依赖现有包注册表的安全机制，高级安全特性（如源代码扫描、毒攻防等）将在 MVP 后进行迭代。
字节跳动开源了新型多模态文档图像解析模型 Dolphin，旨于处理复杂的文档图像，包括文本、表格、公式、图片等元素。Dolphin 模型采用 “先分析后解析” 的两阶段方法，首先进行页面级布局分析，全面分析整个文档图像，按照自然阅读顺序生成页面元素序列。然后进行元素级并行解析，利用不同类型的 “锚点提示” 和任务特定的提示高效解析各个元素。Dolphin 基于视觉编码器 - 解码器架构，使用 Swin Transformer 提取视觉特征，MBart 架构解码文本，并支持通过自然语言提示灵活控制解析任务。该模型集成于 Hugging Face Transformers 生态系统，提供两种解析模式：整页面解析和针对特定元素的解析。
重新思考RAG的相关性：相似≠相关：这篇文章讨论了相关性与相似性的区别，强调了在 RAG 系统中，相关性的重要性和复杂性，以及如何优化相关性的衡量方法。
1. 相关性的复杂性：相关性的概念超出简单的向量嵌入和相似性度量。传统的数据库查询和文本搜索在许多情况下可能更为有效。
2. 相关性与向量嵌入：虽然向量嵌入在RAG中有重要作用，但它并非万能。过多的相关性判断可能会导致错误的结果。
3. 数据量与效果的关系：数据量的增加并不总是导致RAG系统性能的提升，有时候可能会导致检索退化问题。
4. 相关性的定义与衡量：相关性的定义和衡量方法需要多维度评分，结合语义相似性、上下文匹配、以及任务目标评分。
5. 人类反馈的重要性：人类反馈是衡量相关性的重要依据，可以帮助提升系统的准确性和有用性。
6. 短暂性的优势与挑战：RAG系统的输出是临时的，这既为系统提供了优势，如高度的安全性和隐私保护，也带来了挑战，如数据的重新注入。
7. 数据质量的优先性：在RAG系统中，数据质量比数据数量更为重要。优化数据质量可以显著提升系统性能。

产品

微软Build 2025 开发者大会
AI 代理与 Copilot 全面升级
- Copilot Tuning：微软推出了 Copilot Tuning 功能，允许企业根据自身数据定制 Microsoft 365 Copilot，提升其在特定领域的表现。该功能将于 6 月面向拥有 5,000 个或以上 Copilot 许可证的客户开放。
- Agent Builder 与 Agent2Agent 协议：开发者现在可以使用 Agent Builder 创建自定义 AI 代理，并通过 Agent2Agent 协议实现代理间的安全通信，增强协作效率。
- GitHub Copilot 升级：GitHub Copilot 现已集成 Azure SRE 代理，支持从代码生成到任务执行的全流程，标志着从助手到协作者的转变。
Windows 与 Edge 的 AI 创新
- Windows AI Foundry：微软发布了 Windows AI Foundry，支持在本地开发环境中构建和部署 AI 应用，提升开发者的灵活性。
- Copilot Vision：Copilot 现具备视觉感知能力，可理解用户桌面上的活动，并提供实时建议，增强用户体验。
- Edge 浏览器实时翻译：Edge 浏览器新增实时视频翻译功能，支持多种语言，提升跨语言交流的便捷性。
开发者工具与平台升级
- AI Toolkit 与 Azure AI Foundry：开发者可通过 AI Toolkit 和 Azure AI Foundry 在 VS Code 中构建、测试和部署 AI 应用，简化开发流程。 (Microsoft for Developers)
- **Model Context Protocol (MCP)**：微软引入 MCP，作为 AI 模型通信的统一接口，促进模型间的互操作性。 (Microsoft for Developers)
比较有意思的两个开源项目：
1. VS Code 宣布开源了 GitHub Copilot Chat 扩展，以MIT许可证发布，让开发者可以自由探索并优化AI编程体验。未来，VS Code 还将进一步把这些AI功能逐步集成到编辑器的核心中，打造一个完全开源、社区驱动的 AI 代码编辑平台，提升开发效率、透明度和安全性，被 Cursor、Winsurf 这些新势力攻得太猛，入口才是关键，选择开源策略，太赞了。
2. NLWeb 项目最有意思，是微软开发的一套工具和协议，旨在通过大模型为网站构建对话式界面，使得网站能够与人类和智能代理进行交互。它通过原生支持 MCP 协议，使得同一套自然语言 API 能够服务于人类用户和智能代理。Schema.org 及其相关的半结构化格式被超过 1 亿个网站采用，成为了事实上的内容聚合机制和网络的语义层。NLWeb 鼓励社区开发多样化创新的实现，以此来实现网络自身的演进，从简单的 ‘htdocs’ 文件夹到庞大的数据中心基础设施。AI 有潜力提升每一次网络交互，NLWeb 结合了协议、Schema.org 格式和示例代码，帮助网站快速创建端点，既服务于人类的对话界面，也促进了机器之间的自然代理间交互。
谷歌 2025 年 I/O 开发者大会
Gemini AI 全面升级
- Gemini 2.5 Pro 与 Flash：谷歌发布了 Gemini 2.5 Pro 模型，支持高达 200 万 tokens 的上下文窗口，提升多模态处理能力。同时，推出了轻量级的 Flash 模型，适用于低延迟场景。
- Gemini Live 与 Project Astra：Gemini Live 实现了实时语音和视频交互，增强用户体验。Project Astra 旨在构建具备实时、多模态理解能力的 AI 应用与“智能体”。
- AI 订阅服务：谷歌推出了新的订阅层级，包括每月 20 美元的 AI Pro 和 250 美元的 AI Ultra，提供更高级的 AI 功能。
Android 16 与 XR 生态
- Android 16：引入了 Material 3 Expressive 设计语言，支持 Auracast 技术、锁屏小组件和增强的辅助功能，提升用户体验。
- Android XR：谷歌展示了 Android XR 的最新进展，包括与 Gentle Monster 和 Warby Parker 合作的智能眼镜，集成 Gemini AI，实现增强现实体验。
搜索与 Web 创新
- AI Overviews：谷歌搜索引入 AI 概览功能，提供多步骤推理和视频搜索能力，提升搜索效率。
- Web 开发工具：发布了基于 Gemini Nano 的多模态内置 AI API，简化 Web 开发流程，提升开发效率。
创意与开发者工具
- Imagen 3 与 Veo：推出了 Imagen 3 图像生成模型和 Veo 视频生成模型，支持更高质量的图像和视频创作。
- Jules 与 NotebookLM：Jules 提供 AI 辅助编码功能，NotebookLM 升级支持视频摘要，增强内容创作能力。
谷歌开始自我革命，给自己家的搜索引擎首页 Tab 集成了 AI Mode，旨在通过新的 AI 功能使搜索更加智能化，包括 AI 概览、深度搜索、实时搜索、代理功能、购物助手、个性化搜索和自定义图表等。
1. Deep Search：在 AI Mode 中引入的深度搜索功能，能够发起大量查询，Reason 并整合来自不同来源的信息，形成完整的、引用的报告，节省用户的研究时间。
2. Query Fan-Out Technique：AI Mode 使用这种技术，能够将用户的问题分解成子主题，并发起一系列相关查询，帮助用户发现更多的网络资源，找到更精确的答案。
3. Live Capabilities：通过 Project Astra 的实时功能，使用户能够通过相机与搜索进行实时互动，获取即时帮助，特别是在视觉搜索方面。
4. Agentic Capabilities：允许用户委托 AI Mode 完成特定任务，如购买门票或餐厅预订，通过查询扇展来查找最佳选项，节化用户的工作流程。
5. Personal Context Integration：AI Mode 能够根据用户的搜索历史和连接的 Google 应用提供个性化的搜索结果，使搜索体验更加个性化。
6. Custom Charts and Graphs：AI Mode 能够分析复杂的数据集，为用户创建定制的图表和数据可视化，使得数据解读更加直观。
Anthropic 发布 Claude 4 系列模型：
Claude 4 系列亮点
- Claude Opus 4：Anthropic 推出的最强大模型，专为复杂编程和长时间任务设计。它在 SWE-bench 和 Terminal-bench 基准测试中分别取得了 72.5% 和 43.2% 的领先成绩，展现出卓越的代码生成和问题解决能力。
- Claude Sonnet 4：作为 Sonnet 3.7 的升级版，Sonnet 4 在性能与效率之间取得平衡，适用于广泛的应用场景。
新增功能与工具
- 扩展思维与工具使用（测试版）：两款模型支持在推理过程中调用工具，如网页搜索，提升响应的准确性和实用性。
- Claude Code 正式发布：支持与 GitHub Actions、VS Code 和 JetBrains 的集成，实现无缝的协同编程体验。
- API 新功能：推出代码执行工具、MCP 连接器、文件 API 以及提示缓存功能，增强开发者构建 AI 代理的能力。
性能与安全性
- 持续性能：Opus 4 能够连续工作数小时，适用于需要集中精力和多步骤的任务。
- 安全措施：在内部测试中，Opus 4 展现出在高压情境下的复杂行为，Anthropic 启动了最高级别的安全协议（ASL-3）以确保模型的安全性。
Claude 4 在代码生成方面力压 Gemini 2.5 Pro 成为最新的 SOTA。

Vol.52 面向 AI 产品的智能体评估指南

https://liduos.com/the-memeber-newsletter-52.html

作者

莫尔索

发布于

2025-05-26

更新于

2025-08-18

Vol.52 面向 AI 产品的智能体评估指南

✉️ 免费订阅更新

Agent 评估专题

论文

工程

产品

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论

订阅我的免费通讯

我的作品

目录

最新文章

归档

标签