Vol.50:Evaluation is all you need
大家好!Weekly Gradient 第 50 期内容已送达!
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
论文
Agent 评估综述:Agent需进行任务规划、多步交互、状态维护、工具使用及动态环境互动,评估时应考虑这些多方面能力。详细可以听一下播客基于大模型的 Agent 评估(借助 NotebookLM 生成的)
- Agent评估关注点:
- Planning (规划): 分解复杂任务,制定多步执行计划以达成目标。
- Tool Use (工具使用/函数调用): 识别外部工具需求,选择合适工具,调用API、计算器等以扩展能力与外界互动。
- Self-Reflection (自我反思): 根据反馈或状态识别自身错误,动态调整策略以提升性能。
- Memory (记忆): 长时间交互中保持信息管理能力,包括短期记忆与长期记忆。
- 主要评估体系:
- Benchmarks (基准): 标准化任务、数据集和指标,用于衡量特定能力或应用领域性能。
- Frameworks (框架): 提供工具和基础设施,用于开发、评估、监控和调试AI应用。
值得参考的评估体系:
如通用型代理的GAIA、复杂编码任务的SWE-bench和SWELancer、网页自动化的WebArena等,以及LangSmith和Galileo Agentic Evaluation等评估框架。设计Agent评估体系时建议考虑的问题:
- 成本与效率指标。
- 更细粒度的评估,提高透明度。
- 安全与合规问题,尤其是在B2B与B2C中。
- 可扩展性,随着AI快速发展,评估系统需持续更新。
- 基于实际业务需求与目标,设计自己的指标和基准。
RAG 评估综述:RAG 系统内部运行的评估这里不再说明了,重点讲一下 RAG 系统的外部评估,具体包括安全性评估和效率评估两个主要部分。安全性评估主要关注 RAG 系统在动态、嘈杂甚至危险环境下生成稳定无害内容的能力,以及如何处理误导性的检索结果。效率评估方面,关注 RAG 系统的延迟和成本效益,包括首词响应时间、完整响应时间、基础设施成本、按量计费成本、存储成本和运维开销等。
安全评估:安全性能关乎 RAG 系统在复杂环境中稳定生成无害内容的能力。随着 RAG 系统的广泛应用,安全隐患已超越独立大型语言模型。外部知识源的引入需要专门的评估框架。
【鲁棒性】评估系统处理误导性检索结果时的表现。
RECALL 通过 BLEU、ROUGE-L 和误导率等指标测试系统区分可靠与虚假知识的能力。
SafeRAG 针对”上下文冲突”等挑战设计专项指标。
C-RAG 通过保形风险分析和 ROUGE-L 提供理论风险保障。
韧性率——衡量检索增强前后系统保持响应准确的比例,体现稳定性。
提升率——统计初始错误答案经检索文档修正的比例,评估 RAG 的实效性。
【事实性】确保生成信息准确,避免错误的陈述。核心指标包括:
事实准确率(在误导性语境下采用 EM/F1 等标准 QA 指标)
幻觉率(生成内容与检索文档矛盾的比例)
引证准确度(通过引证精确率/召回率评估来源标注)
忠实度指标(衡量输出与检索信息的吻合程度)
【对抗攻击】针对 RAG 流程特定环节:
知识库投毒(Poisoned RAG)通过注入恶意文本诱导预设输出,采用攻击成功率(ASR)及检索精度/召回率评估。
检索劫持(HijackRAG)操纵排序算法优先返回恶意内容,重点评估跨模型攻击迁移能力。
幻影攻击通过检索失败率(Ret-FR)评估触发文档效果。
阻塞攻击则插入强制拒绝的”拦截”文档,采用预言指标评估。
【隐私性】评估检索库或用户查询的信息泄露风险,通过模拟攻击测试。关键指标包括:
提取成功率(从知识库获取特定隐私信息的频次)
PII 泄露率(生成输出中个人身份信息暴露比例)
成员推断攻击成功率(判断特定数据是否存在于知识库的能力)
【公平性】检测系统是否放大检索文档或训练数据中的偏见。
偏见指标量化不同人群的性能差异(如错误率、情感分数)。
刻板印象检测统计有害陈规的出现频率。
反事实公平性检验敏感属性变更时输出的合理性变化。
【透明度/问责性】评估系统推理过程的可理解性与可追溯性,采用定性化指标:
解释质量(人工评估说明信息的清晰度与完整性)
可追溯性(输出与源文档的关联便捷度)
引证准确率(精确率/召回率)。
效率评估:效率是 RAG 实用性的另一关键维度,直接关系到系统的普及度、成本效益与实际价值。
延迟评估通常关注两大核心指标:
首词响应时间(TTFT)衡量系统接收查询后生成首个输出词元所需时长。
完整响应时间(总延迟)则统计从提交查询到生成完整响应的全过程耗时。
资源与资金成本评估是衡量 RAG 效率的核心要素。成本评估方法通常聚焦于量化直接影响系统经济性的直接支出与效率指标。RAG 系统的总成本可分为以下关键组成部分:
基础设施成本:本地计算资源及开源模型的 LLM 推理开销。
按量计费成本:外部 LLM 服务 API 费用。
存储成本:向量数据库托管与维护支出。
运维开销:人工监管、系统维护及知识库定期更新。
开发成本:系统初建、集成与定制化费用。
PlanGlow:由可解释和可控的LLM驱动系统实现的个性化学习计划:学习者在制定学习计划时常常遭遇挑战,尤其是在缺乏具体指导和反馈的情况下。大模型(LLMs)在个性化学习计划方面展现出巨大潜力,但在透明度和可控性上仍面临着挑战,特别是在生成内容的可靠性和用户对建议的理解度方面。因此,有必要开发一种既能提供个性化学习计划,又具备良好可解释性和可控性的系统,以支持学习者的自主学习过程。本研究提出了 PlanGlow 系统,它是一种基于大模型的个性化学习规划工具,通过用户中心的交互方式生成结构化的学习计划,并提供清晰的解释和高度的可控性。研究团队在开发系统前对 28 名参与者进行了调查,并对 10 人进行了半结构化访谈,以了解用户需求。随后,设计了 PlanGlow 系统,并与两个基线系统(基于 GPT-4o 的系统和 Khan Academy 的 Khanmigo)进行了对比实验,涉及 24 名参与者。评估指标包括系统的性能、可用性、可控性和可解释性。此外,两位教育专家对生成的学习计划质量进行了评估。
页面级的文档检索基准–ViDoRe, 端到端训练的页面级文档检索视觉模型–ColPali:文档检索系统在搜索引擎和相关性优化(RAG)领域具有重要 作用。目前的系统虽然主要依赖文本信息进行文档索引,但在处理含有丰富视觉元素(如图表、布局、表格和字体等)的文档时,并未充分利用这些视觉线索,导致检索效果不佳。性能瓶颈在于数据获取阶段:实施OCR文字识别、利用检测网络检测文档布局,以及对图像进行caption等操作,这些步骤极其耗时。而且,当前检索系统的评估标准过于聚焦于文档的文本信息,而忽略了视觉信息的重要性,这是一个偏颇的评价方式。实际上,检索系统的性能评估应该全面考虑text embedding模型的效能,同时也要充分利用视觉信息。回答的时候图文视频混排比较符合实际情况。
ViDoRe 排行榜:https://huggingface.co/spaces/vidore/vidore-leaderboard
工程
Qwen3正式发布并全部开源8款「混合推理模型」:此次开源包括两款MoE模型:Qwen3-235B-A22B(2350多亿总参数、 220多亿激活参),以及Qwen3-30B-A3B(300亿总参数、30亿激活参数);以及六个Dense模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。旗舰模型Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,与一众顶级模型相比,表现出极具竞争力的结果。
预训练过程分为三个阶段。在第一阶段(S1),模型在超过 30 万亿个 token 上进行了预训练,上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。在第二阶段(S2),我们通过增加知识密集型数据(如 STEM、编程和推理任务)的比例来改进数据集,随后模型又在额外的 5 万亿个 token 上进行了预训练。在最后阶段,我们使用高质量的长上下文数据将上下文长度扩展到 32K token,确保模型能够有效地处理更长的输入。
为了开发能够同时具备思考推理和快速响应能力的混合模型,后训练分为四个阶段的训练流程。该流程包括:(1)长思维链冷启动,(2)长思维链强化学习,(3)思维模式融合,以及(4)通用强化学习。
使用 GRPO 方法(强化学习基于Qwen)训练一个语言模型来安排日程。他首先定义了问题,即要求模型根据事件的重要性和时间安排来创建一个最大化总权重的日程。然后,他生成了一个数据集,用于训练和评估模型,并详细介绍了如何设计奖励函数、选择和加载模型进行训练,以及如何准备训练配置。在训练过程中,他遇到了一些挑战,比如模型在处理事件优先级和重叠事件时的表现不佳,以及在训练过程中出现的一些典型的强化学习问题,如奖励函数的错误设计。最终,他通过评估和对比的方法发现其训练的模型在处理事件安排时表现出了显著的改进。他还讨论了如何进一步改进模型的表现,并总结了GRPO在语言模型训练中的应用,强调了基础模型选择、奖励函数设计的重要性,以及训练配置的设置。属于手把手在教了,推荐!
Synthetic Data Kit 是一个开源库,专为 LLM 微调而设计,旨在通过提供高质量的合成数据集来帮助研究人员和开发者更有效地进行语言模型的微调。该工具支持多种语言,包括英语、中文等,并且提供了多种预设的数据集,用户可以根据自己的需求进行选择。Synthetic Data Kit 通过自动化的流程简化了数据集的创建过程,使得用户能够更快地开始微调任务。
针对主流大语言模型(LLM)微调时,最大挑战是获取高质量、特定任务相关的数据。这个工具简化了生成、筛选和格式化合成数据集的过程。现实世界中的大多数数据集往往杂乱无序,结构混乱,与LLM期望的”用户/助手”格式相差甚远。Meta的合成数据工具包填补了这一差距,使得用户能够生成适合微调的推理轨迹和问答对等内容。
Agentic-RAG-R1:Agentic RAG-R1 的训练过程融合了强化学习中的 GRPO 算法,旨在加强语言模型的推理能力。在这个框架下,语言模型被教会了何时检索外部知识,什么时候进行推理,以及如何将这些信息融合到其答案中。训程过程中,模型通过 Zero-2 和 Zero-3 模式进行优化,这些模式允许更有效的资源使用,即使在较小的参数集合上也能进行大规模的模型训练。在训练后的评估中,Agentic RAG-R1 显示出显著提高的 format accuracy 和 answer accuracy,这表明了强化学习算法在提升模型性能方面的成功应用。通过这种方式,Agentic RAG-R1 不仅提高了模型在回答问题时的准确性,而且增强了模型处理复杂问题的能力。
这篇属于手把手教你协同已有的 RAG 系统构建 Deep Research 功能,模型是Qwen 2.5-7B-Instruct 微调实现的,模型能够决定何时检索、检索什么以及如何将检索到的证据编织到其推理中。
这是一篇关于 RAG 与推理双向协同的综述,推理增强检索:利用推理能力提升检索的相关性和精度,解决语义差异、意图不明确等问题,检索增强推理:通过引入外部知识支持多步推理,弥补知识空缺,避免推理中断。
推理增强检索(Reasoning-Augmented Retrieval) 通过引入推理能力,提升检索的相关性和精度,解决以下问题:
- 语义差异:处理查询与文档之间的语义不一致。
- 意图消歧:明确用户查询的真实意图。
- 异构数据协调:整合来自不同来源的数据。
- 复杂任务中的信息不完整性:填补信息空缺,提供完整答案。
- 检索效率与精度的权衡:在保证检索速度的同时提高结果的准确性。
检索增强推理(Retrieval-Augmented Reasoning) 利用外部知识支持多步推理,解决以下挑战:
- 知识空缺:弥补模型内部知识的不足。
- 推理中断:避免因缺乏必要信息而导致的推理过程中断。
- 搜索空间爆炸:通过检索限制推理的搜索空间,避免陷入局部最优。
- 动态知识需求:根据任务需求动态获取相关知识。
- 推理深度与广度不足:扩展推理的深度和广度,提升答案质量。
协同工作流模式 (预定义工作流)
- 预检索推理(Pre-Retrieval Reasoning):在检索前进行初步推理,以指导检索过程。
- 后检索推理(Post-Retrieval Reasoning):在检索后进行推理,整合检索结果生成答案。
- 混合推理(Hybrid Reasoning):结合预检索和后检索推理,形成闭环。
协同工作流模式 (动态RAG工作流)
- 主动驱动推理(Proactivity-Driven Reasoning):模型根据任务需求主动发起检索和推理。
- 反思驱动推理(Reflection-Driven Reasoning):模型在生成过程中进行自我反思,调整推理路径。
- 反馈驱动推理(Feedback-Driven Reasoning):根据外部反馈调整检索和推理策略。
推理过程实现
- 链式思维(Chain-of-Thought, CoT):引导模型逐步推理,形成逻辑链条。
- 特殊标记预测(Special Token Prediction):通过特殊标记引导模型关注关键信息。
- 搜索驱动推理(Search-Driven Reasoning):结合搜索结果进行推理。
- 图上推理(Reasoning on Graph):利用知识图谱进行结构化推理。
- 外部求解器(External Solver):借助外部工具或模型辅助推理。
推理优化方法
- 基于提示的优化(Prompt-Based Optimization):设计有效的提示词引导模型推理。
- 微调优化(Tuning-Based Optimization):通过微调模型参数提升推理能力。
- 强化学习优化(RL-Based Optimization):利用强化学习策略优化推理路径。
Zep 对 Mem0 的评估结果提出质疑(两个做长期记忆组件的产品):Mem0 在其研究中使用了 LoCoMo 基准(长期记忆准确度)来评估代理记忆系统的性能,并声称其系统优于竞争对手,包括 Zep。然而,Zep 团队指出,在正确配置和实现 Zep 系统后,其在 LoCoMo 基准上的表现实际上优于 Mem0。具体而言,Zep 实现了 84.61% 的 J 分数,相较于 Mem0 最佳配置(Mem0 Graph)的 65.99%,提高了约 23.6%。此外,在搜索延迟方面,Zep 的 p95 搜索延迟为 0.632 秒,优于 Mem0 报告的 0.778 秒。值得注意的是,Mem0 的基本配置虽然显示出更低的延迟(0.200 秒),但其使用的是更简单的向量存储/缓存系统,缺乏图结构的关系能力,且在准确性方面表现最差。
Zep 团队指出,Mem0 所使用的 LoCoMo 基准存在以下几个主要问题:
- 对长程记忆的测试不足:LoCoMo 中的对话平均长度为 16,000 至 26,000 个 token,这在现代大语言模型的上下文窗口能力范围内,无法有效测试系统的长期记忆检索能力。
- 缺乏关键记忆功能的评估:该基准未能测试知识更新等关键功能,例如用户信息的变化,这对于评估代理记忆系统的实用性至关重要。
- 数据质量问题:数据集中存在多个质量问题,包括无法使用的类别、模糊的答案标签和不一致的评分标准,这些都影响了评估结果的可靠性。
Zep 团队还指出,Mem0 的系统在 LoCoMo 基准上甚至被一个简单的全上下文基线(将整个对话提供给 LLM)所超越,后者实现了约 73% 的 J 分数,而 Mem0 的最佳得分约为 68%。
ACE-Step :由 ACE Studio 和 StepFun 联合开发的开源音乐生成模型,支持生成多种风格歌曲,支持包括中文在内的 19 种语言。支持各种控制能力,包括声音克隆、歌词修改、人声性别调整、混音及音轨生成。生成的效果水平接近 Suno,旋律连贯,歌词对齐。
产品
- HeyGen 发布了 Avatar IV 数字人模型,只需一张照片、一段脚本和语音,用户即可快速生成高度逼真的数字人视频。新模型采用“扩散式音频驱动表情引擎”,能根据语音的节奏、语调和情感,合成自然的面部表情和微动作,支持侧脸图像、多角度变化及唱歌节奏同步。
- 谷歌正式发布 Gemini 2.5 Pro Preview 05-06:作为 2.5 Pro 的重大升级版本,其编程能力获得突破性提升 —— 不仅在 LMArena 编码排行榜登顶,更在 WebDev Arena 排行榜稳居第一。
- Gemini 2.0 Flash 的图像生成功能现已在 Google AI Studio 和 Vertex AI 中以预览版形式向开发者开放。这一更新使开发者能够通过 Gemini API 使用名为“gemini-2.0-flash-preview-image-generation”的模型,进行更高频率的对话式图像生成和编辑。
- ChatGPT 现在支持将 GitHub 仓库连接到 Deep Research中。 可以针对GitHub 仓库提出问题,Deep Research读取源代码和 Pull Requests,生成详细报告并附带引用。
- ComfyUI 新增多款付费模型 API 节点支持,节点的定价与直接调用各模型官方 API 的价格一致。包含了当前成熟的图像视频领域的API服务,付费模型完整价格表:https://docs.comfy.org/tutorials/api-nodes/pricing
- Anthropic 发布 Integrations 功能,允许 Claude 可以直接第三方软件。支持通过远程 MCP(Model Context Protocol)进行自定义集成,适用于 Claude Max、Team 和 Enterprise 计划的用户。该功能目前处于测试阶段,旨在使 Claude 能够直接连接到用户常用的工具和数据源,从而在熟悉的软件环境中操作,并从外部工具的完整上下文中获取洞察。
市场
- Cursor完成9亿美元的融资 估值提升至90亿美元。
- 苹果公司正在与Anthropic合作开发一款AI驱动的编程平台:该平台旨在通过集成Anthropic的Claude Sonnet模型,增强苹果的Xcode开发环境,使其能够自动编写、编辑和测试代码,从而提高开发效率。
- ChatGPT 搜索重大改进,即将推出购物功能。现在用户可以直接在对话中查找、比价并完成购买。官方特别强调,所有推荐商品都是算法独立选择。
观点
中国 AI 投资人:练习时长两年半:Founder Park 访谈了十多家投资机构,美元、人民币、大厂战投、新成立的基金。这些活跃在一线的投资人们,不论年龄、资历、title,他们积极甚至激进。将部分可公开的对话整理成文,希望能为当下的 AI 创业者提供一些有参考价值的思考。
文章为合订版本,各位采访者的单独访谈原文,放在飞书知识库里 https://geek.feishu.cn/wiki/XitKwsKJqiZie8kNPVLcVoVynKe
Vol.50:Evaluation is all you need