Vol.44:模型即产品的技术实现路径
大家好!Weekly Gradient 第 44 期内容已送达!
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
论文
Search-R1:使用强化学习训练LLMs进行推理和利用搜索引擎: 该团队通过 RHF 复现 OpenAI Deep Research效果,SEARCH-R1通过引入新的强化学习框架来实现多轮检索和推理,具体实现方式如下:
多轮检索和推理的框架:
EARCH-R1将搜索引擎视为环境的一部分,并允许在推理过程中进行多轮检索。支持LLM在推理时动态调用搜索引擎,以获取外部信息。标记化结构:
在生成过程中,SEARCH-R1使用特定的标记来指示检索和推理的步骤。例如,使用<search>
和</search>
标记来包裹搜索查询,当LLM检测到这些标记时,它会提取查询并调用搜索引擎。
搜索引擎返回的结果被包裹在<information>
和</information>
标记之间,并附加到生成的序列中,作为下一步推理的上下文。
最终答案被格式化为<answer>
和</answer>
标记之间的内容。迭代过程:
LLM在推理过程中会交替进行文本生成和搜索引擎调用。每次生成一个响应后,系统会检查是否需要检索更多信息。如果需要,系统会执行检索并将结果插入到生成序列中。这个过程会持续进行,直到达到某个条件(如搜索预算耗尽或生成最终答案)为止。训练模板:
为了训练SEARCH-R1,研究人员设计了一个简单的模板,指导LLM按照预定义的指令进行操作。模板结构化地引导模型在推理过程中进行检索和生成,确保模型的学习过程不受特定内容的偏见影响。通过这种方式,SEARCH-R1能够在推理过程中灵活地进行多轮检索,从而有效地利用外部知识来增强其推理能力。
关于可信 LLM Agent 的调查:威胁与应对措施:由南洋理工大学和松鼠 AI 的研究团队进行的一项关于可信 LLM Agent 的安全性研究综述。该研究不打算全面覆盖所有 Agent 安全研究领域,而是聚焦于建立一个模块化的 Agent 安全框架体系。这份综述提供了一个系统性的视角,将 Agent 系统分解为内部模块(大脑、记忆、工具)和外部模块(用户、其他Agent、环境),并梳理了各模块面临的安全风险和现有的应对策略。TrustAgent Survey 将可信 LLM 的概念扩展到可信 Agent 的新兴范式,并从技术性和多维性角度出发,对 LLM 可信度的维度进行了扩展,包括安全性、隐私性、真实性、公平性和鲁棒性。
内生安全:内在可信度关注 Agent 系统内部模块的可信度。在 TrustAgent Survey 的定义中,Agent 系统是一个具有类人认知的独立实体,由具有记忆的大脑和工具形式的行为组成。由于这些模块的功能和性质不同,由此产生的可信度问题也各不相同。
外生安全:外部可信度关注与 Agent 系统交互的外部模块的可信度。在运行过程中,Agent 不断与外部交互,以收集信息或执行决策等。TrustAgent Survey 将与外部模块的交互分为三类:Agent 与 Agent、Agent 与环境和 Agent 与用户。
DAgent:自动化报告生成 Agent 方案:DAgent 的核心架构包括规划模块、工具模块和记忆模块。规划模块相当于 DAgent 的“大脑”,负责分析用户输入的自然语言问题,并决定是否需要将问题分解为多个子问题。工具模块包含了多个专用工具,如问题分解工具、数据检索工具、SQL 重写工具和报告生成工具。记忆模块记录了用户的历史问题、执行路径和中间结果,确保系统能够高效处理后续任务。
-
Long CoT与Short CoT的主要区别
Long CoT和Short CoT的主要区别在于推理的深度、重新访问连接和逻辑节点探索的能力。Short CoT 通常具有浅层的线性推理过程,推理节点数量有限,推理过程快速且直接,依赖简单的表面级转换和最小限度的替代路径探索。这种推理方式适用于简单、明确的任务,但在处理复杂或复杂逻辑结构的任务时表现不佳。
Long CoT 涉及更深的推理、反思和探索。它能够处理更多的逻辑节点,允许模型在推理过程中进行更广泛的探索和反思。具体特点包括:深度推理:能够处理更复杂的逻辑节点,通过放松Short CoT中的约束条件来实现。广泛探索:鼓励分支探索不确定的或未知的逻辑节点,扩大潜在的推理路径。可行反思:涉及重新访问先前的逻辑节点以验证其连接的有效性,并进行修正或选择替代逻辑路径。这些特点使得Long CoT在处理复杂任务时表现更为出色,能够生成更高效和连贯的结果。
Long CoT中的关键现象有哪些
- 过度思考现象:当推理链长度超过某个阈值时,性能下降。研究表明,过长的推理链可能导致模型陷入“雪崩错误”,即不断重复错误的推理路径。论文通过数学建模和实验验证了这一现象,并提出需要保持推理长度和逻辑复杂性在某个边界内。
- 测试时扩展现象:通过增加推理路径长度或并行推理步骤,可以显著提高性能。然而,这也带来了误差累积和计算资源消耗的问题。论文介绍了垂直扩展和并行扩展两种策略,并通过实验验证了它们的效果。垂直扩展通过在单次模型生成中扩展推理输出,显著提升了性能;并行扩展则通过增加推理迭代次数并验证结果来提高性能,但也存在资源消耗的问题。
- 顿悟时刻现象:直接使用规则奖励可以通过强化学习触发顿悟时刻,促进自然自我反思。论文通过实验验证了这一点,并探讨了如何在训练过程中引入规则奖励以激活Long CoT。
三种反馈机制(整体反馈、过程反馈和混合反馈)
- 整体反馈:提供对整个过程和结果的全局视图,而不评估每一步。整体反馈有助于提高推理技能和奖励建模,特别是在强化学习中。常见的整体反馈方法包括:
- 结果奖励模型:基于最终答案的奖励模型,提供价值导向的反馈。
- 规则提取:从规则中提取反馈,适用于数学场景。
- 批评模型:通过自然语言或结构化数据格式的自我反思或自我批判,检测错误并改进输出。
- 过程反馈:结合过程反馈和MCTS或RL奖励来提供自动化的逐步指导,减少对人工标注的依赖。常见的过程反馈方法包括:
- 过程注释的PRM训练:使用人工标注的数据进行训练,提供可靠的奖励模型。
- 结果注释的PRM训练:利用结果监督或隐式反馈来训练PRM,减少对大量人工标注数据的依赖。
- 环境驱动的反馈推理:将模型与外部环境结合,生成更可解释和可控的反馈。
- 混合反馈:结合整体反馈和过程反馈,提供最优的反馈。常见的方法包括:
- 共识过滤机制:结合蒙特卡罗估计和LLM判断来增强整体和逐步反馈。
- Step-KTO:结合逐步过程级和结果级二进制反馈,使用PRM和ORM指导语言模型走向一致的推理。
工程
Second-Me:心识宇宙团队出品的项目,为此还写了一篇文章介绍了设计哲学( Second Me:在 AI 中保留自我的火种),Second Me 旨在为用户在 AI 环境中创造一个个性化的、可复制的和可移动的数字版本。这个 AI 版本能够理解和执行用户的意愿,同时在整个用户体验过程中加强隐私保护。通过 Second Me,用户可以与 AI 进行交互,并通过自然语言或编程接口来制和个性化 AI 的行为。这个框架支持多种编程语言和平台,使得 Second Me 能够广泛地适应不同的应用场景。Second Me 网络通过智能化交互和数据处理,它允许用户在全球范围内保持个性化的 AI 体验,同时保障了数据和隐私的安全。
又一股推动去中心化 Agent Network 的力量。
mcp-agent:一个用于构建 Agent 的简单、可组合的框架,它利用 Model Context Protocol (MCP) 和 Anthropic 公司提出的简单、可组合的模式来构建生产级别的 AI Agent 。该框架的核心功能包括管理 MCP 服务器连接的生命周期、实现 Building Effective Agents 文章中描述的所有模式,并以可组合的方式支持这些模式的链式调用。此外,它还实现了 OpenAI 的 Swarm 模式,以模型无关的方式进行多 Agent 协调。
story-flicks:一个组合多个模态模型的项目,旨在通过用户输入的故事主题,一键生成高清故事短视频。生成的视频内容包括 AI 生成的图像、故事文本、音频和字幕。通过结合大型语言模型和图像生成模型,为用户提供了一种快速、便捷的方式,将文字故事转化为生动的视频内容。
阶跃星辰开源图生视频模型 Step-Video-TI2V:该模型支持生成 102 帧、5 秒、540P 分辨率的视频,具备运动幅度可控和镜头运动可控的特点,同时具有一定的特效生成能力。与其他开源的图生视频模型相比,Step-Video-TI2V 在参数规模、运动幅度可控、多种运镜控制以及动漫效果上更具优势。该模型已经完成了与华为昇腚计算平台的适配。
腾讯混元团队开源首个Mamba架构推理模型 HunYuan-T1:它是一个基于强化学习的大规模混合 Mamba 推理模型。该模型在 3 月初建立在 TurboS 快思考基础上,进行了大规模后训练,提升了推理能力,并对齐了人类偏好。混元 - T1 在深度推理方面展现出的独特优势,包括长文捕捉能力和高效的计算方式,使得在相同部署条件下,解码速度提高了两倍。在模型后训练阶段,团队专注于强化学习训练,优化了推理能力和对齐人类偏好的策略。混元 - T1 在公开的 benchmark 中表现出色,尤其在 MMLU-PRO、CEval、AIME、Zebra Loigc 等评测中,以及在代码、数学、逻辑推理等领域的能力。
腾讯混元团队开源其最新的 5 个 3D 生成模型,这些模型基于 Hunyuan3D-2.0 架构,包括加速型 Turbo 系列、多视图版本模型、以及轻量级的 mini 系列,旨在提高 3D 模型的生成效率和质量,降低算力成本,并扩展应用场景。
Mistral 开源 24B 多模态模型Mistral-Small-3.1:各方面测评分数都在同等参数级上对标 Google Gemma3-27B模型。
- 拥有 Apache 2.0 许可证,可以自由使用。
- 支持多种语言,包括英语、法语、德语和中文等。
- 支持 Agent 功能,可以进行原生函数调用和 JSON 输出。
- 对系统提示的遵循和支持非常强,具有较强的推理能力。
- 上下文窗口为 128k,词表大小为 131k,使用 Tekken 分词器。
- 在法律咨询和医学诊断方面进行了特定的微调,效果更佳。
关于 DeepSeek-R1 API 评测,至少有 7 个误区
第三方 R1 降智:有人认为第三方平台的 DeepSeek-R1 API 效果不如官方的,实际上是因为使用场景和配置导致的差异,而非模型本身有差。不应将 API 与 App/网页端的效果混合对比,而应专注于测试平台的 API 服务,确保测试时的系统提示词、超参数(Temperature、Top-p、Top-k)等指标一致。
官方 R1 是原版:有人误认官方的 R1 模型是未经降水的版本,实际上官方和第三方提供的都是经过量化的 FP8 版本。DeepSeek 官方提供的 R1 模型是经过量化的 FP8 版本,而不是有所不同的官方特供版和第三方版本。
单次测试的随机性:有人误解了模型输出的随机性,或者仅仅测试了免费版的服务而得出的结论,都可能不准确。单次测试结果充满了随机性,不能代表模型的整体性能。评测时应多次测试并取平均值。
云平台 API 的功能限制:有人认为某些云平台的 API 不能联网或上传文件,实际上大模型云服务平台与上层应用面向不同的用户群体,不应混为一谈。大模型云服务平台主要提供 API 服务,而 Chatbot 等应用直接面向 C 端用户,因以联网、文件上传等配套功能可能更完善。
超参数设置不一致:有人在测试时未能考虑到超参数设置的一致性,导致测试结果的差异可能是由于超参数设置不一致造成的。测试模型输出准确率时,应确保超参数设置一致,以避免不准确的测试结果。
API 效果与速度的测试误区:有人在测试时未能考虑到不同时间点的资源占用情况可能不同,导致测试结果存在较大误差。API 效果和速度测试时,应考虑到不同时间点的资源占用情况,测试多次并取平均值。
模型输出长度与精度的误解:有人错误地认为模型输出越长精度越高,实际上模型输出的长数多少并不等同于精度高低。模型输出的长数多少并不直接关联于精度,更长的输出并不代表更好的效果。
产品
Anthropic 为 Claude 3.7 Sonnet 添加网页搜索支持:Anthropic 刚刚为其 AI 聊天机器人 Claude 推出了网页搜索功能,目前该功能处于预览阶段,仅对美国付费用户开放,未来计划逐步向免费用户和其他国家推广,符合条件的用户可以通过 Claude 网页应用使用 Claude 3.7 Sonnet 模型来体验这一功能。此次更新让 Claude 能够获取实时网络数据,并提供带有来源引用的回答,从而利用最新信息丰富其知识库。
OpenAI 发布三个新的音频模型 API:分别为语音识别模型(gpt-4o-transcribe、gpt-4o-mini-transcribe)和文本转语音模型(gpt-4o-mini-tts)。
gpt-4o-transcribe
:精准版的语音识别模型,优化了之前的 Whisper 模型,提高了对带口音、口音明显或语速变化快的环境下的识别准确率。gpt-4o-mini-transcribe
:轻量版的语音识别模型,性能同gpt-4o-transcribe
,但价注重成本效益,适合日常小规模使用。gpt-4o-mini-tts
:文本转语音模型,支持自定义声音风格,可以通过指令控制声音表现,如模仿客服人员、兴奋地讲述故事等。Gemini APP 推出了 Canvas 和文字转播客功能:Canvas 与 OpenAI 的 ChatGPT Canvas 工具以及 Anthropic 的 Artifacts 在概念上相似,它为 Gemini 用户提供了一个互动空间,用户可以在其中创建、完善并分享写作和编程项目。除了 Canvas 之外,谷歌还宣布将 NotebookLM 的音频概览(Audio Overview)功能引入 Gemini。Gemini 的音频概览功能能够创建听起来非常真实的播客风格音频摘要,涵盖文档、网页和其他来源的内容。
谷歌云推出语音模型 Chirp 3:Chirp 3: Instant Custom Voice 是 Google Cloud 提供的一个功能,它允许用户通过上传自己的高质量音频录音来创建一个个性化的声音模型。这个声音模型可以被用于 Google Cloud 的 Text-to-Speech API,用于生成连续的或长篇文本的语音合成。该功能目前支持多种语言和包括但不限于中文、英文(包括美国、英国、澳大利亚、印度等地区)、西班牙语、法语、德语、意大利语等。
Zoom 宣布推出一系列 AI Agent 增强产品:这些增强产品包括 Zoom Meetings、Zoom Phone、Zoom Team Chat、Zoom Docs、Zoom Contact Center 和 Zoom Workplace 等。其中,AI Companion 作为一个类 ChatGPT 的助手,将具备记忆、推理、任务执行和协调四大功能,帮助用户从繁琐的工作中解脱出来,节省时间提升效率。AI Companion 获得 Agent 增强后,不仅能够生成语音邮件总结,还支持 Zoom for Microsoft Teams 应用,允许用户在 Microsoft Teams 中直接接收 Zoom Phone 的通话总结,并优先处理语音邮件中的任务。此外,移动应用上的新语音记录器功能将使用户在面对面交流时无需手动做笔记,AI Companion 能够自动转录、总结并捕捉行动内容。在客户体验方面,Zoom Contact Center 引入了 Agent 功能,能够自动处理复杂的客户查询并代表客户执行任务,这些虚拟 Agent 不仅支持聊天渠道,还将扩展到语音渠道,提供无缝的 7*24 小时全天候服务。
怎样做工具类 SaaS 产品+AI,Zoom 深度全面接入AI,切入很丝滑,推荐阅读官网三篇系统博客的思考。
AI视频进展速读|Pika高速更新,动漫风格神仙打架,Wan 2.1成为最强开源模型:一个非常不错的关于 AI 视频进展的周更信息源,推荐感兴趣的朋友关注。
Pika 模型进入 2.2 时代,支持高分辨率视频生成。Wan 2.1 成为行业内最强的开源模型,支持 720p 和 480p 视频生成。Luma 推出了新型号 Ray2 Flash,速度和性价比均有提升。Pixverse 和 Runway 模型也进行了更新和优化。最新的 AI 视频案例包括使用 Veo2 T2V 模型的作品,以及使用 Luma AI 进 vidio 特效的作品。
市场
- Google 对 Anthropic 的投资规模超出了此前公开的数额:Google 持有 Anthropic 14% 的股份,并计划通过可转换债务协议在今年再投资 7.5 亿美金。Google 对 Anthropic 的总投资已超过 30 亿美金。尽管 Google 没有投票权、董事会席位或直接控制权,但其投资引发了对 Anthropic 独立性的质疑。与此同时,Amazon 也已同意向 Anthropic 投资高达 80 亿美金。
- Meta 正在测试自研 AI 训练芯片,以减少对 Nvidia 的依赖:该芯片由台积电制造,专门用于处理 AI 工作负载。目前,Meta 正在进行小规模部署测试,若测试成功将扩大生产规模。此前,Meta 曾推出过用于运行 AI 模型的定制芯片,但这是首次尝试用于训练。Meta 今年预计在资本支出上投入 650 亿美元,其中大部分用于购买 Nvidia 的 GPU。
- 阿里云启动 “T 项目”,加速 AI 技术的研发,涉及 AI 引擎、LLM、多模态等领域的探索。
观点
-
- 技术创新的爆发:随着强化学习和其他高级训练技术的发展,模型本身的能力正在迅速提升。这些模型能够执行更复杂的任务,甚至能够自主学习和适应,从而为未来的应用层开发提供更强大的基础。
- 价值链的上移:随着推理成本的下降和模型能力的提升,模型提供商必须向上移动到价值链的更高层次。这意味着未来的价值可能不再仅仅来自于应用层的产品,而是来自于能够提供高级模型训练和优化的能力。
- 应用层的自动化和颠覆:随着模型的进步,许多现有的应用层任务可能会被自动化。这将导致应用层的商业模式需要重新评估,而模型训练则成为创新和竞争的新前沿。
- 投资者的关注点转移:投资者开始意识到,仅仅依赖于应用层的开发可能不再是最佳的投资策略。相反,投资于模型训练和相关基础设施可能会带来更大的长期回报。
- 模型作为基础设施:DeepSeek 等模型已经开始作为通用基础设施层被视为,而不仅仅是单一产品。这种基础设施层的模型能够支持多种应用,为整个AI生态系统提供动力。
- 小型专业团队的角色:未来的AI用例可能需要小型专业团队来解决。这些团队将专注于模型训练,以适应不同行业的特定需求,而不是仅仅开发通用应用。
- 大型实验室的战略调整:大型实验室正在调整策略,将重点放在模型训练上,而不是仅仅作为服务提供商。他们的合作伙伴将参与早期培训阶段,这表明模型训练的重要性正在被认识和强化。
模型即产品的技术实现路径,一篇实践,通过实验对比了 RAG(Retrieval Augmented Generation)的传统实践与 Agentic RAG 的新 Paradigm。在传统的 RAG 实践中,通常依赖人工设计的工作流程来编排 LLM(Large Language Model)和工具的系统,而这些工作流程往往脆弱且难以适应复杂的多轮检索场景。而在 Agentic RAG 中,模型能够自主决定是否调要联网检索,并且能够自行搭配接口进行信息检索和流程编排,显示出更高的自主性和智能化。作者通过示例代码和实验效果展示了如何利用特殊 token(如
<tool_call>
和<tool_response>
)来实现模型与工具接口的无缝连接,以及如何通过 regex stopping criteria(正则停止符)来控制模型生成的流程。在案例实践中,通过一个具体的测试问题,展示了模型如何自主决定是否需要联网检索,并且能够根据检索结果进行推理和生成最终答案。1、采用具备使用工具的推理基础模型
2、精心设计的合成或人工整理的再训练数据
3、在细分场景下进行的强化训练或 SFT(算法层面)
只需进一步掩码工具接口响应返回的输出 tokens 对应的损失即, 这种再训练方法(针对智能体的 SFT 或强化学习),预计将成为Agent开发和部署的主流方式,将 post training 应用于Agent的训练,并将训练好的模型直接用于端到端的推理(即产品),再训练阶段已经考虑到各种行动和边缘情况,使得部署更加简单,无需人为编写复杂的工作流程。
Vol.44:模型即产品的技术实现路径