Vol.53 如何让 Agent 规划调用工具

本期综合讨论了 Agent 在多轮对话中的应用和挑战,包括 LLMs 的局限性及如何克服这些限制。文章强调了通过端到端的强化学习、ChatBI 的实践经验、AI 智能体的提示工程技巧、以及大模型技术演进的趋势。同时,文章也探讨了 AI 在商业智能领域的应用,包括 AI 视频内容生成、AI 生成播客、以及新版本的开源模型。此外,文章还讨论了蚂蚁集团在 AI 领域的应用,以及 AI Agent 如何帮助企业进行流程改造和内部数据分析。最终,文章提出了对 AI Agent 潜力的新颖视角,强调了 AI Agent 在模拟真实用户和主观世界中的重要性。

论文

  1. LLMs 在多轮对话中容易偏离初衷:大语言模型在多轮对话中容易偏离初衷的原因:

    1. 上下文管理困难:LLMs在长时间对话中保持上下文的准确性非常困难。随着对话的进行,LLMs往往会累积错误,导致后续回答的质量下降。

    2. 过度拟合(Overfitting):LLMs可能会在初次回答中选择一个看似合理的答案,但这个答案可能基于不完整或不准确的信息。一旦错误的信息被 LLM 接受,后续的对话可能会基于这个错误的基础上继续。

    3. 信息滞后(Information Cascading):在多轮对话中,一次小的错误可能会导致整个对话的方向错误,因为 LLMs 可能会在后续的回答中重复或增强这个错误。

    4. 缺乏灵活性:LLMs通常缺乏从错误中恢复的能力。当迫切需要重新评估或调整策略时,LLMs可能无法有效地进出相应的调整。

    5. 状态追踪能力有限:与人类相比,LLMs在追踪和维护对话状态方面不足,这可能导致它们在多轮对话中失去对话的轨迹。

    6. 训练与实际应用的差异:LLMs通常在大量数据上进行训练,这些数据可能不足以涵盖所有可能的对话情境。因此,在实际应用中,LLMs可能会遇到预训练数据无法准确描述的情况。

    7. 缺乏上下文感知:LLMs往往缺乏对上下文的深层理解,这意味着它们可能无法识别哪些信息是关键的,哪些信息可以被忽略或需要更多的关注。

    因此,尽管LLMs在单轮对话中表现出色,但在多轮对话中,它们的局限性就会显现出来。为了克服这些问题,研究者和实践者们提出了一些策略,如编辑对话历史、分支对话以及更有效地管理上下文。这些策略旨在帮助LLM更好地维持对话的连贯性,减少因信息累积导致的问题。

  2. 用端到端RL复刻 o3的部分thinking with images能力:非常出色的实践分享,DeepEyes 团队在 Qwen2.5-VL-7B-Instruct 的基础上,通过端到端的 RL 训练方法,实现了 VLM 的 “边看图边思考” 的能力,这一过程没有 SFT 冷启,也不依赖外部专家模型。DeepEyes 在 7B 小模型上的指标全面超过了 Qwen2.5-VL 的 32B 版本,在数学、视觉等任务上也有不错的表现。代码、模型数据和实验细节均已开源。

  3. 阿里云推出 QwenLong-L1:阿里云的研究团队推出了 QwenLong-L1 模型,专门针对长文本推理任务。该模型采用了预热监督微调(SFT),通过高质量的示范数据初始化稳定的策略模型。随后,通过分阶段强化学习,从短上下文逐步扩展到长上下文,确保策略平稳过渡。同时,通过难度感知的回顾采样优先选择困难样本,促进模型在复杂推理中的学习。此外,渐进式上下文扩展策略和混合奖励机制的应用,使得模型能够更稳定地处理长文本推理任务,提高了训练效率和模型稳定性。

工程

  1. 一文分享 ChatBI 实践经验:作者回顾了 BI 产品从报表式、自助式到智能式的发展历程,然后详细介绍了 ChatBI 在商业智能领域的应用场景,包括数据解读与总结、动态可视化模板和对话式查数。接着讨论了两种主要的实现方案 ——Text2SQL 和 Text2DSL,以及它们各自的优缺点和适用场景。最后,文章分享了 ChatBI 项目的实践经历,包括背景分析、方案选择、产品设计以及效果演示,强调了 ChatBI 在提升用户体验和产品效率方面的潜力。
  2. 如何让 Agent 规划调用工具:文章深入分析了提升多工具 Agent 智能体性能的关键——规划。引用 OpenAI 和 Anthropic 的研究成果,指出在调用工具前进行显式规划的益处。作者团队基于 Anthropic 的“思考”工具思路,在内部平台实现了“思考和规划”工具,并详细阐述了选择该方案的原因(如提升开源模型遵循能力、结构化输出)。文章进一步介绍了具体的实现细节,包括模型选型(DeepSeek V3)、工具配置(“思考和规划”工具定义、并行调用考量)以及系统、业务、工具描述等多层次的 Prompt 配置策略。最后讨论了使用专用思考工具与直接依赖推理模型差异的可能原因,并提供了参考链接。整体内容实用性强,为 Agent 开发者提供了具体的实现指导。
  3. 深度解析大模型技术演进脉络:RAG、Agent与多模态的实战经验与未来图景:本文由腾讯技术工程团队分享,系统地梳理并深入分析了当前大模型技术演进中的三大关键方向:检索增强生成(RAG)、智能体(Agent)和多模态大模型。文章首先阐述了 RAG 作为大模型的“动态知识引擎”,如何通过引入外部知识库克服模型的静态性、时效性和隐私局限,并讨论了其在文档向量化、多模态文档处理及可控检索方面的挑战与发展方向(如记忆驱动 RAG)。接着,介绍了 Agent 作为大模型的“智能执行中枢”,赋予模型自主规划、决策和工具调用能力,对比了 MetaGPT 和 AutoGen 等框架,并强调了 Multi-Agent 系统在处理复杂任务上的优势,同时也指出了 Agent 应用面临的技术、系统、安全及经济效益挑战,并提出应对方案。最后,文章探讨了多模态大模型作为“感知升级底座”的应用实践,结合紫东太初、360 和腾讯视频号的案例,展示了其在统一视觉任务、开放世界目标检测和视频内容审核等领域的潜力。全文脉络清晰,理论结合实践,并展望了 RAG、Agent、多模态深度融合迈向全模态智能体的未来图景,为技术从业者提供了全面的视角。
  4. CursorRules:AI编程助手规则调优实战:本文全面探讨了如何利用 AI 编程助手 Cursor 的 CursorRules 功能,对 AI 的行为进行定制和约束。文章从基础概念入手,介绍了 CursorRules 的全局与项目特定规则的区别及其优先级,并重点阐述了推荐使用的.cursor/rules/新目录结构及其模块化优势。进一步,文章详细讲解了 RuleType(如 Always 和 Auto Attached)的配置方法,以及如何通过@Docs 功能为 AI 提供外部文档等深度上下文信息。最后,作者分享了编写高效 CursorRules 的武林秘籍(持续迭代、松紧适度、使用示例、保持一致性、版本控制、团队协作)以及对未来更智能规则逻辑的展望。文章旨在帮助开发者将 AI 助手从“猪队友”调教为默契的“神队友”。
  5. 11 种实用的 AI 智能体提示工程技巧,帮助构建更可靠的智能体:文章深入探讨了构建高性能 AI 智能体的核心技术——提示工程(Prompt Engineering)。作者(来自 Augment Code)分享了他们在实践中总结的 11 种关键技巧,强调了提供高质量上下文、构建完整的“世界观”、保持提示一致性、与用户视角对齐、以及提供充分详尽信息的重要性。文章还讨论了评估提示的方法、模型调用工具的局限性,并提到有时“威胁”或“唤起同理心”可能有效。最后,作者指出提示工程存在瓶颈,需要结合其他方法,并强调像管理代码一样管理 Prompt 的重要性,以使智能体成为真正的能力扩展伙伴。文章主要围绕编码型智能体示例展开,但多数技巧具有普适性。
  6. 大模型开源开发全景与趋势解读:2025 年的大模型开源开发生态全景图显示了 AI 技术领域的快速发展。AI 技术在 2023 年超越了云原生技术,成为最有影响力的技术领域。通过 GitHub Trending 和 OpenRank 评价指标,全景图呈现了 135 个项目,涵盖了智能体应用层和模型基础设施层的技术领域。

产品

  1. AI 视频初创团队 Medeo 在播客中详解其如何实现“一句话生成视频”的体验,探索视频内容生成的未来。🎧 播客回放:Medeo 创始团队访谈
  2. 字节跳动推出的「扣子空间」增强 AI 生成播客功能,支持更灵活的内容组合与音频表达,让创作更高效智能。
  3. 国产开源模型团队 DeepSeek 发布新版本 DeepSeek-R1-0528,展现更强推理与编程能力,持续挑战主流大模型性能。
  4. Anthropic 发布四项 API Beta 版新功能,助力开发者构建更强大的 AI 智能体:Anthropic 在其 API 上发布了四个新的 Beta 版功能,旨在增强 AI 智能体开发。这些功能包括:用于在沙盒环境中运行 Python 代码的代码执行工具,使 Claude 成为数据分析师;MCP 连接器简化了集成 Asana 和 Zapier 等外部工具的过程,无需自定义客户端代码;文件 API 允许开发者存储和引用跨会话的文档,以实现高效的知识库和数据处理。最后,扩展的 Prompt 缓存提供 1 小时的 TTL 选项,可显著降低成本和延迟,适用于需要大量背景信息的长时间运行的智能体工作流。 这些功能与网络搜索等现有功能相结合,为构建复杂的 AI 应用提供了全面的工具包。

市场

  1. 蚂蚁集团 CEO 韩歆毅首次详解 AI 战略:支付宝双飞轮、AI First 和加速全球化是蚂蚁集团的三大战略。在 AI First 战略下,蚂蚁推出了金融、医疗、生活服务三款 AI 应用,蚂蚁内部业务也做了很多变革,支付宝、蚂蚁国际等核心业务加速 AI 化,蚂蚁内部也成立了通用人工智能(AGI)部门,开源开源两款 MoE 架构大模型,参数规模达 2900 亿。多模态模型 Ming-lite-omni 实现全模态交互,支持音视频图文输入输出。
  2. 细数31家AI应用小团队,平均20人、人均创收279万美元:白鲸出海针对 AI 小团队进行了深入分析,共有 31 家团队参与,平均每家团队只有 20 人,但年收入达到 279 万美元,比 SaaS 行业平均水平高出 10 倍。报告揭示了团队内部的一些增长策略,例如 Arcads AI 使用专门的 AI Spy Agent 监控竞争对手的热门广告,并自动将这些广告输入 ChatGPT o1 中以生成相似的脚本,然后利用自家产品 Arcads AI 制作类似的视频广告以吸引客户。在 Chatbase,负责增长的团队成员通过自建的自动化营销工作流,利用 Lovable 搭建前端,Make.com 进行自动抓取,Supabase 存储广告数据,并利用 ChatGPT 分析竞争对手的广告策略,实时生成市场洞察。
  3. Meta 重组 AI 团队应对 Llama 危机: Meta AI 团队在面对技术挑战和人才流失的同时,决定进行内部重组。小扎(Mark Zuckerberg)决定将 Meta AI 团队重组为 AI 产品团队、AGI 基础团队和 AI 研究部门。这一重组旨在提升 Meta AI 助手、AI Studio 开发平台及 Facebook、Instagram 和 WhatsApp 的 AI 功能。AGI 基础团队将负责 Llama 大模型系列和推理、多媒体与语音能力的提升。FAIR(Facebook AI Research)团队将保持独立,同时专注于多媒体研究。
  4. 非凡产研整理发布了《中国 AI Agent 行业图谱 1.0》和 《2025年中国AIGC行业图谱V5.0》,企业服务领域,挺有意思的几个公司,逻辑智能、Tyrion.ai、Shulex ,把 AI 能力集成到企业现有的 ERP、CRM、MES 等核心业务系统中,用 AI 做企业内部流程改造的,可以看看思路。
  5. 2025年中国人工智能与商业智能发展白皮书:AI 驱动商业智能决策,核心功能包括自动化数据处理(如智能清洗、报告生成)和智能决策支持(如趋势预测、根因分析),核心价值体现在自然语言交互、多模态数据整合、复杂推理协作及数据洞察故事化等方面。

观点

  1. 重新理解Agent的边界与潜力:本文是腾讯研究院对特赞创始人范凌博士关于 AI Agent 的访谈记录。范凌提出了与市场主流认知不同的 Agent 定义,认为除了作为效率工具,Agent 更重要的潜力在于模拟真实用户和主观世界。特赞的产品 Atypica.ai 通过大语言模型构建典型用户画像,并利用多智能体协同进行大规模、低成本的用户访谈,相较传统市场调研更高效便捷。文章还深入探讨了“幻觉”在商业研究中非共识、艺术性部分的价值,提出“发散优先模型”的概念,以捕捉更多元的视角。访谈前瞻了 AI 对组织结构和工作方式带来的变革,强调复合技能和去中心化协作的重要性,并探讨了 AI Agent 作为观察人类社会“镜像”的价值以及未来人与虚拟 Agent 可能的关系。

Vol.53 如何让 Agent 规划调用工具

https://liduos.com/the-memeber-newsletter-53.html

作者

莫尔索

发布于

2025-06-02

更新于

2025-06-09

许可协议

评论