Vol.46:智能体工具调用 API 与 GUI 的差异和融合
大家好!Weekly Gradient 第 46 期内容已送达!
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
论文
针对多轮对话中工具调用能力进行偏好优化:这项研究提出了一种名为DMPO的新方法,旨在帮助Agent在多轮对话中更好地学习和完成任务。通过使用一种称为“状态-动作占用度量”的技术,DMPO减少了学习过程中的错误积累。此外,通过引入长度归一化,DMPO能够更好地处理不同长度的任务。实验表明,DMPO在多个任务数据集上表现优异,特别是在处理噪声数据和长任务时表现出色。
模型上下文协议 (MCP):现状剖析、安全威胁与未来研究方向:模型上下文协议(Model Context Protocol,简称 MCP)充当一种标准化接口,旨在实现AI模型与外部工具及资源之间的无缝交互,打破数据孤岛,提升AI应用间的互操作性。论文系统阐述了MCP的核心组件、工作流程,首次定义了MCP Server的生命周期,主要包括创建、运行与更新三个关键阶段,并识别了各阶段潜在安全与隐私风险的同时提出了相应的威胁缓解策略。论文还涵盖了MCP发展现状,包括其在行业中的应用实践、典型使用场景,以及支持集成的工具与平台。未来展望部分深入探讨了MCP在更广泛AI生态中的演进潜力、面临的挑战与发展机遇。论文最后提出了若干关键建议,为MCP生态维护者、开发者、用户和研究人员在推动MCP安全性与可持续性方面提供参考,助力构建更加开放、可信的智能系统基础设施。
MemInsight:结构化记忆增强让 LLM Agent 更智能
MemInsight 方法通过以下几个方面提升了 LLM Agent 的记忆和认知能力:
- 自主记忆增强:MemInsight 通过自主识别和定义记忆增强属性,实现了记忆检索的结构化增强过程,使得 AI 代理能够更有效地处理历史交互和知识。
- 属性挖掘与注释:该方法利用 AI 代理的主动性,对记忆中的关键信息进行挖掘和注释,以便更准确地识别和检索相关记忆。
- 基于属性和嵌入的检索方法:MemInsight 通过基于属性的过滤检索和基于嵌入的检索方法,提高了记忆检索的准确性和相关性,这对于生成更准确的答案和提供更个性化的服务至关重要。
- 实验验证:通过在多个任务场景中进行的实验,如对话推荐、问答和事件摘要,MemInsight 的有效性得到了实证的验证,其中包括了记的准确性和相关性的提升。
-
差异点
交互模态:
- API 智能体主要通过文本形式的API调用来完成任务,依赖于预定义的函数和接口。
- GUI 智能体则通过像人一样操作图形界户界面(GUI)来完成任务,处理视觉或多模态输入,如鼠标点击和键盘输入等。
效率:
- API 智能体通常能够通过一次函数调用完成复杂任务,效率较高,能够降低延迟和推理成本。
- GUI 智能体完成任务需要执行一系列类似用户的操作,步骤繁琐,相比之下效率较低,执行速度慢且操作开销大。
可靠性:
- API 智能体在访问稳定、定义明确的端点时性能可靠,端点易于维护、版本控制和测试,结果具有可预测性。
- GUI 智能体受到应用程序布局或屏幕元素变化的影响,视觉解析和规划易受干扰,可能导致整体准确性下降。
可用性:
- API 智能体的功能受限于开发者定义和公开的端点,缺乏所需功能的API时无法直接调用。
- GUI 智能体几乎能与任何有图形用户界面的应用交互,无需特定的API定义,但需要更复杂的解析和错误处理。
灵活性:
- API 智能体只能调用预先开发、文档化和集成的API,扩展功能依赖新端点的创建和部署。
- GUI 智能体理论上可操作界面内任何可见元素,自由度高,但需要先进的计算机视觉或多模态推理能力。
安全性:
- API 智能体可以通过对每个端点进行身份验证、访问控制或速率限制来实现精细保护。
- GUI 智能体可能意外访问执特权或破坏性操作的界面部分,需额外的保障措施。
可维护性:
- API 智能体受益于版本化、标准化接口,只要底层端点稳定,智能体逻辑就基本稳定,新API也易于集成。
- GUI 智能体对界面设计变更敏感,如界面重设、弹出窗口、布局改变等都可能破坏自动化流程。
透明度和可解释性:
- API 智能体在后台执行操作,用户难以了解其执行任务的具体步骤,只能看到最终结果。
- GUI 智能体模仿用户级交互,操作过程直观可见,便于用户观察、干预或调整工作流程,提高了工作流程的可解释性。
拟人交互:
- API 智能体采用纯程序化方式执行函数调用,不模拟用户交互。
- GUI 智能体则完全模仿人类用户操作步骤,以自然顺序与界面元素交互,增强了可解释性,为用户带来更直观的体验,促进人机交互新模式的发展。
融合策略
API包装器:通过引入“包装器,可以将基于GUI的应用转序转变为类似API的服务。这种方式将GUI交互抽象为结构化的命令,使得开发者可以像使用API一样简化集成过程,提高效率和可扩展性,同时减少对专用GUI智能体的需求。不过这种方法仍依赖于可能变化的底层GUI元素。
统一编排工具:企业级自动化框架和流程编排工具提供了一个统一的环境,使开发者无需深入了解底层智能体机制即可构建高级工作流程。这些工具可以根据任务需求自动选择API调用或GUI交互, UFO平台是这种策略的一个例子,它优先使用API,无合适的API时则切换到GUI交互。这种方法虽然存在实时选择API和GUI的逻辑复杂性的问题,但它为构建灵活的自动化系统提供了可能。
低代码/无代码解决方案:低代码和无代码平台通过可视化界面抽象技术细节,使得非专业人员能够通过拖放组件来构建应用或自动化流程。这些工具能够融合API的速度和可扩展性以及GUI的直观性和易访问性,提供了一种新的融合策略。不过这种方法可能引入了隐藏的依赖和抽象问题。
工程
WebThinker:一个深度研究框架,由推理模型(LRMs)提供支持,旨于通过自主的网页搜索和导航,以及撰写研究报告,来实现复杂问题的解决和自动化研究报告的生成。
WebThinker的系统结构通过两个核心模块构建:
- 推理内核与搜索机制
模型自主评估任务是否需外部知识补充,并在触发搜索时启动“深度网页探索器”,对网页内容进行深入分析,点击相关链接进行深度搜索,收集足够信息后将其整合至主推理过程中。 - Think-Search-and-Draft:思考、搜索与撰写融为一体的科研报告生成工具。推理模型实时撰写报告,并根据新搜索结果动态调整内容。
系统操作分为两种模式:
问题求解模式(Problem-Solving Mode):模型专注于获取最终答案,搜索与推理交织进行。
报告撰写模式(Report Generation Mode):模型围绕研究主题进行持续探索、撰写与调整,最终输出完整报告。
WebThinker的核心创新能力:
- 多层网页点击能力:超越搜索首页,通过链接深入文档结构,模拟人类信息钻取行为。
- 搜索路径控制与决策机制:系统根据目标问题不断评估“是否已足够”、“是否需换搜索关键词”,实现类人式自主调节搜索策略。
- 高质摘要返回:当信息收集达到需求阈值后,系统压缩为模型消费的摘要结果,用于继续推理。
- 自主写作机制(Auto Think-Search-and-Draft):模型撰写研究报告时的能力包括:
- 章节写作:系统根据所收集知识独立生成某一节内容。
- 内容审查与编辑:用户可随时审查当前写作内容;系统自动重写不准确或结构不佳的部分。
- 多轮修订:模型反复搜索、修订,不断优化内容,实现内容的持续进化。
- 自我提升训练机制(Self-Improvement):该机制旨在使模型能够回顾过往的推理-搜索路径,识别最有效的路径。
- 推理内核与搜索机制
字节开源轻量级 TTS 模型 MegaTTS3:MegaTTS3不仅追求高质量的同时,还注重效率与轻量级化。主要特点包括:
- 高质量语音合成:生成清晰自然、韵律丰富的语音。
- 中英双语支持:无缝支持中英文文本输入,能在同一段语音中自然代码切换。
- 高质量语音克隆:学习并模仿目标说话人的独特音色,实现个性化语音合成。
- 轻量级架构:核心TTS Diffusion Transformer主干网络参数仅0.45B,高效运行。
- 可控性:对部分语音属性进行控制,如口音强度等。
OpenAI Academy: OpenAI 推出的一个教育平台,旨在通过在线课程的形式提供AI领域的知识和技能。平台包含的课程涵盖了从基础到高级的广泛主题,包括机器学习、深度学习、强化学习等。
亚马逊发布 Nova Act SDK,助力开发者构建 Web 浏览器 AI 代理:其中包括亚马逊 Nova Act,这是一种专门训练的 AI 模型,用于在 Web 浏览器中执行操作。亚马逊 Nova Act 软件开发工具包(SDK)提供了 Nova Act 的早期研究预览版,允许开发者构建 AI 代理,通过将复杂任务分解为更小、更易于管理的步骤来执行复杂任务,并通过 Python 代码进行自定义,实现测试、断点和并行化。
产品
智谱发布AutoGLM 沉思模型,并推出了 Agentic GLM 系列矩阵:「AutoGLM」的技术演进路径包括:GLM-4基座模型 → GLM-Z1推理模型 → GLM-Z1-Rumination沉思模型 → AutoGLM模型。 AutoGLM 沉思模型具备深度思考、感知世界以及工具使用三大关键特性,能够像人类一样进行复杂推理与决策,同时也能够像人一样地调用和操作工具完成复杂任务。智谱还推出了基于 GLM-4 的基础模型、GLM-Z1 的推理模型、GLM-Z1-Rumination 的沉思模型,以及 AutoGLM 的自动执行模型,这些模型都会在 MaaS 平台上进行上线。
我的观点:
- 先做个垃圾出来,占领领导心智
- 比较执着在 UI 层面做自动化操作,符合国情(数据孤岛太严重,企业也缺少API建设意识)
- 智谱做的是 toG 的生意
- AutoGLM沉思版的演示案例一个是AI撰文自动投稿、一个是做小红书账号!?这家的模型短期不会再用了,产品上也换掉
腾讯混元多模态理解能力升级,:提升了从单图处理到支持同时处理 10 张图片的能力,能够理解图像中的各元素及其关系,融合多模态信息,为语言模型执行推理任务时提供丰富的基础信息。
Runway 发布新一代视频生成模型 Gen-4:能够精确地跨场景生成一致性的角色、地点和物品,同时保持每个帧的独特风格、气氛和摄影构图。它能够根据视觉参考和指令创建出风格、主题、地点和更多一致性的新图像和视频,该模型不需要额外的微调或训练。
生数科技发布视频生成模型 Vidu Q1:生数科技在中关村论坛发布了国产视频生成模型 Vidu Q1,该模型在多主体细节可控方面取得了显著成效,支持对场景中多主体的位置、大小、运动迹等属性进行更进一步的可控,并支持对所有动作行为进行精准调整。此外,该模型具备音效同步可控功能,能够根据视频环境与画面转场输出相应音效,并精准控制每段音效的长短区间和时间点,以及通过进一步增强画质提供更清晰、细腻、逼真的视觉体验。
雷神发布 AI 智能眼镜,支持语音助理+摄像头,首发价 1799 元起:采用黑色风格,材质为 TR90 亲肤材质,镜片使用防蓝光镜片并首创自由环曲面技术,重量控制在 39 克,配备 12MP 1/3.57 英寸摄像头,内置 173 毫安时电池,智能充电仓可实现 12 次充电。该眼镜支持豆包和 DeepSeek AI 模型,提供智能翻译、智能游戏助手和智能健康顾问功能。
市场
Cursor 背后的公司完成了一轮新的融资,金额为 6.25 亿美元,总估值达到 96 亿美元。这次融资由 Thrive 和 A16z 领投,同时 Accel 作为新的投资者参入, ARR 的估值倍数相较于上一轮融资保持不变,依然为 50 倍(目前Cursor 的 ARR 达到了 2 亿美元)。
低代码自动化平台 n8n 完成 6000 万美元 B 轮融资 估值达 2.7 亿美元:n8n(开源的) 成立于 2019 年,其低代码自动化平台近期集成 AI 功能后实现快速增长,现拥有超 20 万活跃用户及 3000 家企业客户,支持用户通过自然语言指令创建自动化流程,显著降低技术门槛。
Nvidia 数亿美元收购 Lepton AI :Lepton AI 由前 Meta AI 研究员贾扬清、白峻杰于 2023 年创立,曾获 CRV 和 Fusion Fund 领投的 1100 万美元种子轮融资,Lepton AI 专注于为 AI 模型训练与推理提供优化云平台,其可视化界面支持 Nvidia GPU 集群配置与硬件资源管理,并集成 vLLM 等开源工具实现错误检测、内存优化及推理加速。此次收购或将强化 Nvidia 在 AI 基础设施领域的技术储备,但尚不确定其会保留 Lepton 的云服务还是仅整合技术团队。
Vol.46:智能体工具调用 API 与 GUI 的差异和融合