2025-04-14发表会员计划27 分钟读完 (大约4122个字)

Vol.47：workflow 与 Agent 方案如何选择？

大家好！Weekly Gradient 第 47 期内容已送达！

✉️ 免费订阅更新

订阅我的免费通讯，第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私，不会向第三方分享您的信息。
您可以随时取消订阅。

Web Agent 专题

ReasonerAgent 是一个基于 LLM 的开源 Agent，它能够在浏览器中执行复杂的任务，包括但不限于航班搜索、在线购物以及新闻报道的研究。该 Agent 通过模拟世界模型来规划行动，而不是依赖自回归的语言模型，这使得它在复杂的网页导航任务上表现出色，例如将成功率从 0 提升到 32.2%。对 LLM 驱动自动操作实现原理感兴趣可以先看这篇文章。

ReasonerAgent 建立在 OpenHands BrowsingAgent 基础上，使用 Reasoner（一个使用LLM 进行高级推理的库）实现了基于模拟的规划。世界模型和反思部分的提示词改编自 Web Dreamer （一种基于模型的网页浏览规划方法），对于网页浏览器，采用了 BrowserGym ，这是一个用于网页代理的开源环境。
Browserbase 是一个为 AI 应用及 Agent 提供 Web 浏览功能的SaaS服务，支持主要的自动化测试工具和框架：Playwright、Puppeteer、Selenium 和 Stagehand （Browserbase 自家框架），这些工具和框架可以与 Browserbase 无缝集成，以提供自动化测试和浏览器自动化的解决方案。

An Internet Browser for AI ：这是 Browserbase 创始人 2023 年 11 月的一篇文章，总结现有的数据抓取方法和挑战、浏览器自动化现状及现有解决方案的局限性。详细分析了作为新型 AI 应用的核心原语，Web Agent 的重要性，为 AI 应用提供交互式网页浏览和数据抓取的能力，以及 AI 应用为未来浏览器自动化带来的新市场和机会。

它的 blog 可以了解下基于 browser-use-agent在一些垂直场景的产品创新。
Manus 依赖的开源工具 browser-use 近日完成 1700 万美元种子轮融资，Browser Use 的核心功能是：将网站中的按钮和界面元素解析成更易于处理、类似文本的结构化格式，以便 AI 理解页面上的各种操作选项，并自主做出决策。联合创始人 Müller 表示：“现在很多 AI Agent 依赖视觉系统，通过截图来导航网页，但这个过程经常出错。我们把网页转换成 Agent 可以理解的形式，这种方法让我们可以用更低的成本反复执行相同的任务。”
Anthropic 的 computer-use 功能官方案例
open-operator：一个开源的 Web Agent 实现，理解用户的意图，将其转换为无头浏览器操作并执行操作。

论文

OmniTalker ：一个实时文本驱动的头像生成框架，它能够同时生成语音和视频头像动画，并且能够在不需要额外样式提取模块的情况下，从单个参考视频中捕捉到音频和视觉风格的特征。该框架采用了双分支的扩散变换器（Diffusion Transformer）架构，其中音频分支负责合成 mel 频谱，视觉分支则负责预测头部动作和面部表情。OmniTalker 通过一个新的音视频融合模块，确保了音频和视频输出之间的时间同步和风格一致性。该框架还具备实时推理能力，可以在 25 FPS 的速度下进行实时生成，并且在样式复制和音视频同步方面超越了现有的方法。

很有 C 端娱乐向产品商业潜力，效果比之前介绍的字节的 OmniHuman-1更进一步，除此之外还有Meta 出品的 MoCha（实现电影级别人物口型合成的系统）
文档识别用多模态还是 OCR：基于实验结果，提炼出 MM-LLMs 在工业级 OCR 应用的实施建议
1. 高价值文档必须专业扫描：合同、票据等关键文件需使用 ≥300PPI 的扫描设备。
2. 数字验证场景双系统并行：对验证码、身份证号等场景，建议采用”MM-LLMs 语境理解+传统 OCR 字符校验”的双重机制。
3. 复杂文本发挥大模型优势：当处理古籍或手写笔记时，MM-LLMs 能结合上下文纠正单字错误。
大语言模型自动规划能力综述：讨论了 LLMs 在自动规划中的应用，包括它们在提高规划能力、增强语言模型的泛化能力、作为独立规划器的局限性等方面的研究。在此基础上，论文进一步探讨了 LLMs 在增强传统规划器、提供高级子任务指导、评估计划质量和风格、以及处理多智能体规划等方面的潜在应值和面临的挑战。LLMs 在自动规划在实际应用中需要解决的问题，如处理语言中的歧义、评估计划成本、提高计算效率、减少知识盲点、提高模型的解释性和可解释性、以及实现因果世界模型等。

工程

Meta AI 发布 Llama 4 系列：包括了 Llama 4 Scout 和 Llama 4 Maverick 两种模型。Llama 4 Scout 是一个 170 亿参数的模型，具有 16 个专家系统，它在单个 NVIDIA H100 GPU 上运行，上下文窗口长度 10M。Llama 4 Maverick 同样是一个 170 亿参数的模型，拥有 128 个专家系统，它在单个 H100 主机上运行，并在 LMArena 上获得了 1417 的 ELO 评分。这些模型由 Llama 4 Behemoth（一个 2880 亿参数的模型）训练而成。
AWS MCP 服务器是一套集成了多个功能服务器的解决方案，旨在将 AWS 的最佳实践直接融入到开发者的工作流程中：包括核心服务器、AWS 文档服务器、AWS CDK 服务器、Amazon Nova Canvas 服务器、Amazon Bedrock 知识库检索服务器以及成本分析服务器。每个服务器都具备特定的功能和特点，例如：
- 核心 MCP 服务器 负责管理和协调其他 MCP 服务器，提供自动化安装、配置和管理功能。
- AWS 文档 MCP 服务器 提供对 AWS 文档的访问，以及如何使用 AWS 的最佳实践。
- AWS CDK MCP 服务器 提供了 AWS Cloud Development Kit（CDK）的最佳实践、基础设施即代码模式，以及使用 CDK Nag 进行安全合规性的方法。
- Amazon Nova Canvas MCP 服务器 使得 AI 助手能够使用 Amazon Nova Canvas 生成图像。
- Amazon Bedrock 知识库检索 MCP 服务器 允许 AI 助手从 Amazon Bedrock 知识库中检索信息。
- 成本分析 MCP 服务器 允许 AI 助手分析 AWS 服务的成本，并生成成本报告和洞察。
使用 LLM 进行评估时可能遇到的偏差问题及其缓解措施
- 缺乏内部一致性：多次执行相同的输入可能得到不同的结果，建议采用自我一致性的 prompt 设置，并保留多数结果。
- 自我偏好：LLM 更偏好自己的输出模式，建议采用陪审团机制。
- 输入扰动不敏感：LLM 难以提供一致的评分范围，建议模型先输出详细的推理过程再给出评分。
- 位置偏差：LLM 偏好特定位置的答案，建议随机调整答案位置。
- 冗长偏好：LLM 偏好冗长的答案，建议考虑答案中的长度差异。
- 格式偏差：如果输入模型的 prompt 格式与训练数据格式差异大，可能导致评估结果不准确。
宣布推出 Agent2Agent 协议 (A2A)：A2A 协议是为了解决不同智能代理之间互操作的问题，使得它们能够更流畅地相互协作和交流。该协议基于开放的标准和规范，旨在消除技术壁垒，促进更广泛的协作。A2A 的目标是通过建立一个共同的通信和交互标准，让智能代理能够更有效地共同工作，实现多智能体之间的协同和互操作性。这将有助于实现更复杂的智能体系构，为用户提供更丰富的互动体验。
Google 的 Gemini 2.5 Pro 在编码能力、推理能力以及整体性能方面超过了 Claude 3.7 Sonnet，成为了当前最佳的编码模型：在四个编码测试中，Gemini 2.5 Pro 都显示出了优异的表现，包括制作一个简单的飞行模拟器、Rubik 魔方解决器、3D 恐龙游戏模型以及解决复杂的 LeetCode 问题等。
Kimi开源了两个MoE视觉理解大模型-Kimi-VL-A3B-Instruct和Kimi-VL-A3B-Thinking：总参数16.4B，激活参数仅为2.8B，上下文长度128K。

产品

Anthropic 向开发者提供 50 美元的免费 Claude API 积分，鼓励开发者尝试 Claude Code 工具。
百炼支持部署自定义 MCP 服务：百炼支持部署自定义 MCP 服务，目前仅支持 npx 的安装方式，未来会支持 uvx 和 SSE 的安装方式，在百炼部署的 MCP 服务目前仅支持接入百炼应用，暂不支持在其他 MCP 客户端使用。
腾讯云发布「AI开发套件」：帮助开发者快速搭建业务型AI Agent，支持MCP插件托管服务，插件开发、部署、运维全「打包」，无需自搭服务器、运维环境，让Agent扩展能力真正「即插即用」，让开发者专注业务创新。
GitHub 官方开源 MCP 服务器，AI 无缝集成 GitHub API：GitHub 官方开源了与 GitHub API 无缝集成的 MCP 服务器，支持在 VS Code Agent Mode 和 Claude Desktop 中或任何支持 MCP 服务器的环境中使用。

市场

OpenAI 正在考虑收购 CEO Sam Altman 和苹果前设计主管 Jony Ive 共同创办的 AI 硬件公司 io Products，收购价可能超过 5 亿美元，合作开发也是可能选项。目前该项目还在早期阶段，主要开发 AI 驱动的硬件设备，包括无屏幕手机和智能家居产品。
华为鸿蒙智行即将发布智能眼镜产品
170 多家 AI 代理初创公司： CB Insights Research 分享了 AI Agent 市场的现状和未来发展趋势，包括市场地图、AI Agent 技术的进展、应用场景、以及对企业影响。
a16z 推出 AI 数字人报告：提到了创建 AI 数字人的要素。
创建一个可信的 AI 数字人是一项挑战，有关逼真度的每个要素都会带来各自的技术障碍。这不仅要避免出现难以想象的障碍，还要解决动画、语音合成和实时渲染方面的基本问题。以下是对所需技术的细分，为何如此难以实现，以及我们在哪些方面取得了进展：
- 面部：无论你是在克隆一个人还是在创建一个新角色，你都需要一张在不同帧之间保持一致，并且在说话时动作逼真的面部。上下文感知的表现力仍然是一个挑战（例如，一个数字人在说「我累了」时打哈欠）。
- 声音：声音需要听起来真实并与角色相匹配；少女的脸不应该有老妇的声音。我们遇到的大多数 AI 数字人公司都使用 ElevenLabs ，它拥有一个庞大的语音库，并允许用户克隆自己的声音。
- 唇部同步：要获得高质量的唇部同步非常困难。许多公司，如 Sync 都致力于解决这一问题。其他模型，如 MoCha（来自 Meta）和 OmniHuman 是在更大的数据集上进行训练，并使用各种技术对伴随音频的人脸生成进行强条件限制。在更大的数据集上进行训练，但找到了根据音频强烈调节人脸框架生成的方法。
- 身体：数字人不能只是一个漂浮的头部！较新的模型可使数字人拥有可移动的完整躯体，但在扩展躯体和向用户交付躯体方面，我们仍处于早期阶段。
- 背景：数字人并非存在于真空中。数字人周围环境的照明、深度和交互需要与场景相匹配。理想情况下，数字人甚至能够触摸和接触环境中的事物，例如拿起产品。

观点

什么时候应该拆workflow，什么时候应该指望模型：作者讨论了在新场景构建时，如何通过拆分 workflow 以及在什么情况下应该采用模型的方法来解决问题。在已有系统的演进过程中，如何平衡拆分 workflow 与等待模型发展的需求，特别是在有效的中间过程检查验证方案存在时。

Vol.47：workflow 与 Agent 方案如何选择？

https://liduos.com/the-memeber-newsletter-47.html

作者

莫尔索

发布于

2025-04-14

更新于

2025-08-13

许可协议

支付宝

送我杯咖啡

Vol.47：workflow 与 Agent 方案如何选择？

✉️ 免费订阅更新

Web Agent 专题

论文

工程

产品

市场

观点

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论

订阅我的免费通讯

我的作品

目录

最新文章

归档

标签