Vol.51 AI 智能体商业落地的现状与真相
论文:详细介绍了 PIKE-RAG、KG-HTC、Agent to User Interaction Protocol 等 AI 智能体技术。
工程:讨论了 AI 智能体在商业落地中面临的真实情况,以及 Agent to User Interaction Protocol 的优化。
产品:分析了 AI 产品如 Lovable、Cursor 等的设计原则,以及 AlphaEvolve 在算法设计和优化中的应用。
市场:探讨了 Agentic AI 在市场中的应用,包括微信生态系统中的 Agentic AI 布局,以及 AI 在广告、交易、GPU 租赁等方面的商业模式。
观点:总结了 2025 年关于 Agent 的发展和应用,包括 Agent 的技术挑战、工程实现、商业应用以以及 Agentic AI 在市场中的应用
论文
-
任务分类与系统分级:作者将任务按复杂度划分为四类:事实性问题、可链接推理问题、预测性问题和创造性问题,并据此将RAG系统能力分为五个等级(L0–L4),为系统的分阶段开发和评估提供了明确的路径。
知识原子化与任务分解:引入“知识原子化”技术,将复杂信息拆解为可检索的知识单元,并通过“知识感知任务分解”模块,结合领域特定的推理逻辑,构建连贯的推理链,以提高系统在多跳推理任务中的表现。
多层异构知识图谱构建:在知识库构建阶段,采用多层异构图谱结构,增强知识的组织与整合能力,支持多粒度的检索和推理操作。
系统模块化与可扩展性:PIKE-RAG框架支持模块化设计,允许根据任务需求调整子模块,以适应不同复杂度的任务,提升系统的适应性和可扩展性。
实证验证:在开放域和法律领域的多个基准测试中,PIKE-RAG在准确性和召回率方面均优于现有方法,特别是在处理多跳推理和专业知识密集型任务时表现突出。
KG-HTC:基于知识图谱的分层文本分类:文本分类作为自然语言处理的基础任务之一,目的在于为文本分配预定义类别。其中,分层文本分类(Hierarchical Text Classification, HTC)通过多级标签体系将文本归类到具有层级关系的分类框架中,已广泛应用于电商分类、政务主题建模等场景。
KG-HTC的完整工作流程:
- 存储阶段:将所有标签分别存入图数据库和向量数据库
- 检索阶段:根据输入文本,从向量库获取各层级l的候选标签Q^l,同时通过验证跨层级候选标签的父子关系,从图库提取有效子图
- 提示构建:将子图中的路径网络转化为结构化提示,并与分类指令拼接
- 分类执行:采用上下文学习技术实现零样本文本分类
AI Agents记忆系统综述:记忆是AI系统的基本组成部分,尤其是对于基于LLMs的Agents。本研究将记忆表示分为三类:参数化记忆、上下文结构化记忆和上下文非结构化记忆,并介绍了六种基本的记忆操作:巩固、更新、索引、遗忘、检索和压缩,盘点了几十种记忆框架、产品、应用。
ScaleMCP:MCP 工具自动发现机制:一种面向MCP服务器(工具)的LLM智能体工具选择创新方案,其核心包含自动同步的工具存储索引系统,以及赋予智能体自主调用权限的现代RAG架构。
在LLM智能体调用流程中,当用户提出问题后,LLM智能体会并行调用5次”MCP检索工具”(每次针对一个目标检索工具),将相关的MCP服务器(工具)整合至上下文环境。在检索到相关MCP后,LLM智能体决定并行调用5个MCP服务器,各MCP服务器将返回工具响应。最终,LLM智能体通过对MCP服务器响应的推理分析,向用户返回成功的最终答案。借助LLM原生函数调用能力,ScaleMCP使智能体能够自如调度数千个MCP服务器,其底层工具库会实时自动同步可用服务资源,实现工具生态的智能自治。
工程
AI智能体在商业落地过程中所面对的真相和现实:一位自称在过去18个月为初创公司到中型企业构建了30多个定制AI智能体的开发者分享了他对行业现状的“残酷真相”,旨在揭穿围绕AI智能体的种种迷思和不切实际的期望。作者明确指出,YouTube上那些通过AI智能体课程宣称能轻易月入数万美元的“专家”,其实往往是在说谎。他强调,建立一个真正能够为企业创造价值并让企业愿意为其付费的AI系统,比那些课程所描述的要难得多,有时甚至可能更简单。多数企业并不实际需要那些听上去神乎其谈、功能复杂的AI系统。他们真正需要的是能够解决特定问题的、简洁而高效的自动化解决方案。
构建AI智能体只是项目的开始,实际上可能只占30%的工作量。后续70%的工作将集中在部署、维护以及应对不断变化的API接口上。
企业关注的是投资回报率(ROI):如果AI智能体无法明确帮助企业节省成本或增加收入,即使技术再先进,也难获得业务。
随着工具和平台的完善化,AI智能体技术实现难度降低。但识别企业中需要AI解决的实际痛点变得更加具有挑战性和重要性。
作者举例说明,客户拒绝了技术上优秀的方案,因为它未触及核心问题。反观,某些基础的AI智能体,通过优化关键工作流程,能每月带来数千美元价值。Agent to User Interaction Protocol:一种新的协议,旨在优化代理与用户之间的交互,提高效率和用户体验。在代理到用户的交互中,传统的协议如 MCP(Management Control Protocol)和 A2A(Application to Application)等,已经不能完全满足现代自动化和智能化需求。因此提出了 AG-UI(Agent to User Interaction Protocol),作为一种新型协议,AG-UI 专为代理与用户之间的交互而设计,旨在通过智能化的自动服务和交互方式,提升用户体验和整体效率。AG-UI 协议的核心在于通过智能化的自动服务来优化人机交互,使其更加高效和人性化。
-
思考类模型
选择思考类模型比较适合于以下的场景:当你希望模型主动完成任务时非常理想,需要较少的提示,但有时观点更强,可能会做出比你预期更大的改变
这个时候就应该选择下面的模型,例如:
claude-3.7-sonnet
gemini-2.5-pro
o3(专为复杂推理设计)当你在探索想法、广泛重构代码或希望模型更独立行动时,使用这些模型。
非思考型模型
这些模型等待明确指示。它们不会推断或猜测,当你想直接引导输出时是理想的选择。
适合精确、可控的更改,需要更多提示,但行为更可预测,更容易引导、修改和微调
例如:
claude-3.5-sonnet
gpt-4.1当你想要严格控制、需要一致行为或处理定义明确的任务时,使用这些模型。
最后,官方说不同用户都有自己不同的选择,但是按照他们的统计来说,以下的模型是最为常用的:
claude-3.7-sonnet、gemini-2.5-pro 和 gpt-4.1 都可以作为可靠的日常工具。
LLM 推理引擎总结:本文盘点剖析了LLM推理引擎优化,从架构、推理过程到引擎分类。根据部署规模和硬件兼容性,LLM 推理引擎可以分为单节点异构设备、单节点同构设备、多节点异构设备和多节点同构设备四类。单节点异构设备推理引擎(Ollama、llama.cpp等)适合在本地环境(如笔记本电脑、个人电脑等)上运行,能够利用多种硬件资源进行推理。单节点同构设备推理引擎(Unsloth、)则专注于在单一类型的硬件上优化推理性能,如仅在 CPU 或 GPU 上运行。多节点异构设备推理引擎(vLLM、SGLang )适用于大规模分布式部署场景,能够在多种硬件设备(如多个 GPU、TPU 或其他 AI 加速器)上协同工作,处理高并发请求。而多节点同构设备推理引擎(TensorRT-LLM )则在多个相同类型的硬件设备上进行推理,通常用于高性能计算集群。
A2A与MCP集成的批判性分析:这篇论文介绍了 A2A与MCP协议各自不同的生态位,以及真正迈向生产可用需要面对的风险与挑战。
语义协商与知识共享:构建智能体间的语义理解机制,突破基础能力卡片的局限,实现A2A请求与MCP工具的精准映射。
融合安全体系:打造兼顾A2A与MCP的双重防护系统,涵盖身份认证、跨协议授权机制,有效抵御工具劫持等新型威胁,同时需强化MCP原生安全性能。
跨协议观测方案:研发支持A2A和MCP双协议的统一监控平台,实现全链路日志追踪与可视化分析,大幅提升排障效率。
多智能体协同优化:针对MCP工具调用的特殊性,完善多智能体任务规划算法,实现外部工具的高效协同。
系统形式化验证:采用形式化方法确保A2A+MCP复合系统的可靠性与安全性。
信任生态建设:建立适应A2A通信与MCP工具混用场景的开放式信任评估体系。
标准化治理框架:构建覆盖A2A+MCP融合系统的运营规范与伦理准则,为未来可能形成的”智能体经济”奠定制度基础。
产品
- 总结Lovable、Cursor、Bolt、PhotoRoom等AI产品可复制的爆款设计:与传统软件不同,AI驱动的产品是动态且不可预测的。它们生成独特的输出,适应用户输入,如果设计不当,会让人感到沮丧、神秘或完全不可靠。最好的AI原生产品不仅提供强大的自动化功能,还引导用户体验无缝、直观且值得信赖的过程——AI感觉像是助手而非猜谜游戏。本文来自Growth Unhinged,将深入分析AI爆款产品中可复制的5大设计秘诀。
- 在线 AI 检测助手:朱雀实验室推出的一个针对 AI 生成内容的免费在线检测助手,专门识别 AI 与人类创作的文本和图像,具备高效的英文和中文检测能力。
- OpenAI 推出的一个云服务 Codex ,旨在通过编写软件代码、回答编程问题、修复 Bugs 和提交代码审查请求等任务,提高软件工程的效率。Codex 运行在独立的云沙箱环境中,可以通过 AGENTS.md 文件接收指导,这是一个在代码仓库中的任意位置可能出现的文本文件,用于指导 Codex 如何导航代码库、运行测试等。安全性是 Codex 设计中的重要考虑因素,它通过引用和提供可验证的输出来确保安全性。Codex 的使用者包括 Cisco、Temporal 和 Superhuman 等,他们使用 Codex 来加速特性开发、调试问题、编写和执行测试以及重构代码。Codex 的一个关键特性是能够理解和遵循 AGENTS.md 文件中的指令,即使在多层目的文件夹结构中也能正确执行。随着 Codex 的发展,它将支持更多的互动和灵活的代理工作流程,并与开发者的常用工具更紧密地集成。未来,Codex 将继续扩展其功能,以支持更广泛的开发者群体,并可能处理更复杂的任务。
- AlphaEvolve:一种基于大语言模型的编码代理,用于设计和优化算法。AlphaEvolve 是 Google DeepMind 推出的一种 AI 编码代理,它通过结合大型语言模型的创造性思维能力和自动化评估器的验证能力,以及使用进化框架,来提高算法的设计和优化。该代理在全球数据中心、芯片设计和 AI 训练中得到了应用,提高了效率,并为开放的数学问题提供了新的解决方案。AlphaEvolve 通过不断迭代和优化,展示了在多个领域,尤其是在数学和计算机科学领域,能够系统地量化和改进算法性能的潜力。
市场
-
Q:关于Agentic AI,管理层能否谈谈市场前景及与竞争对手的差异化优势?此外,管理层能否进一步阐述我们在AI商业模式(如广告、交易、GPU租赁和订阅)上的策略?
Agentic AI是一个非常热门的概念,主要指的是AI可以帮助用户完成非常复杂的任务,这些任务通常涉及多个步骤,还可能需要使用各种工具,甚至连接其他应用程序。
首先,我们可以将Agentic AI分为两类:
第一类是通用型Agentic AI,这是所有人都可以开发的,基本上就是创建一个智能代理,让它自主完成用户任务。
第二类是微信生态内的Agentic AI,这种AI深度融合在微信及其独特生态系统中,是专门针对微信使用场景的AI应用,具有一定的独占性和差异化。
目前,我们正在一些AI原生产品中开发这种能力,比如元宝等。这些AI一开始只是快速回答问题,属于简单响应类型。随着能力的增强,这些AI逐渐具备链式思维和复杂推理能力,可以解答复杂问题。进一步发展后,这些AI甚至能够执行更复杂的任务,例如调用其他应用程序和API来帮助用户完成需求。
这种演进使得我们的Agentic AI逐渐具备自主执行任务的能力,并能与其他应用程序和程序接口互动,帮助用户高效完成任务。从这个角度来看,我们的Agentic AI和市场上其他公司的类似产品没有本质区别,只是我们的产品更贴近微信生态,更具针对性和独特性。
另一方面,在微信生态系统中,我们认为有机会创造出独特的Agent AI,这种AI能够深度整合微信生态的各种独特组件。这些组件包括社交图谱、通信和社区能力、内容生态,比如微信公众号、视频号等,以及微信中存在的数百万个小程序,它们覆盖了各种信息流、交易操作,以及跨多个垂直领域的应用。
这种Agent AI能够利用微信独特的社交、内容和服务体系,在不同场景下进行信息整合和操作执行,形成比通用型Agent AI更具差异化的产品。这种微信生态专属的Agent AI,与市场上其他更通用型的智能代理相比,具备独特竞争优势。
关于AI商业模式,广告业务是AI在微信生态中最直接受益的领域。AI提升广告投放的精准度,帮助我们更有效地匹配用户兴趣和广告内容,从而带来更好的广告效果。当广告效果提升后,广告收入自然也会增加。我们目前已经在效果广告中实现了部分提升,但未来仍有更多潜力可挖,特别是在AI技术不断进步的背景下。
在广告与交易方面,我们认为广告和交易是紧密联系的。当广告直接引导交易时,广告的价值会显著提升。这也是我们提升广告收入的一个重要策略。通过将广告和交易紧密结合,可以让广告效果更具实质性转化,进而推动广告收入增长。
关于GPU租赁,GPU租赁业务主要和云服务相关,实际上更像是转售业务,通常是面向逻辑分析和计算需求。由于目前GPU供货短缺,我们将其优先级调低。在这种供不应求的情况下,GPU租赁并不是我们的主要业务方向。
关于订阅模式,在中国,AI订阅模式并不是主流。目前大部分AI服务都是免费提供的,和国外一些收费订阅模式不同。在中国市场,大家更倾向于免费使用AI,因此订阅制暂时不会成为主流商业模式。
Q:我主要想了解元宝整合进微信生态系统的最新进展。能否请管理层分享一下整合后用户行为趋势的变化?在整合完成后,我们希望能够看到哪些跨项目协同效应,比如小程序店铺、公众号、视频号等在微信生态中的协作效果?接下来我们下一步的主要发展方向是什么?我们是否预计会将私域和公域流量结合到元宝功能中?
说实话,目前这个项目还处于非常早期的发展阶段。我们确实可以看到,用户在逐渐使用元宝。他们用它来提问、对话,还有将一些内容导入元宝,让元宝进行总结和分析。这些是我们目前观察到的初步使用场景。
随着用户不断互动和使用元宝,预计他们会越来越频繁地使用。未来,我们肯定会逐步加强微信生态与元宝聊天助手的关联。我们会进行不同的实验,也许再过几个季度,我们就能更系统地向大家汇报进展。目前来说,还为时过早,无法系统性地总结。
根据《The Information》的报道,Anthropic 计划在未来几周内推出新一代的Claude Sonnet和Claude Opus。试用这些新版本的人士披露说,这些模型能够在“思考”和调用外部工具、应用和数据库之间自如切换,以更高效的方式寻找答案。这意味着,如果在使用工具时遇到问题,这些模型能够自动回退到“推理”模式,重新审视问题,并进行自我修正。其中一位测试者评价道:“这不再是一种无法回头的方式,而是能够停下来进行反思。”
根据目前报道的消息, O3 Pro, Grok 3.5, Claude 4, and DeepSeek R2 均在 谷歌I/O大会期间(5.20,本周二)前后发布。
月之暗面近期对AI医疗产品进行了布局:月之暗面自2024年年底,就开始组建医疗产品团队,并在2025年3月对医疗相关背景的人才进行了公开招聘。
-
1)SaaS 逻辑正在失灵:客户不再为「能用的工具」买单,而只为写进利润表的结果掏钱;
2)新定价单位是 KPI:开发提速、GPU 成本、落地 GMV,将直接决定产品价格;
3)创业窗口缩短:谁先把「收益」商品化,谁就抢走下一个十倍级市场。
观点
-
主要观点:
- Agent的本质:Agent是一个超人化的小助理,能够进行规划、执行和反思。
- Agent的发展:从直觉时代到Scale up时代,再到超人化的小助理,Agent的概念和技术不断发展。
- Agent的实现:Agent的实现需要考虑的三个空间缺失问题:任务拆分和规划空间、执行空间、反思空间。
- 大模型增加智能:大模型的出现,尤其是GPT-3等模型,提供了Agent在缺失的智能空间,实现了Agent的智能化。
- Agent的评估方式:通过问题难度和Agent的调用能力来评估Agent的效果。
- Agent的商业化:未来不会出现通用Agent,但垂类Agent有较大的发展机会。
技术探讨:
- Agent的技术挑战:包括如何进行更好的规划、调整执行策略、以及如何进行反思。
- Agent的工程实现:以sunas和camel为例,讨论了Agent在工程上的实现,包括子Agent的构建、规划、执行和反思。
- Agent的商业应用:探讨了Agent在商业化方面的应用,包括通用Agent和垂类Agent的发展前景。
结论:
- 通用Agent在2025年尚未爆发。
- 垂类Agent有较大的发展潜力,但核心技术仍需优化。
Vol.51 AI 智能体商业落地的现状与真相