Vol.47:workflow 与 Agent 方案如何选择?

本期详细讨论了 Web Agent 专题,包括 ReasonerAgent 的开源 Agent 方案,Browserbase 的 SaaS 服务,以及 browser-use 工具的开发进展。论 papers 方面,OmniTalker 框架和大语言模型自动规划能力的综述。工程部分介绍了 Meta ai 的 Llama 4 系列、AWS MCP 服务器的多功能解决方案、以及使用 LLM 时遇到的偏差问题及其缓解措施。产品部分提到了 Anthropic 的 Claude API、百炼的自定义 MCP 服务部署、腾讯云的 AI 开发套件,以及 GitHub 官方的 MCP 服务器开源。市场观点涉及了 AI 硬件公司 io Products 的收购、华为的智能眼镜产品发布,以及 AI 代理初创公司的市场分析。最后,讨论了在新场景构建时如何平衡拆分 workflow 与等待模型发展的需求。
阅读更多

做自己的互联网房东,而不是租客:拥有你的数字内容与主权(译)

本篇内容译自《Be A Property Owner And Not A Renter On The Internet》,特别是在 AI 内容泛滥的当下,个人更加需要自己表达的根据地。

时间来到 2025 年。我们自 21 世纪初所熟知的那个互联网形态已不复存在。或者说,不完全是我们以前见过的那个样子了。这并非简单的怀旧情绪作祟 —— 那个由博客、feeds、个人网站和论坛组成的充满活力的生态系统,已被少数几个超级集中的巨头所取代。
想找一个关于非常小众主题的活跃社区?它很可能在 Reddit 上。或者你知道吗 —— 也可能在 Discord 上。或者两者皆有。虽然仍有一些人偶尔运营着基于 phpBB 的 VBulletin 论坛,但这已是少数。想买卖东西?你最好的选择是看看 Facebook 的 Marketplace(当然,要通过 Facebook 的 Messenger 来协调购买事宜,而不是邮件或其他方式)。想看一些你喜欢的创作者的视频?要么 YouTube,要么没戏。在这些企业集团的生态系统之外的任何东西,都注定自然会获得较少的曝光度,并且对于广大用户来说,其可发现性将极其低下

我们已经到了这样一个地步:对相当一部分人来说,“互联网”就等同于“Facebook、Instagram 和 Discord”,如果内容不在这些平台上,那它就跟不存在没两样。这种转变带来了一系列问题,我们将在这篇文章中进一步探讨。

我还应该在这篇文章开头加上一个免责声明 —— 本文的目标受众是精通技术的人。对于绝大多数人来说,我接下来要讨论的建议在当前的技术环境下是行不通的,这没关系。我的目的不是让每一个人都在流行网络之外建立自己的内容,而是鼓励那些犹豫不决且有能力迈出这一步的人,去拥有自己的互联网资产,而不是向那些对你的成功并不关心的人租用空间

阅读更多

会员计划说明

我要推出一个为期一年的会员计划,这篇文章我想从会员计划介绍、面向人群、会员权益、会员定价四个方面来介绍下,希望大家理性消费,务必先看权益部分的内容是否是自己未来一年内要聚焦和关注的,然后再看定价是否满足自己当前的消费能力。

阅读更多

对话 MCP 团队:MCP 的起源、技术细节与设计思路、与 Agent 的关系及未来迭代方向

上一篇文章《MCP 的应用场景,其实是一个巨大的赚钱机会》 发出后,后台接到很多读者留言,询问能否写一篇文章再详细介绍下 MCP 设计细节,本来想动笔,不过凑巧的是,搜索过程中发现 AI Engineer 频道刚好在上周五(4 月 4 日,新鲜热乎的 🤙)采访了MCP 团队的两位发起工程师 ,基本涉及到了 MCP 的方方面面。本篇内容是访谈的脱水版文字稿,移除了和 MCP 无关的话题和口头表达时的语癖,基本能够解答大家对 MCP 的起源、技术细节与设计思路、与 Agent 的关系及未来迭代方向的疑问,也比大多数能读到的二手内容权威多了。

阅读更多

Vol.46:智能体工具调用 API 与 GUI 的差异和融合

本期深入介绍了智能体工具调用的 API 与 GUI 的差异及融合策略,涉及多轮对话中的具调用能力优化、模型上下文协议(MCP)的研究、以及 MemInsight 方法提升 LLM Agent 记忆和认知能力的具体做法。同时,文章入探讨了 API 与 GUI 在交互模态、效率、可靠性、可用性、灵活性、安全性、可维护性、透明度和可解释性等方面的差异点,并分析了不同融合策略,如 API 包装器、统一编排工具和低代码 / 无代码解决方案的应用。此外,文章还展 ound 了 WebThinker 框架的系统结构和核心创新能力,以及 MegaTTS3 等产品的最新技术动态。最后,文章提供了市场动态,如 OpenAI 的融资情况等相关信息。
阅读更多

模型上下文协议(MCP)的现状、问题与掘金机会

模型上下文协议(Model Context Protocol, 简称 MCP)是一种正在迅速普及的协议,它允许模型客户端与外部服务和工具服务器进行交互,让模型客户端不再局限于对话和信息检索,而是能够采取实际行动,比如发送邮件、部署代码、或发布文章等,我在周刊的 30、35、43、44、45 期都曾介绍过。关于 MCP 介绍的文章已经很多了,本篇不再赘述,这里我想重点谈谈深度使用下来发现的一些问题,以及这些问题带来的潜在掘金机会。

阅读更多

Vol.45:Anthropic MCP 当前还有哪些不足?

本期深入探讨了 Anthropic MCP 的最新进展、使用案例、挑战,以及对 AI 工具链和基础设施的潜在影响。文章包含了对 MCP 专题的详细讨论,包括最新更新、基于 OAuth 2.1 的身份验证框架、流式 HTTP 传输、JSON-RPC 批处理支持、工具注解等。此外,还涉及了 Cloudflare、Zapier 和 Microsoft Office 等平台对 MCP 的实施情况,以及 OpenAI、Cloudflare 和 AWS 对 MCP 服务器的支持。文章还包括了对 MCP 的商业应用,如 MCP Infra、MCP Marketplace 和 Agent OS,以及对 MCP 的全面系统分析。最后,提出了对 Anthropic MCP 当前状态的不足分析,并提供了对未来 Agent 发展方向的见解。
阅读更多

Vol.44:模型即产品的技术实现路径

本期内容介绍了如何通过技术手段将模型转化为产品包括模型的技术创新、价值链上移、应用层的自动化、投资者关注点的转移,以及模型作为基础设施的角色,强调了小型专业团队和大型实验室在新的 AI 产品和服务中的战略调整。
阅读更多

Vol.43 什么样的 Agent 会在 2025 年脱颖而出?

本期内容通过论文、工程、产品和市场四个部分, 内容涵盖了 AI 代理技术的最新研究成果,包括 LaRA、CodeAct、ViDoRAG 和 Visual-RFT 等论文,这些研究探讨了如何通过 RAG 与长文本语言模型、代码执行能力、视觉文档检索增强生成以及视觉强化微调等技术手段提升 AI 代理的性能和应用范围。在工程方面,介绍了如何使用 Cursor 和 Claude AI 工具高效管理和维护大型项目,以及谷歌发布的新的文本嵌入模型 gemini-embedding-exp-03-07。此外,还讨论了 MCP 的实用性和潜力、Manus 的开源项目 OpenManus 和 OWL 技术实现,以及 OpenAI 发布的 Agents SDK。产品部分,推荐了 Meta FAIR AI Demos 和 Google Labs,介绍了 Google 的 Gemma 3 系列模型和 Gemini 2.0 Flash,Cloudflare Media Transformations 功能,以及 Product Hunt 上的最佳产品。市场方面,提到了 OpenAI 与 CoreWeave 的合作协议,SSI 通过再融资达到 300 亿美元估值,以及 AI 代理定义的模糊性和行业应用。最后,网页提供了 Cartesia 创始人的访谈和对未来 25 年 AI 代理发展趋势的预测。
阅读更多