跳转到正文
莫尔索随笔
返回

Vol.103 Agent工程化落地周:工具走出IDE,组织面临重构

预计 14 分钟
AI 周刊 编辑此页

⼤家好,Weekly Gradient第 103 期已送达,本期内容围绕AI Agent工程化全面落地,涵盖Claude Code与Codex在大型代码库的实践、Computer Use最佳实践、Agent Skill开放标准、Multi-Agent Harness部署及AI Native组织变革等关键议题。

AI 商业

聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM 策略、SaaS 转型等商业话题。

1.与张涛对话:Manus AI 的崛起(Stripe)

Stripe的「AI Boom」系列访谈请来了Manus AI的联合创始人张涛,他复盘了这家公司如何在8个月内做到1亿美元ARR。核心思路是「大脑与手」架构——给AI Agent配一个独立的虚拟机(沙箱),让它自己浏览网页、写代码、跑命令,直接输出完成的任务,而不是只吐文本。最妙的产品决策是把Agent的内部操作过程做成「会话回放」,让用户看到它一步步在干嘛,用透明性换信任,再加上「先建后注册」的流程,一下子打开了非技术用户的市场。张涛认为,未来人的瓶颈不再是怎么解决问题,而是怎么定义问题。

2.李想×罗永浩!李想的理想:通过 AI 技术,让普通人也过上富豪的生活(罗永浩的十字路口)

李想带着理想汽车的最新旗舰SUV——L9 Livis,与罗永浩来了一场近3小时的深度对谈。这次亮相的不只是一款新车,更是理想从汽车公司全面转向「AI+具身智能」的阶段性宣言。L9 Livis搭载自研马赫M100芯片(算力2560 TOPS)、全球首个完全体全线控底盘和800V主动式悬架,技术硬核。但访谈里更有意思的是:李想分享了AI时代的人才策略、激进的组织调整、新能源车企出海打算,甚至坦率聊到了未来可能遇到的危机。听下来,你能明显感觉到李想已经彻底从造车人切换成具身智能企业家,这场对话值得一看。

AI 产品

探索 AI 原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent 产品设计等。

1.Claude Code 中的智能体视图 | Claude(Claude Blog)

Claude Code 终于让多会话并行管理不再手忙脚乱。Agent View 在命令行里把每个会话的状态一目了然:哪个在等你回复、哪个还在运行、哪个已经提了 PR。用 claude --bg [task] 就能把任务丢到后台,左箭头返回总览,再用 /bg 把前台会话转入后台。这为同时管理十几个智能体的工作流铺平了道路,也重新定义了多 Agent 协作的交互界面。

2.Codex 的 computer use:OpenAI 展示新的 AI 队友能力(OpenAI)

OpenAI 给 Codex 加上了独立光标的 Computer Use 能力,它不抢你的操控权,而是在你忙别的事时,自己开 UTM、放 Spotify、记提醒。这事背后技术挺有意思:多模态视觉加上系统辅助功能框架——用视觉找坐标,靠 accessibility 读 UI 文本和离屏内容,Spark 模型甚至能跳过视觉直接用 accessibility 跑出“超人速度”。权限也到位了,每应用权限确保未授权的应用 Codex 完全看不见。现在 Mac 上就能用,Windows 也快来了。

3.OpenAI Codex 负责人 Tibo Sio:Codex 如何从开发者工具进化为通用 Agent,并预告 Slash Goal 与 Auto Review(OpenAI)

OpenAI Codex 负责人 Tibo Sio 在论坛上展示了 Codex 的新方向:从开发者工具变成一个能跑数小时甚至数天自主任务的本地长周期 Agent。最酷的演示是,他只用一句话语音提示就生成了一个“家常软件”——比如定制电子表格,或者一张按价格和质量过滤的旧金山面包房地图。这意味着非技术用户也能为自己造工具了。他还预告了两个关键能力:Slash Goal 让你定个高层目标,AI 自动执行;Auto Review 则用次级 AI 当裁判,审计主 Agent 的行为。代码工具的时代正在过去,真正的通用 AI 队友要来了。

4.Suno CEO Mikey Shulman:人人都能创作音乐的时代已经到来(Sequoia Capital)

Suno CEO Mikey Shulman 是个物理学家转行的创业者,他做音乐生成的方式跟别人不一样——直接拿48kHz的连续声波建模,而不是传统的12平均律音符,所以可以生成「带西塔琴的trap」这种奇怪东西,专业音乐人也惊呼「微分音音乐」居然真的能做出来了。最有意思的是他的判断:Suno 90%的用户每天不是在听歌,而是在创作音乐。AI把做音乐的门槛拉到地板,同时给专业玩家提供了天花板级的新工具。音乐从被动消费回到主动表达,这事儿正在发生。

5.AI 让生产效率不再是瓶颈,然后呢?|AI 跃迁者调研 02-flomo 少楠(腾讯研究院)

腾讯研究院 AI 跃迁者调研第二期请来了 flomo 联合创始人少楠。这位 11 年没写代码的产品经理,现在每天用 Claude Code 在真实数据库里跑 3 小时需求验证,公司 70-80% 的代码由 AI 贡献,开发周期从按月缩短到按小时。但少楠给出了一个反直觉的发现:效率上去了,用户价值没跟上。以前工程师烦产品经理需求太多,现在产品经理不好意思提需求了。他认为 AI 只会让原来优秀的人变得更优秀,但无法回答一句“我不知道”。团队协作的重构比换工具难得多,16 人的小团队也面临巨大的沟通成本。这篇文章没有堆砌技术术语,而是直击 AI 时代产品创新的真实困境。

AI 工程

涵盖 AI 工程技术实现与场景化开发的全流程,包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。

1.Claude Code 在大型代码库中的运作方式:最佳实践与入门指南 | Claude(Claude Blog)

Anthropic团队分享了Claude Code在百万行级monorepo、遗留系统和微服务架构中的真实落地经验。他们放弃了传统的RAG嵌入式索引,改走Agentic Search路线——让Claude像工程师一样用grep和跨引用导航,避免了索引滞后导致的过时信息问题。关键提效模式包括分层CLAUDE.md、LSP集成和明确的团队所有权,这些才是让AI在大型代码库中真正有用的抓手。

2.使用 Claude 进行计算机和浏览器操作的最佳实践 | Claude(Claude Blog)

Anthropic工程团队把他们内部跑Computer Use和Browser Use时踩过的坑全抖出来了。最核心的一课是:截图分辨率必须按Claude模型规定的尺寸降采样,否则模型看图点鼠标的位置全歪,整条流程直接报废。文章还详细讲了努力度参数怎么调、怎么防提示注入、以及用缓存断点加滚动缓冲区再加LLM压缩这一套组合拳来管住上下文窗口。最后还介绍了批量工具和顾问工具这些实验性功能。这份清单不是空谈理论,而是真正能拿来搭工程底盘的硬核实操指南。

3.在 Windows 上为 Codex 构建安全有效的沙箱(OpenAI Blog)

Windows 上跑 Codex 时安全是个大麻烦——没有原生沙箱接口,只能要么每步都弹窗询问,要么完全不管。OpenAI 的工程师硬是搞出了一个方案:先用专用用户账户隔离进程,再套上防火墙规则封死网络,最后强度居然能追上 macOS 的 sandbox,而且开发体验没怎么打折。这篇文章把踩过的坑和最终解法写得清清楚楚,如果你在 Windows 上做代理执行环境的安全加固,这简直是瞌睡送枕头。

4.为生产级 AI 智能体构建评估框架:基于 100 多次部署的 12 项指标框架(Towards Data Science)

一位医疗AI客户的合规官问了个让团队哑口无言的问题——「你怎么知道你的Agent没在编造病人症状?」花了六周补齐12项评估指标,项目才上线。作者基于此后100+企业部署,沉淀出检索层、生成层、Agent行为层各设阈值的完整框架,每条指标都给了测量方法、阈值依据和生产注意事项。如果你正准备把Agent推向真实场景,这份清单开工前应该先打印出来。

5.构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体(基于 ADK)(Google Developers Blog)

真实企业流程里,入职、报销这些事动不动拖几周,现在的聊天机器人一重启就失忆,根本扛不住。Google ADK 团队放出了一套完整的新员工入职协调教程,教你用结构化记忆替代向量库扔JSON,用事件驱动替代轮询阻塞,用多智能体委派替代单Agent巨型提示。源码已经在 GitHub 上了,想让你家 Agent 真正在企业流水线跑起来,这篇是必读的。

6.Agent Skill 规范、构建与设计模式(阿里云开发者)

Anthropic 去年底把 Agent Skill 作为开放标准发布,不到半年时间就被 Claude Code、Codex、GitHub Copilot 等 33 个 Agent 产品接入。Skill 可不是你熟知的 Prompt,它是一套围绕任务、工具、流程和输出边界的结构化行为设计。文章把这套规范的字段、三层渐进式加载机制和模型驱动触发逻辑讲得清清楚楚,还拆解了 Google 的五种设计模式以及 Skill-Creator 的工程化套路。最核心的一句话:description 字段的质量直接决定 Skill 能否被正确触发——所以,别小看那几行描述,它是整个技能调度的命门。

7.Agent Infra 实践复盘:Kimi 如何搭建 Agent 背后的 Database 服务(Founder Park)

Kimi 最近搞了个 K2.6 版本,普通用户写几句话就能生成一个完整的在线应用。听起来很酷对吧?但真正的挑战不在于代码生成,而在于给数百万用户动态建小站的托管成本。每个用户一个 Supabase 实例搞不定,单 PG 多 Schema 到万级就崩了。PingCAP 的 TiDB Cloud 怎么解决的?他们搞了个「虚拟数据库界面」,把租户隔离、统一技术栈和即时弹性打包在一起,把单租户成本压到订阅模式能承受的水平。这是 Agent-native 时代第一个值得参考的数据基础设施落地案例,做工程的朋友别错过。

8.从零设计生产级 Multi-Agent Harness:架构、评估、记忆、成本与 MCP 工具接入全拆解(腾讯云开发者)

腾讯云开发者团队这篇长文直接点出了一个容易被忽略的关键:决定Multi-Agent能不能落地的不是模型或Prompt,而是Harness——Agent的‘操作系统’。作者提出了生产级原则——Agent负责局部智能,Harness负责全局控制,并明确了Orchestrator必须独占的五项决策权,包括任务生命周期、计划裁决、Agent路由、失败处理和硬终止条件。文章还详细拆解了架构编排、工具治理、记忆、评估、成本控制和MCP工具接入五大模块,每个都配有PlantUML图示。这是国内难得一见的Multi-Agent工程化全景指南,适合所有想把Agent系统真正用起来的开发者。

9.AI-Generated UI 技术深度解析:模型流式输出与 UI 渲染实践(大淘宝技术)

大淘宝技术团队把AI-Generated UI的全栈技术栈彻底拆解了一遍。从底层的SSE协议、fetch+ReadableStream,到Vercel AI SDK、v0.dev、Bolt.new、WebContainers这些关键开源项目,再到流式代码、Markdown、JSON的增量解析三大挑战,统统讲透了。更难得的是,里面还塞满了真实场景的错误恢复、实时预览和性能优化的工程选型干货。如果你想做出v0、Cursor、Bolt那种体验,这篇就是补全技术地图的起点,别错过。

10.首个 Java Harness Framework 来了|AgentScope 把 OpenClaw 带到企业分布式场景(阿里云开发者)

阿里最近放了个大招:AgentScope 1.1 Java 版上市,直接把 OpenClaw 那套 Harness Engineering 搬到了企业分布式场景。这次升级透出四个硬核能力——工作区驱动的运行时(人格、知识、技能、记忆、子 Agent 规格统一管理)、可插拔抽象文件系统(一套接口搞定本地磁盘、远端存储和沙箱)、内置上下文管理(对话压缩、双层记忆、全文搜索)、还有子 Agent 编排和隔离执行(多租户友好)。对 Spring 一派的企业开发者来说,这是国内首个原生 Java Harness Framework,从此搞 Agent 终于不用再东拼西凑了。

11.AI Native 时代 —— 研发组织何去何从(阿里技术)

阿里内部访谈暴露了一个惊人变化:工程师写代码的时间从30%暴跌到5%,而和Agent对话飙升至60%。一个本需6周的功能,现在一天就能走完上线、测试、下线、重发全流程。这背后是两千年组织演化史的新篇章——AI不再是工具,而是新的协作主体,传统以人为核心的组织设计开始失效。Anthropic等AI Native团队给出了新模板:Harness层(高度结构化、AI主导)加上Hive Mind层(高度松散、人主导)。还有蒸馏焦虑、Architect角色、Execution Graph这些硬核概念,值得反复咀嚼。

12.140. 对姚顺宇的 4 小时访谈:请允许我小疯一下!在 Anthropic 和 Gemini 训模型、技术预测、英雄主义已过去(张小珺Jùn|商业访谈录)

姚顺宇在Anthropic和Google DeepMind参与训练Claude 3.7、4.5和Gemini 3等模型,这场四小时的访谈里他直言AI个人英雄主义的时代已经过去,现在的关键是集体协作和扎实做事。他分享了自己从物理学转向AI的认知路径,判断预训练还远没到头,复盘了Coding能力的爆发,并对字节跳动、豆包和机器人技术做了预测。想了解一线训练者的真实内幕和未来技术方向,这篇访谈值得细读。

其他

行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI 讨论、领袖观点。

1.如何打造能穿越时代的公司 | Eric Ries,Lean Startup 作者(Lenny’s Podcast)

Eric Ries(没错,就是《精益创业》那位)在他的新书里直戳很多成功公司的痛处:不是创始人们变贪婪了,而是公司一旦成功,就会被一种叫「财务引力」的东西拽向平庸——说白了,眼里只盯着短期ROI。但他没只吐槽,而是给出了三颗「不锈钢螺栓」:公共利益公司(PBC)让使命写进章程、Anthropic那种独立受托人式的信托治理、以及诺和诺德的非营利基金会控股。如果你正琢磨怎么设计一个能抵御短期诱惑的组织,这篇给出了罕见的具体路径。


编辑此页