Vol.103 Agent工程化落地周：工具走出IDE，组织面临重构

⼤家好，Weekly Gradient第 103 期已送达，本期内容围绕AI Agent工程化全面落地，涵盖Claude Code与Codex在大型代码库的实践、Computer Use最佳实践、Agent Skill开放标准、Multi-Agent Harness部署及AI Native组织变革等关键议题。

AI 商业

聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新，包含投资趋势、GTM 策略、SaaS 转型等商业话题。

1.与张涛对话：Manus AI 的崛起（Stripe）

Stripe的「AI Boom」系列访谈请来了Manus AI的联合创始人张涛，他复盘了这家公司如何在8个月内做到1亿美元ARR。核心思路是「大脑与手」架构——给AI Agent配一个独立的虚拟机（沙箱），让它自己浏览网页、写代码、跑命令，直接输出完成的任务，而不是只吐文本。最妙的产品决策是把Agent的内部操作过程做成「会话回放」，让用户看到它一步步在干嘛，用透明性换信任，再加上「先建后注册」的流程，一下子打开了非技术用户的市场。张涛认为，未来人的瓶颈不再是怎么解决问题，而是怎么定义问题。

2.李想×罗永浩！李想的理想：通过 AI 技术，让普通人也过上富豪的生活（罗永浩的十字路口）

李想带着理想汽车的最新旗舰SUV——L9 Livis，与罗永浩来了一场近3小时的深度对谈。这次亮相的不只是一款新车，更是理想从汽车公司全面转向「AI+具身智能」的阶段性宣言。L9 Livis搭载自研马赫M100芯片（算力2560 TOPS）、全球首个完全体全线控底盘和800V主动式悬架，技术硬核。但访谈里更有意思的是：李想分享了AI时代的人才策略、激进的组织调整、新能源车企出海打算，甚至坦率聊到了未来可能遇到的危机。听下来，你能明显感觉到李想已经彻底从造车人切换成具身智能企业家，这场对话值得一看。

AI 产品

探索 AI 原生产品的设计范式与用户体验革新，强调产品哲学、交互模式、Agent 产品设计等。

1.Claude Code 中的智能体视图 | Claude（Claude Blog）

Claude Code 终于让多会话并行管理不再手忙脚乱。Agent View 在命令行里把每个会话的状态一目了然：哪个在等你回复、哪个还在运行、哪个已经提了 PR。用 claude --bg [task] 就能把任务丢到后台，左箭头返回总览，再用 /bg 把前台会话转入后台。这为同时管理十几个智能体的工作流铺平了道路，也重新定义了多 Agent 协作的交互界面。

2.Codex 的 computer use：OpenAI 展示新的 AI 队友能力（OpenAI）

OpenAI 给 Codex 加上了独立光标的 Computer Use 能力，它不抢你的操控权，而是在你忙别的事时，自己开 UTM、放 Spotify、记提醒。这事背后技术挺有意思：多模态视觉加上系统辅助功能框架——用视觉找坐标，靠 accessibility 读 UI 文本和离屏内容，Spark 模型甚至能跳过视觉直接用 accessibility 跑出“超人速度”。权限也到位了，每应用权限确保未授权的应用 Codex 完全看不见。现在 Mac 上就能用，Windows 也快来了。

3.OpenAI Codex 负责人 Tibo Sio：Codex 如何从开发者工具进化为通用 Agent，并预告 Slash Goal 与 Auto Review（OpenAI）

OpenAI Codex 负责人 Tibo Sio 在论坛上展示了 Codex 的新方向：从开发者工具变成一个能跑数小时甚至数天自主任务的本地长周期 Agent。最酷的演示是，他只用一句话语音提示就生成了一个“家常软件”——比如定制电子表格，或者一张按价格和质量过滤的旧金山面包房地图。这意味着非技术用户也能为自己造工具了。他还预告了两个关键能力：Slash Goal 让你定个高层目标，AI 自动执行；Auto Review 则用次级 AI 当裁判，审计主 Agent 的行为。代码工具的时代正在过去，真正的通用 AI 队友要来了。

4.Suno CEO Mikey Shulman：人人都能创作音乐的时代已经到来（Sequoia Capital）

Suno CEO Mikey Shulman 是个物理学家转行的创业者，他做音乐生成的方式跟别人不一样——直接拿48kHz的连续声波建模，而不是传统的12平均律音符，所以可以生成「带西塔琴的trap」这种奇怪东西，专业音乐人也惊呼「微分音音乐」居然真的能做出来了。最有意思的是他的判断：Suno 90%的用户每天不是在听歌，而是在创作音乐。AI把做音乐的门槛拉到地板，同时给专业玩家提供了天花板级的新工具。音乐从被动消费回到主动表达，这事儿正在发生。

5.AI 让生产效率不再是瓶颈，然后呢？｜AI 跃迁者调研 02-flomo 少楠（腾讯研究院）

腾讯研究院 AI 跃迁者调研第二期请来了 flomo 联合创始人少楠。这位 11 年没写代码的产品经理，现在每天用 Claude Code 在真实数据库里跑 3 小时需求验证，公司 70-80% 的代码由 AI 贡献，开发周期从按月缩短到按小时。但少楠给出了一个反直觉的发现：效率上去了，用户价值没跟上。以前工程师烦产品经理需求太多，现在产品经理不好意思提需求了。他认为 AI 只会让原来优秀的人变得更优秀，但无法回答一句“我不知道”。团队协作的重构比换工具难得多，16 人的小团队也面临巨大的沟通成本。这篇文章没有堆砌技术术语，而是直击 AI 时代产品创新的真实困境。

AI 工程

涵盖 AI 工程技术实现与场景化开发的全流程，包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。

1.Claude Code 在大型代码库中的运作方式：最佳实践与入门指南 | Claude（Claude Blog）

Anthropic团队分享了Claude Code在百万行级monorepo、遗留系统和微服务架构中的真实落地经验。他们放弃了传统的RAG嵌入式索引，改走Agentic Search路线——让Claude像工程师一样用grep和跨引用导航，避免了索引滞后导致的过时信息问题。关键提效模式包括分层CLAUDE.md、LSP集成和明确的团队所有权，这些才是让AI在大型代码库中真正有用的抓手。

2.使用 Claude 进行计算机和浏览器操作的最佳实践 | Claude（Claude Blog）

Anthropic工程团队把他们内部跑Computer Use和Browser Use时踩过的坑全抖出来了。最核心的一课是：截图分辨率必须按Claude模型规定的尺寸降采样，否则模型看图点鼠标的位置全歪，整条流程直接报废。文章还详细讲了努力度参数怎么调、怎么防提示注入、以及用缓存断点加滚动缓冲区再加LLM压缩这一套组合拳来管住上下文窗口。最后还介绍了批量工具和顾问工具这些实验性功能。这份清单不是空谈理论，而是真正能拿来搭工程底盘的硬核实操指南。

3.在 Windows 上为 Codex 构建安全有效的沙箱（OpenAI Blog）

Windows 上跑 Codex 时安全是个大麻烦——没有原生沙箱接口，只能要么每步都弹窗询问，要么完全不管。OpenAI 的工程师硬是搞出了一个方案：先用专用用户账户隔离进程，再套上防火墙规则封死网络，最后强度居然能追上 macOS 的 sandbox，而且开发体验没怎么打折。这篇文章把踩过的坑和最终解法写得清清楚楚，如果你在 Windows 上做代理执行环境的安全加固，这简直是瞌睡送枕头。

4.为生产级 AI 智能体构建评估框架：基于 100 多次部署的 12 项指标框架（Towards Data Science）

一位医疗AI客户的合规官问了个让团队哑口无言的问题——「你怎么知道你的Agent没在编造病人症状？」花了六周补齐12项评估指标，项目才上线。作者基于此后100+企业部署，沉淀出检索层、生成层、Agent行为层各设阈值的完整框架，每条指标都给了测量方法、阈值依据和生产注意事项。如果你正准备把Agent推向真实场景，这份清单开工前应该先打印出来。

5.构建支持暂停、恢复且永不丢失上下文的长时间运行 AI 智能体（基于 ADK）（Google Developers Blog）

真实企业流程里，入职、报销这些事动不动拖几周，现在的聊天机器人一重启就失忆，根本扛不住。Google ADK 团队放出了一套完整的新员工入职协调教程，教你用结构化记忆替代向量库扔JSON，用事件驱动替代轮询阻塞，用多智能体委派替代单Agent巨型提示。源码已经在 GitHub 上了，想让你家 Agent 真正在企业流水线跑起来，这篇是必读的。

6.Agent Skill 规范、构建与设计模式（阿里云开发者）

Anthropic 去年底把 Agent Skill 作为开放标准发布，不到半年时间就被 Claude Code、Codex、GitHub Copilot 等 33 个 Agent 产品接入。Skill 可不是你熟知的 Prompt，它是一套围绕任务、工具、流程和输出边界的结构化行为设计。文章把这套规范的字段、三层渐进式加载机制和模型驱动触发逻辑讲得清清楚楚，还拆解了 Google 的五种设计模式以及 Skill-Creator 的工程化套路。最核心的一句话：description 字段的质量直接决定 Skill 能否被正确触发——所以，别小看那几行描述，它是整个技能调度的命门。

7.Agent Infra 实践复盘：Kimi 如何搭建 Agent 背后的 Database 服务（Founder Park）

Kimi 最近搞了个 K2.6 版本，普通用户写几句话就能生成一个完整的在线应用。听起来很酷对吧？但真正的挑战不在于代码生成，而在于给数百万用户动态建小站的托管成本。每个用户一个 Supabase 实例搞不定，单 PG 多 Schema 到万级就崩了。PingCAP 的 TiDB Cloud 怎么解决的？他们搞了个「虚拟数据库界面」，把租户隔离、统一技术栈和即时弹性打包在一起，把单租户成本压到订阅模式能承受的水平。这是 Agent-native 时代第一个值得参考的数据基础设施落地案例，做工程的朋友别错过。

8.从零设计生产级 Multi-Agent Harness：架构、评估、记忆、成本与 MCP 工具接入全拆解（腾讯云开发者）

腾讯云开发者团队这篇长文直接点出了一个容易被忽略的关键：决定Multi-Agent能不能落地的不是模型或Prompt，而是Harness——Agent的‘操作系统’。作者提出了生产级原则——Agent负责局部智能，Harness负责全局控制，并明确了Orchestrator必须独占的五项决策权，包括任务生命周期、计划裁决、Agent路由、失败处理和硬终止条件。文章还详细拆解了架构编排、工具治理、记忆、评估、成本控制和MCP工具接入五大模块，每个都配有PlantUML图示。这是国内难得一见的Multi-Agent工程化全景指南，适合所有想把Agent系统真正用起来的开发者。

9.AI-Generated UI 技术深度解析：模型流式输出与 UI 渲染实践（大淘宝技术）

大淘宝技术团队把AI-Generated UI的全栈技术栈彻底拆解了一遍。从底层的SSE协议、fetch+ReadableStream，到Vercel AI SDK、v0.dev、Bolt.new、WebContainers这些关键开源项目，再到流式代码、Markdown、JSON的增量解析三大挑战，统统讲透了。更难得的是，里面还塞满了真实场景的错误恢复、实时预览和性能优化的工程选型干货。如果你想做出v0、Cursor、Bolt那种体验，这篇就是补全技术地图的起点，别错过。

10.首个 Java Harness Framework 来了｜AgentScope 把 OpenClaw 带到企业分布式场景（阿里云开发者）

阿里最近放了个大招：AgentScope 1.1 Java 版上市，直接把 OpenClaw 那套 Harness Engineering 搬到了企业分布式场景。这次升级透出四个硬核能力——工作区驱动的运行时（人格、知识、技能、记忆、子 Agent 规格统一管理）、可插拔抽象文件系统（一套接口搞定本地磁盘、远端存储和沙箱）、内置上下文管理（对话压缩、双层记忆、全文搜索）、还有子 Agent 编排和隔离执行（多租户友好）。对 Spring 一派的企业开发者来说，这是国内首个原生 Java Harness Framework，从此搞 Agent 终于不用再东拼西凑了。

11.AI Native 时代 —— 研发组织何去何从（阿里技术）

阿里内部访谈暴露了一个惊人变化：工程师写代码的时间从30%暴跌到5%，而和Agent对话飙升至60%。一个本需6周的功能，现在一天就能走完上线、测试、下线、重发全流程。这背后是两千年组织演化史的新篇章——AI不再是工具，而是新的协作主体，传统以人为核心的组织设计开始失效。Anthropic等AI Native团队给出了新模板：Harness层（高度结构化、AI主导）加上Hive Mind层（高度松散、人主导）。还有蒸馏焦虑、Architect角色、Execution Graph这些硬核概念，值得反复咀嚼。

12.140. 对姚顺宇的 4 小时访谈：请允许我小疯一下！在 Anthropic 和 Gemini 训模型、技术预测、英雄主义已过去（张小珺Jùn｜商业访谈录）

姚顺宇在Anthropic和Google DeepMind参与训练Claude 3.7、4.5和Gemini 3等模型，这场四小时的访谈里他直言AI个人英雄主义的时代已经过去，现在的关键是集体协作和扎实做事。他分享了自己从物理学转向AI的认知路径，判断预训练还远没到头，复盘了Coding能力的爆发，并对字节跳动、豆包和机器人技术做了预测。想了解一线训练者的真实内幕和未来技术方向，这篇访谈值得细读。

其他

行业前沿与开源生态，整合行业深度洞察与开源技术动态的复合型主题，技术哲学、AGI 讨论、领袖观点。

1.如何打造能穿越时代的公司 | Eric Ries，Lean Startup 作者（Lenny’s Podcast）

Eric Ries（没错，就是《精益创业》那位）在他的新书里直戳很多成功公司的痛处：不是创始人们变贪婪了，而是公司一旦成功，就会被一种叫「财务引力」的东西拽向平庸——说白了，眼里只盯着短期ROI。但他没只吐槽，而是给出了三颗「不锈钢螺栓」：公共利益公司（PBC）让使命写进章程、Anthropic那种独立受托人式的信托治理、以及诺和诺德的非营利基金会控股。如果你正琢磨怎么设计一个能抵御短期诱惑的组织，这篇给出了罕见的具体路径。