Vol.101 AI次方变革：组织中年撞上技术青春期，Harness Engineering与Agent系统重塑工程范式

⼤家好，Weekly Gradient第 101 期已送达，本期内容围绕杨斌提出的AI次方变革概念，探讨组织如何应对技术青春期；涵盖Karpathy的Software 3.0、Demis的AGI时间表、工程实践应用及企业生产实战，深入思辨Skill蒸馏与Agent范式。

AI 商业

聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新，包含投资趋势、GTM 策略、SaaS 转型等商业话题。

1.微软与 OpenAI 合作的新阶段（OpenAI Blog）

微软和OpenAI的合作又有了新动向，这次修订后的协议透露了不少信号。微软依然是OpenAI的主力云合作伙伴，但OpenAI现在可以自由选择其他云服务商了，除非微软接不住需求。知识产权许可延长到2032年，但不再是独家，微软可以继续用模型但没法独占了。收入分成这边，微软不再给OpenAI钱，反而是OpenAI要付给微软分成，不过设了上限到2030年。整体看起来，OpenAI在关系里争取到了更多自主权，微软也保住了大股东地位和优先权。两家公司还会在数据中心、芯片和网络安全上继续砸钱合作，但这次的调整明显是在给双方松绑，为未来各自的新动作留出空间。

AI 工程

涵盖 AI 工程技术实现与场景化开发的全流程，包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。

1.Karpathy 最新访谈：Vibe Coding 只是开始，真正重要的是 Agentic Engineering（宝玉的分享）

Karpathy最近在Sequoia的访谈中分享了他对AI编程的深刻见解。他提到2025年底自己进入了完全Vibe Coding的状态，AI生成的代码可以直接用了，但这只是抬高了编程的下限。真正重要的是Agentic Engineering——一种在使用AI Agent加速开发的同时，确保质量、安全和责任的工程纪律。他还深入探讨了Software 3.0的本质（上下文就是程序），LLM能力的锯齿状不均衡，以及那个震撼的MenuGen案例：模型直接吞掉了中间层App。人类工程师的核心价值在于系统理解、规格设计和品味判断，这些是AI替代不了的。他打了个比方：LLM像个幽灵，不是动物式智能，能力全靠实验室的数据和强化学习覆盖。智能变便宜后，最贵的是理解力，学习的重心要从死记硬背转向系统理解和问题定义。

2.Harness 不是目的，知识才是护城河 —— 一个 AI 工程交付团队的知识沉淀实践（腾讯技术工程）

很多AI团队把精力都花在搭工作流上，但真正拉开差距的其实是领域知识。这篇文章来自一个AI工程交付团队，他们分享了一套分层知识体系，让团队知识不再是个人脑袋里的黑匣子，而是共建共享的结构化资产。特别有意思的是，他们用远程操控解决了人机交互瓶颈，保证知识沉淀不遗漏、不扭曲。读完之后你会明白，工具可以复制，但知识才是护城河。

3.你不知道的 Agent：原理、架构与工程实践（阿里云开发者）

如果你正在搭建智能体系统，这篇文章是你的工程实战指南。作者基于一手经验，犀利指出很多团队忽略的关键：稳定的Agent循环，能力扩展靠工具和提示而非改核心逻辑；测试约束设施比模型本身更影响稳定性；上下文要分层管理，避免信息过载淹没信号；工具设计要围绕Agent目标而非API操作，并提供错误反馈；记忆要区分工作记忆、程序性记忆等类型，通过MEMORY.md和Skill实现跨会话一致性；多Agent协作必须先定通信协议和边界；评测从20个真实失败案例起步，先检查评测系统再改Agent。最后用一个真实案例OpenClaw展示了这些原则。读完你会对Agent工程有更落地的认识。

4.RAG 已死？不，是 Grep 回归了！（腾讯云开发者）

这篇文章拆解了Claude Code的源码，用硬核工程数据告诉你：为什么在AI编程工具里，Grep这种老古董反而比RAG更香。它把LLM驱动的多轮搜索循环、ripgrep的性能优势、和Cursor/Codex的架构差异以及token成本控制全画在了一张图里，结论有实证支撑。如果你在做AI编码、代码搜索或Agent检索架构，这篇值得细读，别被“RAG已死”的标题骗了，它其实是在讲搜索的回归逻辑。

5.像带新人一样引导 Claude Code：来自 17 年开发经验的启示 | Claude（Claude Blog）

一位17年经验的老程序员找到了用AI管理70万行代码的秘诀——就像带新人一样引导Claude。他专门为AI建了独立的上下文库，教它领域专业知识，还集成了MCP工具。这套方法不仅让开发速度快了不少，还顺手解决了积压多年的技术债。如果你也在发愁怎么让AI搞定复杂的大型项目，这篇实战经验你应该看看。

6.构建 Claude Code 的经验教训：提示缓存至关重要 | Claude（Claude Blog）

Claude Code团队带着血泪教训告诉你：prompt caching不是锦上添花的API优化，而是决定agent产品能否活下去的硬约束。他们用亲身经历拆解了为什么system prompt、工具集设计、会话分叉乃至plan mode都得先算清缓存命中率这笔账——这对所有做长上下文、多轮对话的智能体产品来说，是比模型选择更底层的架构决策。别以为这只是工程细节，搞错了，你的agent会又贵又慢又蠢。

7.用于 Codex 编排的开源规范：Symphony（OpenAI Blog）

OpenAI 博客介绍了 Symphony，一个用于编排编码智能体的开源规范。它解决了多编码会话间人类注意力瓶颈的问题，通过将 Linear 项目管理看板作为控制平面，自动监控任务并分配给专用智能体工作空间，处理从执行到 PR 合并的完整生命周期。实施后有些团队 PR 数量提升 500%。核心思想是从管理编码会话转向管理可交付成果（工单），虽然失去了中途提示智能体的能力，但推动更强大的护栏和文档建设。Symphony 的核心是 SPEC.md 文件，定义问题和解决方案，让智能体更自主地工作，而不是遵循僵硬的状态转换。

8.Codex 与子智能体：OpenAI AI 工程平台深度解析（AI Engineer）

OpenAI把Codex定位成了软件工程智能体，不只写代码，还能在读取-规划-执行循环里跑测试、调度子智能体。这期59分钟的技术讲解把子智能体并行执行、插件生态、Guardian安全门控和MCP集成讲透了——难怪它能冲到300万周活。想评估AI工程智能体平台的团队，这篇内容能帮你理解它背后的工程底气。

9.长时间运行的智能体（Elevate）

这篇稿子把「长时间运行的 Agent」从概念落到工程实现，没有炒冷饭，而是直指持久状态、恢复机制和验证闭环这三大真正的拦路虎。它还横向对比了 Anthropic、Cursor、Google 的收敛架构，最后提炼出五种可以直接抄作业的生产设计模式。如果你正在搭 Agent 底座或多智能体系统，这篇是你需要的实战手册。

10.AI 智能体现在可以创建 Cloudflare 账户、购买域名并部署应用（The Cloudflare Blog）

Cloudflare和Stripe Projects联手搞了个新协议，让AI智能体自己能注册Cloudflare账号、买域名、部署应用，全程不需要人动手。这相当于给开发者配了个自动化的超能力，从零到上线完全交给AI搞定，开发效率和便利性直接拉满。

11.京东广告大模型实战：GRAM 架构如何在 50ms 内完成生成式推荐？（InfoQ 中文）

京东这篇实战分享把生成式推荐从概念拉到了工业级约束下，重点不是模型多牛，而是广告场景里怎么同时搞定低时延、可控性、知识增强和业务ROI。GRAM架构、快慢双链路、知识工程和工程优化讲得很细，对搞推荐系统、搜索广告和行业大模型落地的人特别有参考价值。

12.Java 世界中的 MCP：为 LLM 集成带来架构策略（InfoQ）

在Java生态里，大模型集成一直有点‘野路子’：直接调用API，出了问题才补救，安全、治理、可观测性样样缺位。这篇内容介绍了一个叫MCP（模型上下文协议）的东西，它给LLM集成套上了标准化的框架，划清了架构边界，让大模型不再是外部‘黑盒’，而是企业架构里受管控、可扩展的一等公民。如果你正在头疼怎么把LLM规整地融入现有Java系统，这篇文章给的思路值得一看。

13.LLM 代码生成为什么会失败，以及如何避免（AI Engineer）

PostHog 的 Danilo Campos 在演讲里掏心窝子分享了他们做 coding agent 时踩过的坑和总结出的实战原则。不画大饼，全是控制层面的干货：把最新的 markdown 文档直接塞进 context 防止模型跑偏，维护轻量级的 model airplanes 展示正确集成姿势，用 breadcrumbing 把大任务拆成顺序小步骤，每次跑完追问 agent 什么条件能让它更成功，以及用窄工具替代大范围读敏感文件。最颠覆的观点是，纯文本和文档已经成了 LLM 系统的耐用品基础设施，往往比复杂的脚手架代码更有价值。如果你在搞 coding agent、自动化 onboarding 或集成助手，这场分享的迁移价值非常高，值得认真听。

其他

行业前沿与开源生态，整合行业深度洞察与开源技术动态的复合型主题，技术哲学、AGI 讨论、领袖观点。

1.量子位专访楼天城：AI 是匹脱缰野马，Harness 是这个时代最关键的能力（量子位）

小马智行CTO楼天城在量子位的专访里聊了他们的PonyWorld 2.0世界模型，观点相当炸裂：一旦AI驾驶超越人类，人类驾驶数据不仅没用甚至可能拖后腿，工程师也得从“教练”变成“打工人”和“数据采集员”。这个新模型不走寻常路——跳过语言直接拿传感器数据映射动作，还搞了个“意图”语义层当中间人，AI自己能诊断问题、自动找数据补短板，甚至主动提出进化方向。楼天城还呛了声VLA路线的天花板，聊了Scaling Law在自动驾驶里的极限，最后放话：AI已经能自我演进，物理AGI的大门开了，未来最值钱的就是懂得怎么“驾驭”AI的人。

2.Andrej Karpathy：Software 3.0、Vibe Coding 与 Agentic Engineering 的完整框架（Sequoia Capital）

Karpathy 这场演讲是理解当下 AI 编程范式最清晰的框架。他把 Software 1.0 到 3.0 的演进、Vibe Coding 和 Agentic Engineering 的分野，以及可验证性、锯齿形能力这些概念整合到一起，重新校准了行业的关键认知。对于工程师、产品人和工具构建者来说，他把‘理解什么不能外包’和‘锯齿形能力’连成了一个统一框架，看完你会对 AI 编程的边界和可能性有更踏实的判断，而不是被 buzzwords 带着跑。

3.构建未来：Demis Hassabis 谈 AGI 路径、架构缺口与深科技创业（Y Combinator）

Demis Hassabis 这位诺贝尔奖得主、DeepMind 的掌舵人，亲口拆解了 AGI 剩下的硬骨头：持续学习时会灾难性遗忘、长期推理能力匮乏、高效记忆系统还没影。他把当前智能体最要命的毛病称为“锯齿状智能”——时不时掉链子。好消息是，通过蒸馏技术，前沿级智能很快就能塞进你的手机里。想押注 AGI 时间线的创始人和研究者，这篇是第一手权威判断，错过血亏。

4.139. 【Agent 的综述】和苏煜聊 Agent 技术史、OpenClaw Moment、边界的消弭和社会的辐射（张小珺Jùn｜商业访谈录）

这期播客请来了俄亥俄州立大学的苏煜教授，他可是Agent技术演化史的见证人。节目从AI从Chat到Agent的演进讲起，系统梳理了Language Agent过去三年的飞速发展，聊到了通用数字代理的愿景、OpenClaw时刻，也毫不避讳当前Agent面临的瓶颈和未来预期。如果你是那种想搞懂Agent技术原理和行业趋势的人，这期内容绝对值得一听。

5.严肃聊聊，Skill 到底能蒸馏我们的几分之几？｜Hao 好聊趋势（腾讯科技）

GitHub上「同事Skill」项目火爆，但你真的了解Skill能偷走你多少本事吗？最新评测显示，在医疗领域Skill能显著提效，到软件工程却可能帮倒忙，堪称“偏见放大器”。文章借认知科学把知识拆成“知道什么”和“知道怎么干”，发现Skill最擅长处理确定性规则（比如固定流程），一旦遇到凭经验直觉判断的活儿（比如该不该改需求、这个方案靠不靠谱），它就彻底抓瞎。换句话说，Skill能顶替你60%-80%的搬砖时间，却只覆盖30%-40%的实际价值——真正值钱的核心判断力，根本没法靠语言写进指令。更扎心的是，别以为藏得住，RL和偏好对齐这类技术正在绕过语言，直接学你的行为习惯和隐性偏好。想防蒸馏？文章最后给了四种策略，其中“反蒸馏”可能是最狠的：故意把低级流程包装成高级抽象，让AI学个寂寞。

6.杨斌：我为什么要提“AI 次方变革”（腾讯科技）

杨斌教授提出的“AI次方变革”狠狠打了那些把AI当插件的企业一巴掌。他点出了一个扎心的现实：组织像进入中年的油腻大叔，只盯着短期业绩、线性增长，而技术却像个青春期叛逆少年，疯狂迭代、充满不确定性。这种错配才是转型痛苦的根源。他给出的解法是“生成式涌现变革”——别再试图控制每个细节，而是创造能让创新自然涌现的环境和上下文。对任何正在摸索AI转型的管理者来说，这很可能是一针清醒剂。