⼤家好,Weekly Gradient第 101 期已送达,本期内容围绕杨斌提出的AI次方变革概念,探讨组织如何应对技术青春期;涵盖Karpathy的Software 3.0、Demis的AGI时间表、工程实践应用及企业生产实战,深入思辨Skill蒸馏与Agent范式。
AI 商业
聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM 策略、SaaS 转型等商业话题。
1.微软与 OpenAI 合作的新阶段(OpenAI Blog)
微软和OpenAI的合作又有了新动向,这次修订后的协议透露了不少信号。微软依然是OpenAI的主力云合作伙伴,但OpenAI现在可以自由选择其他云服务商了,除非微软接不住需求。知识产权许可延长到2032年,但不再是独家,微软可以继续用模型但没法独占了。收入分成这边,微软不再给OpenAI钱,反而是OpenAI要付给微软分成,不过设了上限到2030年。整体看起来,OpenAI在关系里争取到了更多自主权,微软也保住了大股东地位和优先权。两家公司还会在数据中心、芯片和网络安全上继续砸钱合作,但这次的调整明显是在给双方松绑,为未来各自的新动作留出空间。
AI 工程
涵盖 AI 工程技术实现与场景化开发的全流程,包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。
1.Karpathy 最新访谈:Vibe Coding 只是开始,真正重要的是 Agentic Engineering(宝玉的分享)
Karpathy最近在Sequoia的访谈中分享了他对AI编程的深刻见解。他提到2025年底自己进入了完全Vibe Coding的状态,AI生成的代码可以直接用了,但这只是抬高了编程的下限。真正重要的是Agentic Engineering——一种在使用AI Agent加速开发的同时,确保质量、安全和责任的工程纪律。他还深入探讨了Software 3.0的本质(上下文就是程序),LLM能力的锯齿状不均衡,以及那个震撼的MenuGen案例:模型直接吞掉了中间层App。人类工程师的核心价值在于系统理解、规格设计和品味判断,这些是AI替代不了的。他打了个比方:LLM像个幽灵,不是动物式智能,能力全靠实验室的数据和强化学习覆盖。智能变便宜后,最贵的是理解力,学习的重心要从死记硬背转向系统理解和问题定义。
2.Harness 不是目的,知识才是护城河 —— 一个 AI 工程交付团队的知识沉淀实践(腾讯技术工程)
很多AI团队把精力都花在搭工作流上,但真正拉开差距的其实是领域知识。这篇文章来自一个AI工程交付团队,他们分享了一套分层知识体系,让团队知识不再是个人脑袋里的黑匣子,而是共建共享的结构化资产。特别有意思的是,他们用远程操控解决了人机交互瓶颈,保证知识沉淀不遗漏、不扭曲。读完之后你会明白,工具可以复制,但知识才是护城河。
3.你不知道的 Agent:原理、架构与工程实践(阿里云开发者)
如果你正在搭建智能体系统,这篇文章是你的工程实战指南。作者基于一手经验,犀利指出很多团队忽略的关键:稳定的Agent循环,能力扩展靠工具和提示而非改核心逻辑;测试约束设施比模型本身更影响稳定性;上下文要分层管理,避免信息过载淹没信号;工具设计要围绕Agent目标而非API操作,并提供错误反馈;记忆要区分工作记忆、程序性记忆等类型,通过MEMORY.md和Skill实现跨会话一致性;多Agent协作必须先定通信协议和边界;评测从20个真实失败案例起步,先检查评测系统再改Agent。最后用一个真实案例OpenClaw展示了这些原则。读完你会对Agent工程有更落地的认识。
4.RAG 已死?不,是 Grep 回归了!(腾讯云开发者)
这篇文章拆解了Claude Code的源码,用硬核工程数据告诉你:为什么在AI编程工具里,Grep这种老古董反而比RAG更香。它把LLM驱动的多轮搜索循环、ripgrep的性能优势、和Cursor/Codex的架构差异以及token成本控制全画在了一张图里,结论有实证支撑。如果你在做AI编码、代码搜索或Agent检索架构,这篇值得细读,别被“RAG已死”的标题骗了,它其实是在讲搜索的回归逻辑。
5.像带新人一样引导 Claude Code:来自 17 年开发经验的启示 | Claude(Claude Blog)
一位17年经验的老程序员找到了用AI管理70万行代码的秘诀——就像带新人一样引导Claude。他专门为AI建了独立的上下文库,教它领域专业知识,还集成了MCP工具。这套方法不仅让开发速度快了不少,还顺手解决了积压多年的技术债。如果你也在发愁怎么让AI搞定复杂的大型项目,这篇实战经验你应该看看。
6.构建 Claude Code 的经验教训:提示缓存至关重要 | Claude(Claude Blog)
Claude Code团队带着血泪教训告诉你:prompt caching不是锦上添花的API优化,而是决定agent产品能否活下去的硬约束。他们用亲身经历拆解了为什么system prompt、工具集设计、会话分叉乃至plan mode都得先算清缓存命中率这笔账——这对所有做长上下文、多轮对话的智能体产品来说,是比模型选择更底层的架构决策。别以为这只是工程细节,搞错了,你的agent会又贵又慢又蠢。
7.用于 Codex 编排的开源规范:Symphony(OpenAI Blog)
OpenAI 博客介绍了 Symphony,一个用于编排编码智能体的开源规范。它解决了多编码会话间人类注意力瓶颈的问题,通过将 Linear 项目管理看板作为控制平面,自动监控任务并分配给专用智能体工作空间,处理从执行到 PR 合并的完整生命周期。实施后有些团队 PR 数量提升 500%。核心思想是从管理编码会话转向管理可交付成果(工单),虽然失去了中途提示智能体的能力,但推动更强大的护栏和文档建设。Symphony 的核心是 SPEC.md 文件,定义问题和解决方案,让智能体更自主地工作,而不是遵循僵硬的状态转换。
8.Codex 与子智能体:OpenAI AI 工程平台深度解析(AI Engineer)
OpenAI把Codex定位成了软件工程智能体,不只写代码,还能在读取-规划-执行循环里跑测试、调度子智能体。这期59分钟的技术讲解把子智能体并行执行、插件生态、Guardian安全门控和MCP集成讲透了——难怪它能冲到300万周活。想评估AI工程智能体平台的团队,这篇内容能帮你理解它背后的工程底气。
9.长时间运行的智能体(Elevate)
这篇稿子把「长时间运行的 Agent」从概念落到工程实现,没有炒冷饭,而是直指持久状态、恢复机制和验证闭环这三大真正的拦路虎。它还横向对比了 Anthropic、Cursor、Google 的收敛架构,最后提炼出五种可以直接抄作业的生产设计模式。如果你正在搭 Agent 底座或多智能体系统,这篇是你需要的实战手册。
10.AI 智能体现在可以创建 Cloudflare 账户、购买域名并部署应用(The Cloudflare Blog)
Cloudflare和Stripe Projects联手搞了个新协议,让AI智能体自己能注册Cloudflare账号、买域名、部署应用,全程不需要人动手。这相当于给开发者配了个自动化的超能力,从零到上线完全交给AI搞定,开发效率和便利性直接拉满。
11.京东广告大模型实战:GRAM 架构如何在 50ms 内完成生成式推荐?(InfoQ 中文)
京东这篇实战分享把生成式推荐从概念拉到了工业级约束下,重点不是模型多牛,而是广告场景里怎么同时搞定低时延、可控性、知识增强和业务ROI。GRAM架构、快慢双链路、知识工程和工程优化讲得很细,对搞推荐系统、搜索广告和行业大模型落地的人特别有参考价值。
12.Java 世界中的 MCP:为 LLM 集成带来架构策略(InfoQ)
在Java生态里,大模型集成一直有点‘野路子’:直接调用API,出了问题才补救,安全、治理、可观测性样样缺位。这篇内容介绍了一个叫MCP(模型上下文协议)的东西,它给LLM集成套上了标准化的框架,划清了架构边界,让大模型不再是外部‘黑盒’,而是企业架构里受管控、可扩展的一等公民。如果你正在头疼怎么把LLM规整地融入现有Java系统,这篇文章给的思路值得一看。
13.LLM 代码生成为什么会失败,以及如何避免(AI Engineer)
PostHog 的 Danilo Campos 在演讲里掏心窝子分享了他们做 coding agent 时踩过的坑和总结出的实战原则。不画大饼,全是控制层面的干货:把最新的 markdown 文档直接塞进 context 防止模型跑偏,维护轻量级的 model airplanes 展示正确集成姿势,用 breadcrumbing 把大任务拆成顺序小步骤,每次跑完追问 agent 什么条件能让它更成功,以及用窄工具替代大范围读敏感文件。最颠覆的观点是,纯文本和文档已经成了 LLM 系统的耐用品基础设施,往往比复杂的脚手架代码更有价值。如果你在搞 coding agent、自动化 onboarding 或集成助手,这场分享的迁移价值非常高,值得认真听。
其他
行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI 讨论、领袖观点。
1.量子位专访楼天城:AI 是匹脱缰野马,Harness 是这个时代最关键的能力(量子位)
小马智行CTO楼天城在量子位的专访里聊了他们的PonyWorld 2.0世界模型,观点相当炸裂:一旦AI驾驶超越人类,人类驾驶数据不仅没用甚至可能拖后腿,工程师也得从“教练”变成“打工人”和“数据采集员”。这个新模型不走寻常路——跳过语言直接拿传感器数据映射动作,还搞了个“意图”语义层当中间人,AI自己能诊断问题、自动找数据补短板,甚至主动提出进化方向。楼天城还呛了声VLA路线的天花板,聊了Scaling Law在自动驾驶里的极限,最后放话:AI已经能自我演进,物理AGI的大门开了,未来最值钱的就是懂得怎么“驾驭”AI的人。
2.Andrej Karpathy:Software 3.0、Vibe Coding 与 Agentic Engineering 的完整框架(Sequoia Capital)
Karpathy 这场演讲是理解当下 AI 编程范式最清晰的框架。他把 Software 1.0 到 3.0 的演进、Vibe Coding 和 Agentic Engineering 的分野,以及可验证性、锯齿形能力这些概念整合到一起,重新校准了行业的关键认知。对于工程师、产品人和工具构建者来说,他把‘理解什么不能外包’和‘锯齿形能力’连成了一个统一框架,看完你会对 AI 编程的边界和可能性有更踏实的判断,而不是被 buzzwords 带着跑。
3.构建未来:Demis Hassabis 谈 AGI 路径、架构缺口与深科技创业(Y Combinator)
Demis Hassabis 这位诺贝尔奖得主、DeepMind 的掌舵人,亲口拆解了 AGI 剩下的硬骨头:持续学习时会灾难性遗忘、长期推理能力匮乏、高效记忆系统还没影。他把当前智能体最要命的毛病称为“锯齿状智能”——时不时掉链子。好消息是,通过蒸馏技术,前沿级智能很快就能塞进你的手机里。想押注 AGI 时间线的创始人和研究者,这篇是第一手权威判断,错过血亏。
4.139. 【Agent 的综述】和苏煜聊 Agent 技术史、OpenClaw Moment、边界的消弭和社会的辐射(张小珺Jùn|商业访谈录)
这期播客请来了俄亥俄州立大学的苏煜教授,他可是Agent技术演化史的见证人。节目从AI从Chat到Agent的演进讲起,系统梳理了Language Agent过去三年的飞速发展,聊到了通用数字代理的愿景、OpenClaw时刻,也毫不避讳当前Agent面临的瓶颈和未来预期。如果你是那种想搞懂Agent技术原理和行业趋势的人,这期内容绝对值得一听。
5.严肃聊聊,Skill 到底能蒸馏我们的几分之几?|Hao 好聊趋势(腾讯科技)
GitHub上「同事Skill」项目火爆,但你真的了解Skill能偷走你多少本事吗?最新评测显示,在医疗领域Skill能显著提效,到软件工程却可能帮倒忙,堪称“偏见放大器”。文章借认知科学把知识拆成“知道什么”和“知道怎么干”,发现Skill最擅长处理确定性规则(比如固定流程),一旦遇到凭经验直觉判断的活儿(比如该不该改需求、这个方案靠不靠谱),它就彻底抓瞎。换句话说,Skill能顶替你60%-80%的搬砖时间,却只覆盖30%-40%的实际价值——真正值钱的核心判断力,根本没法靠语言写进指令。更扎心的是,别以为藏得住,RL和偏好对齐这类技术正在绕过语言,直接学你的行为习惯和隐性偏好。想防蒸馏?文章最后给了四种策略,其中“反蒸馏”可能是最狠的:故意把低级流程包装成高级抽象,让AI学个寂寞。
6.杨斌:我为什么要提“AI 次方变革”(腾讯科技)
杨斌教授提出的“AI次方变革”狠狠打了那些把AI当插件的企业一巴掌。他点出了一个扎心的现实:组织像进入中年的油腻大叔,只盯着短期业绩、线性增长,而技术却像个青春期叛逆少年,疯狂迭代、充满不确定性。这种错配才是转型痛苦的根源。他给出的解法是“生成式涌现变革”——别再试图控制每个细节,而是创造能让创新自然涌现的环境和上下文。对任何正在摸索AI转型的管理者来说,这很可能是一针清醒剂。