⼤家好,Weekly Gradient第 98 期已送达,本期内容聚焦智能体架构的演进,探讨大脑(LLM+编排)与双手(沙箱+工具)解耦的设计理念。涵盖Anthropic的顾问策略、GLM-5.1的8小时自主工作、Harness Engineering的可靠性实践,以及工程师从编码者向智能体管理者的角色转变,同时涉及AI安全审计和持续学习等前沿议题。
AI 商业
聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM 策略、SaaS 转型等商业话题。
1.Google AI 的历史与未来:对话 Sundar Pichai(Stripe)
谷歌CEO Sundar Pichai最近聊了聊公司AI战略的演变,从他们发明Transformer模型开始,到现在把AI技术整合到整个产品线里。他特别强调,对用户来说,AI产品的响应速度和低延迟才是关键体验。他还预测,到2026年,AI领域的竞争可能会遇到一些硬性限制,比如内存和电力供应跟不上需求。更让人好奇的是,谷歌计划投入高达1800亿美元的资本支出,这笔钱怎么花?对话里提到了从Waymo的具身智能到太空数据中心这些听起来很未来的布局,看来谷歌在AI上的野心真的不小。
2.Anthropic 从 10 亿到 190 亿的增长之路:Claude 如何成为史上增长最快的 AI 产品(Lenny’s Podcast)
Anthropic的增长故事简直像坐上了火箭——短短14个月,ARR从10亿飙到190亿以上,这速度在AI领域前所未见。他们的增长负责人Amol Avasare在访谈中分享了背后的秘诀:在AI能力指数级进化的时代,传统那种修修补补的优化已经不够看了,得敢于下“豪赌”。他们搞了个叫CASH的平台,用Claude来自动化实验,大幅提升了决策效率。Amol还提了两个挺有意思的概念:“原型即PRD”和“产品思维工程师”,强调快速迭代和跨职能协作的重要性。更打动人的是,他结合自己克服脑损伤的个人经历,聊了在AI浪潮中如何保持高效和清醒——这不只是商业策略,更是对从业者心态的宝贵提醒。如果你好奇AI公司怎么在疯狂增长中不掉队,这篇访谈绝对值得一读。
3.Token 经济学七问:一份关于 AI 新经济的入门地图(腾讯研究院)
嘿,最近看到一篇挺有意思的文章,讲的是Token怎么成了AI世界的“语言和货币”,正在彻底改变全球产业链的玩法。里面提到几个关键点:Token成本明明在飞速下降,但总量反而暴增,这背后是需求端从人转向了自主Agent在驱动;中国模型通过算法创新,在性价比上已经跑到了前面。文章还全面描绘了AI资源化、商品化的大趋势,以及随之而来的统计和监管新挑战,感觉这波AI浪潮带来的不仅是技术革新,更是一场深刻的经济和规则重塑。
AI 产品
探索 AI 原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent 产品设计等。
1.介绍 Muse Spark:迈向个人超级智能的规模化之路(AI at Meta Blog)
Meta 刚刚推出了一个叫 Muse Spark 的新模型,这可不是普通的 AI 工具。它原生支持视觉和文本的多模态处理,还能让多个智能体协作工作,听起来就挺酷的。最厉害的是,他们通过架构重构把预训练算力效率提升了整整 10 倍,这意味着开发成本能大幅降低。模型还引入了“沉思模式”,专门用来处理那些特别复杂的任务,让 AI 思考得更深入。Meta 重点展示了 Muse Spark 在个人健康领域的应用,比如分析健康数据、提供个性化建议这些场景。他们还分享了在推理优化和安全评估方面的核心洞察,看来 Meta 这次是认真想推动 AI 向个人超级智能的方向发展。
AI 工程
涵盖 AI 工程技术实现与场景化开发的全流程,包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。
1.一项旨在保护全球软件安全的计划 | Project Glasswing(Anthropic)
Anthropic最近搞了个Project Glasswing计划,专门把自家那个专家级的Claude Mythos Preview模型定向开放给关键基础设施组织用。这模型厉害在哪呢?它不仅能够精准找出代码里的漏洞,更牛的是还能自己串联起复杂的攻击链条,相当于一个AI安全专家在帮你做深度渗透测试。现在它已经实际帮Linux系统修复了一些长期存在的高危隐患,这可不是纸上谈兵,而是实打实地展示了AI在提升全球软件供应链安全方面的实战能力。看来AI在安全防御领域的潜力真的开始释放了。
2.顾问策略:利用 Opus 为 Sonnet 提升智能水平 | Claude(Claude Blog)
Anthropic最近推出的顾问策略真是让人眼前一亮!它让Sonnet或Haiku这类轻量级模型负责日常任务执行,只在遇到难题时才请出Opus这位大咖来指导。这种模式完全颠覆了传统那种层层拆解任务的架构,不仅让SWE-bench这类基准测试的表现大幅提升,更重要的是整体成本显著降低了。开发者现在只需要在API里配置一下advisor工具,就能轻松实现模型之间的高效协作,还能自动控制成本,简直是开发者的福音啊!
3.GLM-5.1 开源:支持 8 小时独立工作的长程任务模型(智谱)
GLM-5.1这次真的有点厉害,它居然能独立持续工作8小时,这可不是简单的聊天机器人能比的。在SWE-Bench Pro这些代码基准测试里拿了全球领先的成绩,说明它不只是会写代码,而是能完成从实验、分析到优化的整个工程闭环。最让我惊讶的是,它居然能从零开始构建系统,还能深度调优内核性能,这标志着AI正在从辅助工具变成真正有工程判断力的智能体。想想看,一个能独立工作8小时、自己完成复杂工程任务的AI,这离我们想象中的智能工程师又近了一步。
4.VimRAG:通义实验室开源全模态 RAG 框架,实现图文视频统一检索记忆(通义大模型)
通义实验室这次放了个大招,开源了VimRAG这个全模态检索框架。它最厉害的地方在于能把文本、图片、视频这些不同类型的内容统一管理起来,用动态记忆图的方式解决长序列检索时常见的重复循环和信息丢失问题。配合视觉能量分配和GGPO优化机制,不仅推理效率上去了,训练稳定性也大幅提升。这可不是小打小闹的技术优化,而是为构建复杂的企业级多模态知识库铺平了标准化的技术道路,感觉多模态AI的应用门槛又要降低了。
5.MiniMax 发布 MMX-CLI:为 Agent 设计的全模态命令行工具(MiniMax 稀宇科技)
MiniMax刚刚发布了一款专门为智能体设计的命令行工具MMX-CLI,这可不是普通的工具。它通过输出隔离和语义化状态码这些针对性优化,让调用全模态能力变得既高效又稳定。最棒的是,它彻底消除了传统API适配的复杂性,现在智能体可以自主完成从文案到音视频生成的整个闭环任务。如果你在开发智能体,这绝对是提升自动化执行能力的利器,值得立刻关注。
6.扩展托管智能体:将“大脑”与“双手”解耦(Anthropic Engineering)
Anthropic最近推出的Managed Agents架构挺有意思的,它把智能体拆成了三个独立模块:负责思考的“大脑”、执行任务的“双手”,还有记录对话的“会话”日志。这种解耦设计让智能体从需要精心维护的“宠物”变成了可以弹性伸缩的“牲畜”,不仅提升了安全性——敏感凭证被隔离了,还大幅优化了性能——按需初始化沙箱让首字延迟降低了60%以上。如果你在构建需要处理长时任务的智能体系统,这种模块化思路值得参考,它能帮你打造更灵活、更适应未来模型迭代的基础设施。
7.Martin Fowler 与 Kent Beck:软件重塑的框架,一次又一次(The Pragmatic Engineer)
嘿,如果你最近也在琢磨AI到底会怎么改变咱们写代码这件事,那Martin Fowler和Kent Beck这场对谈可太值得一听了。这两位软件工程界的大佬聊得特别实在,他们没去空谈那些吓人的概念,而是把AI浪潮和当年的敏捷开发、TDD这些咱们都经历过的事儿放在一起比。核心观点很清晰:代码的样子可能会变,但好的模块化设计、扎实的测试这些基本功,恰恰是未来和AI智能体(Agent)顺畅协作的底子。他们觉得,工程师的角色正在发生一个根本性的转变——咱们不能只埋头当个代码工匠了,得更懂业务全局,学会去管理和引导这些智能体。这其实给很多面对AI有点焦虑的同行指了条路:别慌,保持好奇,把手艺练好,在变化中找到那些不变的核心。
8.DHH 的全新编程方式(The Pragmatic Engineer)
DHH最近分享了一个挺有意思的观点,说现在大语言模型已经能搞定资深开发者对代码美学的那些高要求了。这意味着什么?随着AI把产能瓶颈给打破了,光会写代码的程序员价值可能会被稀释。未来更吃香的,可能是那些既懂系统架构、又有好产品品味,还能跨部门顺畅沟通的复合型工程师。这其实是在提醒我们,技术工具在进化,咱们的工作方式也得跟着变,别只埋头写代码,得多看看全局。
9.面向“Token 亿万富翁”的极限 Harness Engineering:100 万行代码、每天 10 亿 Token、0% 人工代码、0% 人工审查 —— Ryan Lopopolo,OpenAI Frontier & Symphony(Latent Space)
OpenAI内部搞了个超酷的实验,他们用所谓的“Harness Engineering”方法,在完全不用人工写一行代码的情况下,搞定了百万行级别的产品开发!这可不是小打小闹,他们每天能处理10亿个Token,而且代码和审查都实现了零人工介入。秘诀就在于搭建了一套强大的支架系统和可观测性链路,彻底踢开了人工审核这个瓶颈,让AI智能体真正成了并肩作战的队友。文章里重点聊了他们的Symphony编排系统,这玩意儿能用代码驱动的规范来处理复杂的PR周期,还提出了一个挺颠覆的观点:未来的软件架构得朝着“智能体可读性”的方向转型。如果你是个追求极致自动化效率的开发者或架构师,这绝对值得你好好琢磨一下。
10.AI 智能体的持续学习(LangChain Blog)
最近看到一篇挺有意思的文章,讲的是AI智能体怎么持续学习、不断进化。它把持续学习拆成了三个维度:模型权重、驱动代码和外部上下文,这三个东西得协同演进才行。文章特别强调执行追踪在优化系统里的核心作用,还对比了不同层级在处理灾难性遗忘和满足用户个性化需求时的权衡。读完之后感觉思路清晰了不少,对怎么构建能自我进化的智能体系统有了更具体的工程化路径。
11.编程智能体的组成部分(Ahead of AI)
如果你好奇那些成熟的AI编程助手为什么能比原始大模型强那么多,这篇文章正好拆解了其中的奥秘。它把编程智能体的核心架构掰开揉碎,讲清楚了仓库上下文、提示词优化、工具集成等六个关键模块是怎么协同工作的。特别强调了Agent Harness这个组件在处理复杂任务时的决定性作用,看完你就明白,好的AI产品背后是一套精心设计的工程系统在支撑。内容挺硬核的,但讲得挺实在,对想自己动手构建AI编程辅助工具的人来说,算是一份很实用的参考指南。
12.深度解析:Claude Code 源码架构与 Harness Engineering 实践(浮之静)
这篇文章真是把Claude Code的源码给扒了个底朝天!它揭示了一个关键真相:真正决定Agent可靠性的,其实是包裹在模型外面的那层“外壳”。文章详细拆解了如何通过维护轨迹不变量、精细化能力面暴露,还有外部化记忆管理这些技术手段,来解决Agent在长会话中容易出现的“失忆”和“跑偏”问题。如果你正头疼怎么让自家的Agent在复杂任务里保持状态一致、还能随时恢复,这篇深度解析绝对值得一读,它把内部调度、工具执行和状态持久化的门道都讲透了。
13.拥抱 AI 这一年:我的工具、实践和思考(腾讯云开发者)
如果你也在用AI工具,但总觉得效率没想象中高,或者Agent们经常跑偏,那这篇分享简直太及时了。作者把这一年从写提示词到搞Harness Engineering的实战经验全倒出来了,核心思路特别有意思——不是让AI更聪明,而是给它建一套机械化的约束体系,专门治那些协作时熵增和偏差的毛病。具体怎么操作?文章里详细拆解了macOS上的AeroSpace工具链,还展示了怎么用Agent自动抓资讯、提炼实践、优化工作空间,形成一个完整的闭环。最打动人的是那种务实态度,不追求完美智能,而是通过持续交流去建立对‘锯齿状智能’的直觉,这才是真正能落地的AI工作流转型指南。
14.为什么以及如何沙箱化 AI 生成的代码?—— Harshil Agrawal,Cloudflare(AI Engineer)
最近看到Cloudflare分享的关于AI生成代码安全性的讨论,真是戳中了当前AI应用开发的一个痛点。视频里详细拆解了运行AI代码时可能遇到的三种威胁场景,还对比了V8 Isolate和容器沙箱这两种技术方案在不同业务需求下的选择逻辑。最核心的观点是遵循“基于能力的安全性”原则——默认拒绝所有权限,然后用代理模式把API密钥这些敏感信息隔离在沙箱外面。如果你正在构建需要处理AI生成代码的生产级应用,或者想确保AI智能体的运行安全,这个思路和方法论值得好好琢磨。
其他
行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI 讨论、领袖观点。
1.Sam Altman 谈构建 AI 的未来(OpenAI)
OpenAI的Sam Altman最近聊了聊AI的未来,感觉就像疫情初期那种变革即将到来的既视感。他提到AI会在科学发现和普惠医疗这些领域带来巨大红利,但更关键的是提出了“涌现式韧性”这个概念——面对网络和生物安全风险,不能只靠单一管控,得用AI构建分层防御体系。他还前瞻性地讨论了重塑税基、算力普惠和社会安全网这些政策构想,听起来既紧迫又充满挑战。
2.69. 与田渊栋的访谈:大模型的真问题、变局、AI 洪水与 the path not taken(卫诗婕|商业漫谈Jane’s talk)
最近和Meta FAIR的顶尖AI科学家田渊栋聊了聊,他复盘了Meta在大模型竞速中的组织变局,特别有意思的是,他指出了当前大厂研发过度依赖「数字驱动」的弊端——光靠堆数据可不行,真正的突破得靠逻辑理解。他还分享了如何突破现有的Scaling Law、利用隐空间推理来提升模型效率,以及技术人员在AGI时代该怎么培养自己的「科研品味」。这可不是泛泛而谈,而是直击大模型发展的真问题,让人重新思考AI研发的方向。