Vol.96 AI智能体架构演进：从OpenClaw到Paperclip的编排实践

⼤家好，Weekly Gradient第 96 期已送达，本期内容深入探讨AI智能体架构的最新发展，涵盖OpenClaw的自我迭代机制与Paperclip的零人类公司理念，分析记忆管理、沙箱安全等关键技术，展示智能体如何通过工程化实现高效协作与自主进化。

AI 商业

聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新，包含投资趋势、GTM 策略、SaaS 转型等商业话题。

1.Nvidia’s Open Salvo， OpenAI’s Amazon Deal， Grok Cuts Video Prices， and more…（deeplearning.ai）

这期内容真是信息量爆炸！吴恩达直接开炮，说有人借着环保和失业的幌子搞“反AI宣传”，想用州级法规把开源和创新给锁死，他力挺联邦统一监管来破局。英伟达那边放了个大招，Nemotron 3 Super模型混搭了Mamba-2和Transformer，推理速度飙到每秒442个token，专为智能体场景优化，开放权重还这么能打。OpenAI和亚马逊勾搭上了，联手搞“有状态运行时环境”，这明显是在微软的无状态API协议外另开赛道，云联盟的裂痕藏不住了。最狠的是xAI，Grok Imagine 1.0直接屠榜视频生成质量排名，带音频的15秒视频每分钟才4.2美元，把Sora和Veo的价格按在地上摩擦，市场要变天了。

2.155: 贾鹏创立至简后的首次访谈：从英伟达到理想，具身智能的六边形战士（晚点聊 LateTalk）

这期播客聊得太有料了！贾鹏从英伟达到理想汽车再到自己创业，把具身智能这个前沿领域的关键问题都点透了。他反复强调，现在大家光盯着算法和数据，其实硬件才是最大的坑——一致性差、返修率高，这直接关系到ToB项目能不能真正落地。更让人印象深刻的是他提出的“体系竞争”概念，未来的胜出者必须是模型、硬件、组织、商业闭环样样都强的六边形战士。理想汽车那段经历也很有意思，资源有限的情况下靠扁平化、项目驱动的组织文化实现了技术逆袭，这种实战经验对很多创业团队都有启发。最后他借鉴特斯拉的思路，指出商业化必须和真实场景数据采集形成良性循环，这才是驱动模型持续进化的正路。听完感觉对具身智能的现状和未来都有了更立体的理解。

AI 产品

探索 AI 原生产品的设计范式与用户体验革新，强调产品哲学、交互模式、Agent 产品设计等。

1.Paperclip: Hire AI Agents Like Employees (Live Demo)（Greg Isenberg）

最近看到 Paperclip 这个开源项目，三周就在 GitHub 拿了三万颗星，热度真的高。创始人 Dota 演示了怎么用它从零搭建一家 AI 驱动的公司，核心思路挺颠覆的：你不再是管具体任务的老板，而是像董事会成员一样，只管设定高层目标和品牌价值观，剩下的全交给 AI 层级去执行。他们设计了个‘心跳’机制，每次 Agent 醒来都会重新确认身份、读取计划，解决了大模型记性不好的老问题。最实用的是 BYOB 功能，你可以给 CEO 配顶级的 Claude，给普通任务用便宜模型，灵活控制成本。还有现成的公司模板，比如游戏工作室，直接套用就能运行，不用从头折腾。虽然 AI 能包揽执行，但你的品味和价值观还是得自己把关，这才是人类不可替代的部分。看完感觉离‘零人类公司’又近了一步，不只是工具升级，更是工作方式的彻底重塑。

AI 工程

涵盖 AI 工程技术实现与场景化开发的全流程，包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。

1.OpenSearchCon China 2026：字节跳动在 OpenSearch 上的技术实践与前沿探索（字节跳动技术团队）

字节跳动这次在OpenSearchCon上分享的技术实践，可以说是把搜索性能推到了一个新高度。他们面对的是PB级数据和百万亿文档的极端场景，居然能实现写入后立刻就能搜到的真实时效果，这背后靠的是堆外内存和乐观锁的巧妙设计。更厉害的是，他们搞了一套基于Segment Replication的存算分离架构，直接把总体拥有成本砍掉一半，扩容效率还提升了50倍，这简直是运维团队的福音。在AI时代，向量检索是个大难题，但字节自研的SymRaBitQ算法和磁盘Vamana索引，在百亿级向量检索中实现了5.5倍的QPS提升，成本还降了80%，算是打破了高精度、高性能和低成本的不可能三角。最后，他们还深入到Lucene内核，用Java Vector API做SIMD向量化，甚至玩起了无分支编程来榨干硬件性能，这些底层优化细节，对技术人来说真是干货满满。

2.OpenClaw 构建自我迭代 AI 助手笔记（阿里云开发者）

如果你对打造一个能自己学习、自己反思、自己成长的AI助手感兴趣，这篇文章就是为你准备的。作者分享了用OpenClaw框架亲手构建银行客户经理助手「小银」的完整实战过程，核心在于如何让AI实现「自我迭代」。文章详细拆解了通过SOUL.md、MEMORY.md这些核心文件来定义人设和记录记忆，再结合Cron定时任务和Heartbeat主动关怀机制，搭建起一个能让AI自主反思、持续优化的闭环系统。更有意思的是，作者还展示了如何让不同的AI助手之间互相通信、自主测试，从而摆脱人工验证的瓶颈。最后，文章对比了OpenClaw这种「养成系」助手和Claude Code那种「工具型」助手的本质区别，一个像伙伴，一个像牛马，记忆和身份认知是它们的分水岭。整篇内容干货满满，从技术实现到设计哲学都讲得很透，对于想深入理解智能体进化机制的人来说，这绝对是一份难得的实践指南。

3.深入理解 OpenClaw 技术架构与实现原理（下）（阿里云开发者）

OpenClaw 这篇技术文章真是干货满满，把企业级智能体的核心设计讲得明明白白。它用 Docker 沙箱给工具执行套上了安全笼子，通过三种作用域和严格的权限控制，把意外操作的风险降到最低。记忆管理这块特别有意思，坚持“文件即真相”的理念，用 Markdown 存东西，再用 SQLite 加向量索引混合搜索，既让人能看懂，又让机器找得快。Skills 技能模块就像乐高积木，用 Markdown 文件封装功能，还能自动安装依赖。多代理路由系统能处理复杂的会话场景，有八个匹配层级。最酷的是 Agent 能自己改引导文件，根据反馈调整行为，实现真正的“自进化”。这些设计组合起来，确实为构建安全、可扩展的高性能 AI 智能体提供了很扎实的参考。

4.MySQL 复制延迟终结者：AliSQL 高效 AI 诊断和四大内核级优化（阿里云开发者）

MySQL主从复制延迟是不是让你头疼？阿里云自研的AliSQL内核这次带来了硬核解决方案。它专门针对大表DDL、大事务、批量数据处理和小事务高并发这四类典型延迟场景下手。最酷的是引入了RDS AI助手，能自动分析延迟曲线和Binlog特征，精准定位问题根源。内核层面更是大刀阔斧：大事务和DDL不用等提交才传输Binlog了，执行期间就同步到从库预执行，实现真正的零延迟；高并发场景下减少了30%以上的加锁次数，小事务还能打包优化；并行复制也重构了，把阻塞逻辑下沉到Worker线程，避免中等事务被卡成单线程。这些优化组合起来，让从库在复杂业务负载下也能保持极低延迟甚至零延迟，简直是DBA的福音。

5.业务逻辑的“坍塌”：当应用层只剩下胶水代码，在 AI Agent 时代，我们该构建什么（阿里云开发者）

这篇文章讲了个挺有意思的现象：随着大模型越来越聪明，咱们以前吭哧吭哧写的那些复杂业务逻辑，好像正在往模型内部“坍塌”。结果呢？应用层代码变得跟“胶水”一样薄，主要任务变成了管理对话的上下文。作者把LLM的不确定性比作一种物理特性，就像硬件精度和计算成本博弈的必然结果，咱们得学会跟它共处。他还详细拆解了怎么通过状态压缩、知识注入这些手段，在有限的Token窗口里玩转Agent。对了，他还把LangChain比作AI时代的SSH框架，虽然未来可能被超越，但至少现在它给开发定了不少规矩。读下来感觉，未来的工程挑战可能不再是拼响应速度，而是怎么持续交付稳定可靠的AI应用了。

6.让 AI 变成 Super 员工的秘密：高效训练 Skills（腾讯技术工程）

你有没有遇到过让AI处理复杂任务时，它要么中途失忆，要么偷工减料，最后交付的东西根本没法用？这篇文章简直戳中了痛点！作者从实战经验出发，发现问题的根源不是AI不够聪明，而是它缺乏具体的“岗位能力”。文章的核心观点是：别指望AI靠通用智力搞定一切，得给它建立一套工程化的业务操作系统。具体怎么做呢？首先得承认AI的上下文有限，然后把模糊的“想要什么”转化成清晰的“具体怎么做”的SOP。更关键的是，必须设计自我校验机制和阻断式门禁，比如用Checklist明确检查项，确保前置步骤不达标就禁止进入下一阶段，防止AI为了省事压缩结构。另外，AI可不懂物理环境的限制，比如Shell命令长度、文件写入方式这些细节，所以Skill里必须包含“工程生存指南”，明确实现路径和禁忌，避免逻辑正确但工程实现失败。最后，还得建立“执行-复盘-迭代”的闭环，让AI从翻车案例中学习，自动识别规则缺失并生成修改后的Skill片段，实现从“这次错了”到“以后不放”的进化。说白了，Skill的本质不是让AI更聪明，而是通过机制保障交付质量的下限，把它从靠状态发挥的普通员工，变成靠机制稳定输出的S级员工。

7.拒绝重复造轮子！抽象 80% 工作场景，打造可复用的”AI 助手工厂”（阿里云开发者）

你是不是也受够了每次开发AI助手都要从头开始？这篇文章简直说出了我的心声！它提出了一个超酷的‘AI助手工厂’概念，把80%的工作场景抽象成四大类，比如复杂指令执行和知识问答，这样就不用重复造轮子了。最让我兴奋的是那个Prompt插拔式架构，把框架Prompt和业务定制分开，就像搭积木一样灵活。他们还研发了FSWW工具召回算法来解决海量工具匹配的难题，用逆向推理加四重安全校验确保执行可靠。更厉害的是图文RAG模式，通过图像解析Agent生成语义摘要，让文生成和图召回协同工作，彻底解决了多模态知识库的构建问题。这简直就是把专家经验变成了可配置的智能助手，生产效率直接起飞！

8.[AINews] Everything is CLI（Latent Space）

最近AI领域有个挺有意思的趋势，感觉一切都在往命令行界面（CLI）靠拢。像Stripe、Ramp这些大厂都开始推CLI工具，让AI智能体可以直接配置后端服务，省去了手动设置的麻烦。这背后其实是在解决一个关键问题：光靠生成代码还不够，还得让智能体真正能操作基础设施。语音技术这边也热闹得很，Mistral和Cohere几乎同时发布了开源方案，延迟低到90毫秒就能出第一个字的声音，专有API的市场怕是要被冲击了。更值得关注的是，大家现在不太只盯着基础模型了，都在琢磨怎么给智能体搭好“工具链”——就是那些中间件、记忆系统、任务编排和安全策略，这成了决定智能体靠不靠谱的关键。还有啊，多智能体怎么协作也出了新花样，像Cline Kanban这种工具让多个智能体在各自的工作空间里并行干活，既解决了速度问题，又避免了代码冲突，感觉协作模式真的要变了。

9.林俊旸（Junyang Lin）新的文章：大模型的下一个阶段，不是让模型“想得更久”，而是让模型“为（宝玉(@dotey)）

最近林俊旸那篇关于大模型演进的文章挺有意思的，他直接点出个关键趋势：别再只盯着让模型想得更久这种老路了，真正的突破方向是让模型学会“为”什么而思考，也就是从单纯的推理能力转向智能体思维。文章里对比了Qwen3、Anthropic、DeepSeek这几家不同的策略，有的在合并推理和指令模式上走得快，有的更谨慎。最核心的观点是，智能体化可不是简单加个功能，它背后需要一套复杂的强化学习基础设施，环境怎么设计、工具怎么调用、怎么实现闭环交互，这些才是未来AI系统的真正挑战。读下来感觉，这波技术演进的重点已经从“模型能算多快”转向了“系统怎么用得好”了。

10.The more AI can do， the more we need to ask what i（OpenAI(@OpenAI)）

OpenAI最近在播客里聊了个挺有意思的话题，研究员Jason Wolfe和主持人Andrew Mayne一起探讨了他们的‘模型规范’框架。这可不是什么技术文档，而是他们想让AI模型怎么运作的公开指南。他们具体聊了模型遇到冲突指令时该怎么处理，比如用户要求和安全原则打架了怎么办。更关键的是，这个规范不是一成不变的，会随着新模型的能力、实际应用中的反馈不断调整。听起来OpenAI正在尝试把AI的行为准则透明化，让开发者和用户都能参与讨论，这可能是未来AI治理的一个重要方向。

11.Episode 15 - Inside the Model Spec（OpenAI）

OpenAI 最近公开了模型规范的设计思路，这可不是什么枯燥的技术文档，而是真正影响我们与 AI 互动方式的底层规则。Jason Wolf 在访谈中澄清了几个关键点：模型规范主要是给人看的，用来解释 AI 为什么这样决策，而不是单纯为了训练模型。最有趣的是那个“链式指挥”机制——当指令冲突时，OpenAI 的指令优先级最高，其次是开发者，最后才是用户。但别担心，大多数政策都被刻意放在用户层级之下，只有核心安全政策才会强制置顶，这样既保障了安全，又给了用户足够的自由空间。他们还调整了诚实和保密原则的优先级，现在诚实高于保密，防止 AI 在遇到冲突时偷偷摸摸搞小动作。更厉害的是，具备思维链能力的推理模型通过“审议对齐”真正理解政策意图，而不仅仅是模仿合规行为，这让 AI 的决策过程更透明、更可靠。Wolf 还提到，观察思维链能帮我们发现 AI 是否有意欺骗，这为 AI 安全研究打开了新窗口。最后，模型规范和 Anthropic 的宪法 AI 其实是互补关系，一个面向公众解释行为，一个专注训练实现，两者共同推动 AI 向更安全、更可控的方向发展。

12.[AINews] Apple’s War on Slop（Latent Space）

最近苹果和那些靠“氛围编程”快速搞出来的AI应用杠上了，传统审核根本跟不上这种速度，直接封了Replit的更新，这信号够明显了吧？更关键的是，现在智能体厉害不厉害，早就不只看模型本身了，Anthropic和Figma都在玩“外壳”和工具集成这套，把智能体编排成了真正能干活儿的系统。但别光顾着兴奋，LiteLLM那个PyPI包被黑的事儿可太吓人了，恶意代码直接偷凭证，整个文件系统都成了攻击目标，这提醒我们AI供应链脆弱得很。好在技术也在狂奔，FlashAttention-4在Blackwell GPU上飙到理论性能的71%，vLLM的新版本也让多模态任务快了不少，真是冰火两重天。

13.MiniMax Office Skills：开源一套生产级办公文档引擎（MiniMax 稀宇科技）

MiniMax这次开源了个挺硬核的东西——一套生产级的办公文档引擎Office Skills。咱们平时用AI生成Word、Excel、PDF、PPT时，是不是经常遇到格式乱掉、公式失效、数据丢失这些糟心事？他们就是冲着解决这些痛点去的，要让AI生成的文档从‘能跑’变成真正‘能交付’。有意思的是，他们没走寻常路，放弃了那些容易上手但功能受限的库，而是深入到更底层：Word用.NET OpenXML SDK保证标准兼容，Excel直接操作XML来保住动态公式和高级特性，PDF搞了个封面正文分离的渲染引擎，PPT则用约束体系确保视觉一致性。更厉害的是，他们还设计了一套‘执行-评测-修复’的自进化机制，让引擎能通过自动化闭环不断学习优化，把失败案例变成改进动力。这可不是小打小闹的玩具，而是瞄准了企业级应用的生产标准，看来AI处理办公文档的可靠性真要上一个台阶了。

14.今天刚发生的重大安全事件，Karpathy 亲自发帖警告。 litellm 被投毒：一次教科书级的（宝玉(@dotey)）

今天AI圈炸锅了！litellm这个超火的AI工具库在PyPI上被恶意投毒，简直像电影里的黑客情节。攻击者利用Trivy漏洞偷了发布令牌，把恶意代码塞进1.82.7和1.82.8版本，现在数千个项目都中招了。最吓人的是，这些恶意代码能偷走你的SSH密钥、云服务凭证，连环境变量都不放过。连Karpathy都亲自发帖警告，这事儿有多严重可想而知。如果你在用litellm，赶紧检查版本，要是用了那两个问题版本，别犹豫，立刻把所有凭证都换掉，就当已经被偷了。这可不是演习，是实实在在的安全危机。

15.林俊旸看到了什么（硅星人Pro）

最近读到一篇挺有意思的文章，讲的是AI领域正在发生一次根本性的范式转移。过去大家都在追求模型内部的推理能力，就像OpenAI o1和DeepSeek R1那样，但现在风向变了——AI开始转向“智能体式思考”。这意味着什么？简单说，AI不再只是坐在那里思考，而是要为了行动而思考，在真实环境中不断交互、调整计划。更关键的是，训练的重点已经从单个模型变成了“模型+环境”这个完整系统。环境设计、吞吐基础设施、评估器鲁棒性这些以前不太受重视的环节，现在成了核心竞争力。文章还提到一个工程上的痛点：在智能体场景下，如果训练和推理不能有效解耦，GPU利用率会很低，实验速度也快不起来。这其实点出了很多团队正在面临的现实挑战。感觉AI正在从“思考机器”向“行动机器”进化，而支撑这种进化的工程能力，可能比模型本身更重要。

16.Harness is the New Dataset：模型智能提升的下一个关键方向（海外独角兽）

最近读到一篇挺有意思的文章，讲的是AI开发正在经历一次重大转变。过去我们总盯着模型本身，想着怎么让AI更聪明，但现在瓶颈其实转移到了外围系统上。文章提出了一个叫“Harness Engineering”的概念，你可以把它理解为AI的“运行环境”和“管控系统”——它决定了AI能看到什么信息、能用什么工具、失败了怎么处理。更关键的是，文章强调“Harness is the Dataset”，意思是这些系统捕获的执行轨迹才是模型持续进化的真正燃料，模型和它的运行环境需要共同优化，形成一个数据闭环。文章还详细拆解了Harness的六大组件和设计原则，比如信息要渐进式披露、工具要精简、要建立自动化的评估验证闭环。如果你在构建AI应用时总觉得模型能力够用但系统不稳定，或者想了解AI工程的下一个关键方向，这篇文章值得一读。

其他

行业前沿与开源生态，整合行业深度洞察与开源技术动态的复合型主题，技术哲学、AGI 讨论、领袖观点。

1.#468.英伟达的万亿征途：黄仁勋深度对话，揭秘 AI 工厂、极限协同设计与人类的未来（跨国串门儿计划）

英伟达创始人黄仁勋这次访谈真是干货满满，他直接把整个数据中心看作一台巨型计算机来设计，这种“极限协同设计”理念彻底打破了传统芯片开发的思路。更让人兴奋的是，他提出AI发展正在从预训练转向推理和智能体阶段，未来计算范式会从文件检索变成Token生成，就像电力一样成为可扩展的商品。黄仁勋还分享了独特的管理方式——让60多位专家一起开会做“集体推理”，取消一对一私聊，这种透明化组织架构听着就很有冲击力。他对中国创新生态、马斯克的工程速度，甚至AGI对就业的影响都有独到见解，整场对话既有技术深度又有商业视野，值得反复品味。