Vol.110 AI能力飙升背后，谁为智能买单？成本与价值的博弈

⼤家好，Weekly Gradient第 110 期已送达，本期内容探讨AI能力提升背后的真实成本：API价格、推理延迟、组织适应成本等，分析如何让智能转化为价值而非负担。

AI 商业

聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新，包含投资趋势、GTM 策略、SaaS 转型等商业话题。

1.GPT-5.6 Sol 前瞻：下一代模型预览（OpenAI News）

OpenAI 刚放出了 GPT-5.6 系列的前瞻，把 Sol、Terra、Luna 三个版本分别定位在旗舰、均衡和低成本。旗舰版 Sol 在 Terminal-Bench 2.1 上拿到 91.9%，还用了超过 70 万个 A100 等效 GPU 小时做自动化红队测试，安全投入不小。不过目前只是面向少量可信伙伴的限量预览，不是全面开放。这篇说明有意思的地方在于，它把前沿能力、分层定价和严格的访问机制放在一起呈现——能力越强，发布方式就越需要安全团队、政策制定者和产品团队共同决定。换句话说，模型发布本身，正在变成产品的一部分。这个变化值得留意。

2.#603.Cloudflare CEO：当机器人流量超过人类，互联网的商业模式将彻底崩塌（跨国串门儿计划）

Cloudflare CEO 预测机器人流量即将超过人类，5 年后可能达到人类的一千倍。这可不是小打小闹，而是直接冲击广告、品牌和内容授权的根基——Agent 根本不点广告。这篇对谈把 Agent 从软件功能拔高到互联网商业模式和基础设施层面，预测值得争论，但思考角度很犀利。适合带点批判精神读一读。

3.AI 普及正在压垮中层管理者（HBR.org）

这篇研究访谈了两家大型咨询公司18位不同层级的人，发现AI落地最难受的是中层。他们既要盯着AI的输出别出错，又要手把手带新人、做知识沉淀，可手头的活儿一点没少。文章揪出了三个断层：没时间学习、激励机制错位、高层看不到问题。如果你正在公司推AI，别光顾着买工具，得想想怎么撑住这些夹在中间的人——毕竟未来的领导者还得靠他们培养。

AI 产品

探索 AI 原生产品的设计范式与用户体验革新，强调产品哲学、交互模式、Agent 产品设计等。

1.Claude Sonnet 5 发布（Anthropic News）

Anthropic 刚发布了 Claude Sonnet 5，他们称这是目前最擅长 Agent 任务的 Sonnet 系列模型。在推理、工具调用、编程和知识工作上，它的表现已经逼近 Opus 4.8，但价格却低了不少——API 首发价每百万输入 token 只要 2 美元，输出 10 美元，虽然 8 月 31 日后会涨到 3 和 15，但依然很有竞争力。这次发布直接把性能、安全和价格摊在了产品决策表上，给了日常使用 Agent 工作负载的人一个用 Sonnet 替代 Opus 的现实理由，也重新划定了中端模型能独立完成的任务边界。如果你是企业用户，可以更直接地判断这次能力升级是否值得额外成本。

2.开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建（Google DeepMind News）

Google 一口气开放了两款 API：Nano Banana 2 Lite 用于快速生成图像，每张 1K 分辨率图片只要 0.034 美元，4 秒出图；Gemini Omni Flash 支持视频生成和对话式编辑，每秒视频 0.10 美元。这篇发布稿把价格、速度和限制都写得很清楚，能帮你算清批量创意生产的预算和延迟。产品和设计团队也可以借此判断一个多媒体原型值不值得扩大规模，创意工具的成本终于不再黑箱了。

3.OpenAI Codex 负责人谈产品工作的新版图：从实现成本到品味、策展与智能体工作流（Lenny’s Podcast）

当实现成本快速下降，原型制作变得无比容易，产品工作的重心开始转移：稀缺的不再是代码，而是方向选择、品味、策展和系统一致性。OpenAI Codex 的产品负责人 Andrew Ambrosino 没有跟着喊‘人人都是产品经理’，反而认真讨论为什么判断力更难替代，以及团队该如何选择合适的表达媒介。他反对‘PRD 已死’的简单判断，认为交互问题适合用原型验证，但模糊的产品意图仍然需要清晰文档。这场对话很适合产品、设计和工程负责人一起读，然后重新聊聊彼此的分工。

4.Agent 元年第 500 天：什么在消失，什么在诞生——为什么我们不该再投资 GUI 思维的软件？（十字路口Crossing）

500天前没人能预料Agent会走得这么远，真格基金的钟天杰和AI开发者归藏用这段跨度回看，戳破了一个幻觉：消失的未必是图形界面，而是你作为人肉传送带的角色。节目聊透了Headless、CLI和Skill如何把个人品味变成可运行的协议，也直面了开放CLI的商业两难——赚钱和开放的跷跷板怎么平衡？最扎心的还是那套支付、沙箱和记忆基础设施，少了这些Agent生态就是空中楼阁。如果你在憋产品，最该重新审视的是流程里那些点击：哪些在创造价值，哪些只是让你卡在传送带上假装忙碌。

AI 工程

涵盖 AI 工程技术实现与场景化开发的全流程，包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。

1.美团 LongCat-2.0 正式发布：在国产算力集群上完成全流程训练与推理的万亿参数模型（美团 · 技术团队）

美团刚刚发布了 LongCat-2.0，一个 1.6T 参数、激活约 48B 的万亿模型，而且完全在五万卡国产算力集群上完成训练和推理，原生支持 1M 上下文，预训练数据超过 30T token。这不仅是规模上的突破，更难得的是团队详细记录了国产算力上的稳定性、正确性和效率工程细节，还指明了 Agentic Coding 的产品方向。如果你关心国产模型和基础设施的协同进展，这是一份不可多得的一手资料，而且他们计划开源。

2.DeepSeeK 突然发布 DSpark，让 AI 的回答不再「挤牙膏」（爱范儿）

DeepSeek和北大联手搞了个叫DSpark的新技术，专门治AI回答慢的老毛病。他们用半自回归草稿模型加上置信度调度，让生成速度飙升——Flash版单用户快了60%到85%，Pro版也提了57%到78%，而且总吞吐量没掉。文章把原理讲得明明白白，还把开源代码和权重都甩了出来。推理速度现在真是模型体验和成本的双重瓶颈，这波操作说明了好服务不光靠模型，还得系统和模型一起调优。做在线推理的团队强烈建议看看，干货满满。

3.Claude Sonnet 5 的新功能（Simon Willison’s Weblog）

Claude Sonnet 5 发布后，很多人只关注跑分，但真正影响生产的是这些隐性变化。开发者 Simon Willison 直接翻文档，发现模型不再支持 temperature、top_p、top_k，默认启用自适应思考，上下文翻倍到 100 万 token，输出最高 12.8 万。最要命的是 tokenizer 更新——官方说输入 token 增加约 30%，他实测英文样本飙升到 1.42 倍。这意味着你的提示词长度、费用和参数兼容性都要重新算。这篇文章短小但信息密集，帮你避开迁移的坑，比官方稿实在多了。

4.Spotify 如何让智能体在 2000 万行代码库中运行：Claude Code、Honk 与工程验证体系（Claude）

Spotify 的工程负责人 Niklas Gustavsson 最近复盘了他们怎么让 AI 智能体在超过 2000 万行代码的仓库里干活。别以为换个大模型就完事了，真正的硬骨头是搭一套完整的验证基础设施——Honk 平台、CI、跨平台构建、模拟器流程、组件归属和自动合并缺一不可。PR 数量确实上去了，AI 写的 PR 也泛滥了，可他们还在头疼这些数字到底跟用户价值有什么关系。这篇案例特别适合那些想把 AI 编程从个人玩具升级成团队系统的团队，它把规模化需要的配套条件讲得很实在，也提醒别把提交数量当成功绩。

5.构建自主工程组织：Block 如何让 3500 名工程师走向智能体协作（AI Engineer）

Block 公司 3500 名工程师几乎人手一个 AI 编程助手（Goose、Claude Code 等），但交付速度并没有明显提升。于是他们搞了一套成熟度模型，选了 50 个内部推动者，还把代码仓库改造成 AI 友好、验证流程标准化。Angie Jones 的分享没有回避评审瓶颈、基础设施和人的问题——这是个组织变革故事，不是单纯的效率工具介绍。想判断自己团队准备好了吗？这篇复盘值得参考。

6.相比层出不穷的 Agent 框架，不变的 Agent Protocol 是什么（阿里云开发者）

Open 6.相比层出不穷的 Agent 框架，不变的 Agent Protocol 是什么（阿里云开发者）

Agent框架层出不穷，但底层有哪些不变的东西？这篇拆解了6个反复出现的核心对象：Thread、Run、Step、Event、Artifact和Checkpoint，还讲清了Loop的承载方式和编排协议，以及Harness如何把状态持久化、中断恢复、可观测性与权限模型做成默认体验。看完这个，再面对新框架时一眼就能看穿它究竟解决了真正的Runtime问题，还是只给旧概念换了新名字。

7.Loop Engineering 又是啥？一文讲清企业 Agent 落地的四层工程进化论（腾讯云开发者）

企业做Agent落地，别一上来就追最新术语，先看看自己缺哪一层。有位作者把工程拆成Prompt、Context、Harness、Loop四层，而且它们是嵌套关系——不是新的取代旧的。Harness那层用AGENTS.md、linter和测试门禁来给Agent上紧箍咒，保证确定性；Loop层再加上自动化、工作树、技能和子Agent，让任务能自己转起来。文章也没回避现实问题：成本失控、理解力负债、认知投降。对团队来说，这像是张诊断地图，帮你判断该优先投哪一层，而不是瞎折腾新概念。新手团队读起来也能很快入门。

8.AI Agent 的 Skill 系统设计（大淘宝技术）

淘宝技术团队把 Skill 系统玩出了新高度：他们管这叫「行为编程」，而不是塞一堆背景知识到 Markdown 里。好的 Skill 得让 Agent 在正确场景下自动触发，只加载必要的上下文，然后根据风险等级在原则、模板、脚本和硬门禁之间灵活选择自由度。更狠的是，他们用前向测试和对抗合理化来检查 Agent 会不会在压力下偷偷跳过规则。这篇东西直接给了你一套可执行、可验证、还能持续迭代的工程方法，还附带了清楚的反模式检查表，适合正在维护 Skill 体系的团队直接拿去做评审。

9.SkillOpt 将 AI 智能体技能转化为可训练资产（Microsoft Research Blog）

微软研究院搞了个新活儿，把原本只能手动的 Skill 文件变成了可以像训练模型一样自动优化的参数。他们搞了个 SkillOpt 受控优化循环，通过有界文本编辑、验证门禁和拒绝反馈来防止提示词漂移，还能让技能保持紧凑和可审计。在 52 个测试场景里全拿了最佳或并列最佳，但真正让人兴奋的不是又刷榜了，而是把手工修改技能的过程变得可度量、可迁移、可版本化、可回滚。对于那些暂时不想动模型参数但想轻量适配的团队来说，这真是条捷径。

10.为什么我们构建了 ADK 2.0（Google Developers Blog）

Google 的 ADK 2.0 解决了一个生产中的核心矛盾：到底哪些步骤该交给大模型，哪些该用传统代码？他们搞了个结构化工作流，把 API 调用、条件判断和错误处理都放进去，只在需要动脑子的时候才调用 Agent。一个退款流程示例显示，token 消耗减半，延迟降了两成。如果你正在把 Agent 从原型推向生产，这篇文章的取舍原则很实在，可以直接拿来用。

11.Ahmad Osman 谈本地 AI 为何正在追赶（Latent.Space）

Ahmad Osman 说得很直白：本地 AI 不再只是发烧友的玩具，它正在成为企业必须认真对待的基础设施。他估计开源模型和闭源前沿模型的能力差距已经缩短到 4 到 8 个月，手机、笔记本、专用工作站也都在变强。但别以为在本地跑个模型就万事大吉——搜索、工具、Agent 框架、模型路由和运维才是决定系统好不好用的关键。这篇文章尤其适合那些在意数据控制、合规和私有部署的团队，帮你跳出只拼模型跑分的坑，重新理解什么才是真正可用的系统。

12.Token 不经济（腾讯研究院）

腾讯研究院这篇公开账本把企业AI账单上涨的原因掰开揉碎了给你看——不是单一模型涨价，而是供给定价、上下文损耗、Skill冗余、多Agent沟通税等多重因素叠加。最扎心的数据是：近80%的开源软件工程Skill不仅没提升通过率，反而让token开销最多飙了451%。好消息是他们也给出了压缩上下文、渐进加载、模型路由和硬预算约束这些解法。整篇都在强调一件事：别光盯着调用量，得用可验证的产出重新算ROI，让每笔钱都花在刀刃上。适合拉团队一起读，算算自家账单到底哪部分在漏钱。

其他

行业前沿与开源生态，整合行业深度洞察与开源技术动态的复合型主题，技术哲学、AGI 讨论、领袖观点。

1.3Blue1Brown 创始人：成为二手思考者的高昂代价（跨国串门儿计划）

这期中文节目改编自 4 月 30 日发布的 Grant Sanderson 对谈，本周重新进入我们的候选池。3Blue1Brown 创始人区分「源头」与「传声筒」：真正的创作者会消化知识并形成自己的解释，而不是只做更擅长分发的信息中介。他也提醒创作者关注作品在 5 年后是否仍有人愿意观看，而不是被实时数据牵着走。推荐给所有借助 AI 写作、研究和创作的人。效率提高之后，什么仍然值得亲自完成，什么需要长期积累，这期对谈给出了一份很诚恳的回答。