Vol.107 Claude Fable 5 引爆AI圈：最强模型降价，高端版本受限，能力分发迎来转折

⼤家好，Weekly Gradient第 107 期已送达，本期内容聚焦 Claude Fable 5 与 Mythos 5 的发布，探讨最强模型大幅降价与高端版本受限背后的 AI 能力分发转折，以及推理速度、智能体工程化、上下文管理等新战场。

AI 商业

聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新，包含投资趋势、GTM 策略、SaaS 转型等商业话题。

1.Google DeepMind 的 Logan Kilpatrick：为什么模型会吞掉智能体脚手架（Sequoia Capital）

Sequoia 和 Google DeepMind 的 Logan Kilpatrick 聊了一个判读：模型会逐渐吞掉那些围绕它搭建的智能体脚手架——工具调用、执行环境这些外挂会慢慢被吸收进原生模型。他把编程当作检验这一趋势的最佳试验场，还透露 Google 正在把统一的智能体基础设施铺到 IDE、CLI、Search 和 Gemini 里。给创业者的建议很直白：别跟大平台抢通用赛道，聚焦垂直领域，因为你比他们更懂用户和风险边界。

2.Kimi 将公开预测 104 场世界杯赛事：德国队或爆冷夺冠（月之暗面 Kimi）

月之暗面搞了个大动作：让Kimi的300个Agent组团预测2026年世界杯全部104场比赛，从战术、伤病到赔率、天气，全维度分析，还用了Elo、Poisson、xG和Monte Carlo这些模型。每场赛前预测、赛后复盘，全公开。最炸裂的发现是，模型觉得德国队夺冠概率有11.3%，而市场只给7.4%。这不只是一次营销，更是一种勇气——把AI的判断放在公众眼皮底下，接受验证甚至打脸。世界杯月，围观这场AI的公开考试，挺值。

AI 产品

探索 AI 原生产品的设计范式与用户体验革新，强调产品哲学、交互模式、Agent 产品设计等。

1.Claude Fable 5 与 Claude Mythos 5（Anthropic News）

Anthropic 突然扔出两颗重磅炸弹：面向公众的 Claude Fable 5 和专供安全圈的 Claude Mythos 5。Fable 5 在几乎所有 AI 基准测试里都拿了第一，价格却只有之前 Mythos Preview 的一半，每百万 token 只要 10 刀输入、50 刀输出。更夸张的是，Stripe 用它在一天内把 5000 万行 Ruby 代码全库迁移完了，换成团队自己干可能要两个多月。另一款 Mythos 5 通过 Project Glasswing 开放给受信任的安全研究员，装了个新的安全分类器，一旦遇到网络攻防、生化武器之类的敏感问题，会自动切换到更保守的策略。

2.Claude Fable 5 的初步印象（Simon Willison’s Weblog）

Simon Willison 花了 5.5 小时、烧掉 110 多美元，深度测试了 Claude Fable 5，结果被吓到了——这模型居然知道他那堆小众开源项目，简直像认识他很久一样。在写代码上，Fable 5 干了两件大事：一是把 MicroPython 沙箱升级成在 WebAssembly 里跑完整 CPython，还能生成可用的 Python wheel；二是为他的 LLM 库自己设计了 Datasette Agent，从 API 到测试到文档全包，换做人类得干好几天。虽然 Fable 5 又慢又贵，但处理复杂任务时那种行云流水的感觉，让人觉得钱花得值。

3.iPhone 终于支持 Siri AI！但国行无缘首发，闹钟成为最大惊喜（爱范儿）

苹果在WWDC26上彻底改变了发布会节奏，不再按设备划分，而是围绕跨系统功能展开，AI成了核心。Siri迎来了史上最大升级：独立App、打字交互、跨App串联，产品逻辑直接对标ChatGPT，俨然成为Apple智能的入口。同时苹果选择与Google合作，基于Gemini技术共建基础模型，相当于公开承认在通用大模型上的追赶姿态。不过这些新功能首批仅限英语地区，国行用户暂时缺席，闹钟功能的意外更新倒成了小惊喜。

4.iPod 与 iPhone 之父 Tony Fadell：AI 时代如何建立品味、判断力与创造力（Lenny’s Podcast）

Tony Fadell 作为 iPod、iPhone 和 Nest 的缔造者，聊透了在 AI 时代如何做出真正有影响力的产品。别被生成式 AI 的快速原型迷惑——执行快不代表做对事。他拆解了从 0 到 1 时，品味如何帮你取舍，判断力如何引导系统设计，以及长期迭代才真正回应用户痛点。产品人和创业者必读，尤其是那些在 AI 应用里挣扎的团队。

AI 工程

涵盖 AI 工程技术实现与场景化开发的全流程，包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。

1.DiffusionGemma：文本生成速度提升 4 倍（Google DeepMind News）

Google DeepMind 把扩散模型那套技术用到文本生成了，搞了个 DiffusionGemma。它用新的扩散头同时生成 256 个 token，在单块 H100 上每秒能跑 1000+ token，本地生成速度最多快了 4 倍。模型基于 Gemma 4 架构，26B 参数但每次只激活 3.8B，量化后 18GB 显存就能跑。不过坦率说，输出质量不如标准 Gemma 4，不适合直接上生产。但双向注意力让它在代码填充、行内编辑这类需要看上下文的场景表现不错。模型开源且支持主流框架微调，想了解扩散语言模型这条技术路线的话，这是个绝佳入门样本。

2.Xiaomi MiMo 携手 TileRT｜1T 模型首次突破 1000 tokens/s 输出速度（Xiaomi MiMo）

小米大模型团队和TileRT推理系统团队一起搞了个大新闻：他们在通用8卡GPU上，把1万亿参数模型的输出速度首次突破了每秒1000个token。注意，这不是靠专用硬件，而是模型和系统的极致协同。模型侧用了FP4混合量化，只压缩MoE Expert，其他部分保持原精度；再加上DFlash块级并行投机解码，用滑动窗口注意力把draft开销降成常数级，代码场景平均接受长度6.30。系统侧TileRT靠常驻内核和异构流水线，微秒级消除算子间隙。10秒生成贪吃蛇的演示，FP4-DFlash checkpoint也开源了，搞推理优化的工程师一定要看看。

3.Claude Code 一周年复盘：从辅助写代码到自主智能体工作流（Claude）

Claude Code 一岁了！这篇文章不是功能列表式的庆祝，而是团队内部视角的真实复盘——验证循环、Auto Mode、routine、远程控制和上下文极简主义这些概念，是怎么一步步变成日常开发工作流的一部分的。它不只在讲工具本身，更在探讨如何把一个 AI 工具真正放到业务流程的中心，而不是边缘打杂。如果你是工程师、产品经理或者正在折腾自己的创业项目，这篇值得细读，因为它展示的不是“AI 能做什么”，而是“AI 怎么做才能真正用起来”。

4.循环工程（Elevate）

AI编程智能体正在进化，从你手动输入prompt干活，变成你设计一个能自己循环运转的系统。这就是「循环工程」——核心是五个构建块加一个外部记忆：自动化定时发现任务、工作树让并行执行不会冲突、技能把项目知识攒下来、插件通过MCP对接外部工具、子智能体把制造者和检查者分开。外部记忆（比如Markdown文件）特别关键，因为模型跑完一次就忘光。举个栗子：每天自动扫描GitHub issue、分类、修bug、提PR，这些模块组合起来就是一个生产级的自主系统。

5.如何写好 Skill：一份终极实战经验手册（腾讯技术工程）

腾讯技术工程团队出了一份 Skill 编写实战手册，从五分钟快速上手到企业级工程化全都有。核心要点包括：Description 要写对触发时机，用祈使句下指令并带上理由，多放 Before/After 和 Few-Shot 示例。如果 SKILL.md 超过 500 行，就拆成单一职责的子 Skill。进阶部分讲到了脚本化检查、MCP 与 HTTP 集成怎么选型，还有安全专题：别硬编码密钥，危险操作要二次确认，注意防 Prompt 注入。这套东西对于在用 Claude Code 或其他 AI 编程助手沉淀团队知识的开发者来说，直接拿来当 checklist 就行，很实用。

6.如何更科学、方向可控的实现 Skill 的“自进化”?（阿里云开发者）

如果你正在做企业级Agent或技能自优化的工作流，这篇关于Skill自进化的技术路线对比一定不要错过。它详细拆解了Trace2Skill、EvoSkill和SkillOpt三种思路的优劣，重点包括如何通过多轨迹归纳提升泛化能力、利用验证集门控避免退化、以及学习率、负反馈缓冲和动量机制这些工程细节。没有花哨的概念，全是实操中会遇到的坑和解决方案，对想提升Agent技能稳定性的团队来说非常实用。

7.AI 不缺智商缺纪律：一场 Harness 工程化实践（阿里技术）

阿里技术团队用两个月时间，从堆规则导致上下文爆炸的坑里爬出来，搞出了一套三层加载架构，硬生生把主会话上下文压缩到8K以内。更狠的是，他们搭配了 dispatcher 状态机加文件交接的 Agent 编排，以及一个完全不调大语言模型、用7个维度打分的评测平台——改 Harness 从此不再凭感觉，改完有分数、好坏能对比。文末的4条踩坑教训，对任何在做 AI 工作流的团队都相当实用。

8.Coding Agent 技术全景图：Context Engineering、Subagents 与 Harness，一年范式转移全解析（InfoQ 中文）

Coding Agent 在过去一年经历了翻天覆地的变化，这篇文章帮你系统梳理了所有关键进展：从 Context Engineering 到 Subagents，再到如何用 Harness Engineering 约束那些不太听话的大模型输出。如果你正带着团队用 Agent 提效，会发现它已经把讨论从“怎么用”推进到了更迫切的“如何评估风险、控制成本、保护安全并维护代码质量”。内容扎实，适合工程负责人和资深开发者一口气读完。

9.横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后，我们做了第 7 个（腾讯技术工程）

如果你在做 Agent 开发，一定经历过上下文被塞爆、模型失忆的痛。这篇拆解了 Claude Code、Codex 等六个主流工具的压缩策略，发现它们各有妙招，但都没完全解决云端多用户场景下的难题。作者总结出分层渐进、保护近端、增量摘要这些工程原则，并基于此提出了第四级水位线方案——从内存管理到摘要重建，给团队搭 Agent 基础设施提供了非常落地的参考。适合正在处理长对话或高并发 Agent 系统的工程师一读。

读完你会发现，AI智能体部署的关键根本不是技术demo，而是上线后的持续调优。Salesforce从两万个企业案例里总结出一套实战经验：上线前要聚焦最小用例，绑定解决率这样的真实指标，提前设好输入输出护栏。真正的大头在上线后，得快速建立反馈循环，把失败分成语气、逻辑、数据质量、覆盖范围四类分别处理。长期运营还要小心三个常见坑：别让LLM做所有推理，可预测的流程用确定性脚本；别用更长的提示词代替代码；上下文工程也别做烂了。对想从demo走向生产的团队来说，这篇全是干货。

11.智能体交互界面的演进：使用 Claude Managed Agents 进行构建 | Claude（Claude Blog）

Claude智能体API从Messages API一步步演进到托管服务，核心洞察是把“大脑”（推理框架）和“双手”（代码沙箱）彻底分开，只用纯追加的日志连接它们。这招解决了大量头疼的工程问题：凭证通过Vaults隔离，推理在容器启动前就开始了（首token延迟暴降60%），会话自动持久化。说白了，真正阻拦你造生产级智能体的不是提示词怎么写，而是托管、扩展、安全隔离和可观测性这些基建——现在Claude Managed Agents全包了，真的省心不少。

其他

行业前沿与开源生态，整合行业深度洞察与开源技术动态的复合型主题，技术哲学、AGI 讨论、领袖观点。

1.为什么 AI 还没有取代软件工程师，而且也不会（AI as Normal Technology）

关于AI取代软件工程师的恐慌，Arvind和Sayash用数据和逻辑啪啪打脸。那些号称因AI裁员的公司，Block、Snap、Intuit，不过是财务压力下给裁员贴金罢了，法律文件显示AI直接造成的裁员几乎可以忽略不计。真正的症结在于软件工程的“决策-执行-交付三明治”：AI确实把中间的执行层（写代码）变得飞快，GitHub数据显示写代码量飙升8倍，可交付的发布量只涨了30%——因为决策层（需求、规划）和交付层（测试、验证）才是真瓶颈。写代码从来不是核心，那些指望AI一键搞定一切的人，怕是要失望了。

2.Dario Amodei — 关于 AI 指数级发展的政策（Hacker News）

Anthropic CEO Dario Amodei 这篇长文看得人后背发凉：AI 跑得太快，政策制定还在慢悠悠地踱步，时间窗口即将关闭。他拿自家 Claude 在网络安全上的表现举例，说风险已经明摆在那儿了。然后他抛出了五个具体建议：学 FAA 搞强制性第三方测试，政府有权叫停不安全模型；劳动力方面，AI 可能导致永久性替代，得准备工资保险和长期收入支持；生物医学监管要改革；防范 AI 被用于监控操控；还有用民主价值观引导全球 AI 发展。不是空喊口号，都是实操路线。

3.对阳萌的 4 小时访谈：消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择（张小珺Jùn｜商业访谈录）

安克创新创始人阳萌这场4小时访谈，把公司15年发展史讲透了。他把成长比作游戏选模式：先玩Easy模式（充电品类）站稳，再硬闯Hard模式（技术深水区）。首次系统讲了从直觉驱动的「浅海战略」转向系统化作战的「深海战略」，产品从微创新升级到极致创新，最难的不是技术，而是让几千员工切换思维。还提到2022年遭遇挫折后，使命愿景如何成为组织恢复的灵魂，以及AI时代自研存算一体芯片的护城河逻辑。整篇全是实战硬货，对创业者尤其有启发。