⼤家好,Weekly Gradient第 107 期已送达,本期内容聚焦 Claude Fable 5 与 Mythos 5 的发布,探讨最强模型大幅降价与高端版本受限背后的 AI 能力分发转折,以及推理速度、智能体工程化、上下文管理等新战场。
AI 商业
聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM 策略、SaaS 转型等商业话题。
1.Google DeepMind 的 Logan Kilpatrick:为什么模型会吞掉智能体脚手架(Sequoia Capital)
Sequoia 和 Google DeepMind 的 Logan Kilpatrick 聊了一个判读:模型会逐渐吞掉那些围绕它搭建的智能体脚手架——工具调用、执行环境这些外挂会慢慢被吸收进原生模型。他把编程当作检验这一趋势的最佳试验场,还透露 Google 正在把统一的智能体基础设施铺到 IDE、CLI、Search 和 Gemini 里。给创业者的建议很直白:别跟大平台抢通用赛道,聚焦垂直领域,因为你比他们更懂用户和风险边界。
2.Kimi 将公开预测 104 场世界杯赛事:德国队或爆冷夺冠(月之暗面 Kimi)
月之暗面搞了个大动作:让Kimi的300个Agent组团预测2026年世界杯全部104场比赛,从战术、伤病到赔率、天气,全维度分析,还用了Elo、Poisson、xG和Monte Carlo这些模型。每场赛前预测、赛后复盘,全公开。最炸裂的发现是,模型觉得德国队夺冠概率有11.3%,而市场只给7.4%。这不只是一次营销,更是一种勇气——把AI的判断放在公众眼皮底下,接受验证甚至打脸。世界杯月,围观这场AI的公开考试,挺值。
AI 产品
探索 AI 原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent 产品设计等。
1.Claude Fable 5 与 Claude Mythos 5(Anthropic News)
Anthropic 突然扔出两颗重磅炸弹:面向公众的 Claude Fable 5 和专供安全圈的 Claude Mythos 5。Fable 5 在几乎所有 AI 基准测试里都拿了第一,价格却只有之前 Mythos Preview 的一半,每百万 token 只要 10 刀输入、50 刀输出。更夸张的是,Stripe 用它在一天内把 5000 万行 Ruby 代码全库迁移完了,换成团队自己干可能要两个多月。另一款 Mythos 5 通过 Project Glasswing 开放给受信任的安全研究员,装了个新的安全分类器,一旦遇到网络攻防、生化武器之类的敏感问题,会自动切换到更保守的策略。
2.Claude Fable 5 的初步印象(Simon Willison’s Weblog)
Simon Willison 花了 5.5 小时、烧掉 110 多美元,深度测试了 Claude Fable 5,结果被吓到了——这模型居然知道他那堆小众开源项目,简直像认识他很久一样。在写代码上,Fable 5 干了两件大事:一是把 MicroPython 沙箱升级成在 WebAssembly 里跑完整 CPython,还能生成可用的 Python wheel;二是为他的 LLM 库自己设计了 Datasette Agent,从 API 到测试到文档全包,换做人类得干好几天。虽然 Fable 5 又慢又贵,但处理复杂任务时那种行云流水的感觉,让人觉得钱花得值。
3.iPhone 终于支持 Siri AI!但国行无缘首发,闹钟成为最大惊喜(爱范儿)
苹果在WWDC26上彻底改变了发布会节奏,不再按设备划分,而是围绕跨系统功能展开,AI成了核心。Siri迎来了史上最大升级:独立App、打字交互、跨App串联,产品逻辑直接对标ChatGPT,俨然成为Apple智能的入口。同时苹果选择与Google合作,基于Gemini技术共建基础模型,相当于公开承认在通用大模型上的追赶姿态。不过这些新功能首批仅限英语地区,国行用户暂时缺席,闹钟功能的意外更新倒成了小惊喜。
4.iPod 与 iPhone 之父 Tony Fadell:AI 时代如何建立品味、判断力与创造力(Lenny’s Podcast)
Tony Fadell 作为 iPod、iPhone 和 Nest 的缔造者,聊透了在 AI 时代如何做出真正有影响力的产品。别被生成式 AI 的快速原型迷惑——执行快不代表做对事。他拆解了从 0 到 1 时,品味如何帮你取舍,判断力如何引导系统设计,以及长期迭代才真正回应用户痛点。产品人和创业者必读,尤其是那些在 AI 应用里挣扎的团队。
AI 工程
涵盖 AI 工程技术实现与场景化开发的全流程,包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。
1.DiffusionGemma:文本生成速度提升 4 倍(Google DeepMind News)
Google DeepMind 把扩散模型那套技术用到文本生成了,搞了个 DiffusionGemma。它用新的扩散头同时生成 256 个 token,在单块 H100 上每秒能跑 1000+ token,本地生成速度最多快了 4 倍。模型基于 Gemma 4 架构,26B 参数但每次只激活 3.8B,量化后 18GB 显存就能跑。不过坦率说,输出质量不如标准 Gemma 4,不适合直接上生产。但双向注意力让它在代码填充、行内编辑这类需要看上下文的场景表现不错。模型开源且支持主流框架微调,想了解扩散语言模型这条技术路线的话,这是个绝佳入门样本。
2.Xiaomi MiMo 携手 TileRT|1T 模型首次突破 1000 tokens/s 输出速度(Xiaomi MiMo)
小米大模型团队和TileRT推理系统团队一起搞了个大新闻:他们在通用8卡GPU上,把1万亿参数模型的输出速度首次突破了每秒1000个token。注意,这不是靠专用硬件,而是模型和系统的极致协同。模型侧用了FP4混合量化,只压缩MoE Expert,其他部分保持原精度;再加上DFlash块级并行投机解码,用滑动窗口注意力把draft开销降成常数级,代码场景平均接受长度6.30。系统侧TileRT靠常驻内核和异构流水线,微秒级消除算子间隙。10秒生成贪吃蛇的演示,FP4-DFlash checkpoint也开源了,搞推理优化的工程师一定要看看。
3.Claude Code 一周年复盘:从辅助写代码到自主智能体工作流(Claude)
Claude Code 一岁了!这篇文章不是功能列表式的庆祝,而是团队内部视角的真实复盘——验证循环、Auto Mode、routine、远程控制和上下文极简主义这些概念,是怎么一步步变成日常开发工作流的一部分的。它不只在讲工具本身,更在探讨如何把一个 AI 工具真正放到业务流程的中心,而不是边缘打杂。如果你是工程师、产品经理或者正在折腾自己的创业项目,这篇值得细读,因为它展示的不是“AI 能做什么”,而是“AI 怎么做才能真正用起来”。
4.循环工程(Elevate)
AI编程智能体正在进化,从你手动输入prompt干活,变成你设计一个能自己循环运转的系统。这就是「循环工程」——核心是五个构建块加一个外部记忆:自动化定时发现任务、工作树让并行执行不会冲突、技能把项目知识攒下来、插件通过MCP对接外部工具、子智能体把制造者和检查者分开。外部记忆(比如Markdown文件)特别关键,因为模型跑完一次就忘光。举个栗子:每天自动扫描GitHub issue、分类、修bug、提PR,这些模块组合起来就是一个生产级的自主系统。
5.如何写好 Skill:一份终极实战经验手册(腾讯技术工程)
腾讯技术工程团队出了一份 Skill 编写实战手册,从五分钟快速上手到企业级工程化全都有。核心要点包括:Description 要写对触发时机,用祈使句下指令并带上理由,多放 Before/After 和 Few-Shot 示例。如果 SKILL.md 超过 500 行,就拆成单一职责的子 Skill。进阶部分讲到了脚本化检查、MCP 与 HTTP 集成怎么选型,还有安全专题:别硬编码密钥,危险操作要二次确认,注意防 Prompt 注入。这套东西对于在用 Claude Code 或其他 AI 编程助手沉淀团队知识的开发者来说,直接拿来当 checklist 就行,很实用。
6.如何更科学、方向可控的实现 Skill 的“自进化”?(阿里云开发者)
如果你正在做企业级Agent或技能自优化的工作流,这篇关于Skill自进化的技术路线对比一定不要错过。它详细拆解了Trace2Skill、EvoSkill和SkillOpt三种思路的优劣,重点包括如何通过多轨迹归纳提升泛化能力、利用验证集门控避免退化、以及学习率、负反馈缓冲和动量机制这些工程细节。没有花哨的概念,全是实操中会遇到的坑和解决方案,对想提升Agent技能稳定性的团队来说非常实用。
7.AI 不缺智商缺纪律:一场 Harness 工程化实践(阿里技术)
阿里技术团队用两个月时间,从堆规则导致上下文爆炸的坑里爬出来,搞出了一套三层加载架构,硬生生把主会话上下文压缩到8K以内。更狠的是,他们搭配了 dispatcher 状态机加文件交接的 Agent 编排,以及一个完全不调大语言模型、用7个维度打分的评测平台——改 Harness 从此不再凭感觉,改完有分数、好坏能对比。文末的4条踩坑教训,对任何在做 AI 工作流的团队都相当实用。
8.Coding Agent 技术全景图:Context Engineering、Subagents 与 Harness,一年范式转移全解析(InfoQ 中文)
Coding Agent 在过去一年经历了翻天覆地的变化,这篇文章帮你系统梳理了所有关键进展:从 Context Engineering 到 Subagents,再到如何用 Harness Engineering 约束那些不太听话的大模型输出。如果你正带着团队用 Agent 提效,会发现它已经把讨论从“怎么用”推进到了更迫切的“如何评估风险、控制成本、保护安全并维护代码质量”。内容扎实,适合工程负责人和资深开发者一口气读完。
9.横向拆解 Claude Code、Codex 等六大 Agent 上下文压缩策略后,我们做了第 7 个(腾讯技术工程)
如果你在做 Agent 开发,一定经历过上下文被塞爆、模型失忆的痛。这篇拆解了 Claude Code、Codex 等六个主流工具的压缩策略,发现它们各有妙招,但都没完全解决云端多用户场景下的难题。作者总结出分层渐进、保护近端、增量摘要这些工程原则,并基于此提出了第四级水位线方案——从内存管理到摘要重建,给团队搭 Agent 基础设施提供了非常落地的参考。适合正在处理长对话或高并发 Agent 系统的工程师一读。
10.Salesforce 从 20,000 个企业智能体部署中学到的经验(ByteByteGo Newsletter)
读完你会发现,AI智能体部署的关键根本不是技术demo,而是上线后的持续调优。Salesforce从两万个企业案例里总结出一套实战经验:上线前要聚焦最小用例,绑定解决率这样的真实指标,提前设好输入输出护栏。真正的大头在上线后,得快速建立反馈循环,把失败分成语气、逻辑、数据质量、覆盖范围四类分别处理。长期运营还要小心三个常见坑:别让LLM做所有推理,可预测的流程用确定性脚本;别用更长的提示词代替代码;上下文工程也别做烂了。对想从demo走向生产的团队来说,这篇全是干货。
11.智能体交互界面的演进:使用 Claude Managed Agents 进行构建 | Claude(Claude Blog)
Claude智能体API从Messages API一步步演进到托管服务,核心洞察是把“大脑”(推理框架)和“双手”(代码沙箱)彻底分开,只用纯追加的日志连接它们。这招解决了大量头疼的工程问题:凭证通过Vaults隔离,推理在容器启动前就开始了(首token延迟暴降60%),会话自动持久化。说白了,真正阻拦你造生产级智能体的不是提示词怎么写,而是托管、扩展、安全隔离和可观测性这些基建——现在Claude Managed Agents全包了,真的省心不少。
其他
行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI 讨论、领袖观点。
1.为什么 AI 还没有取代软件工程师,而且也不会(AI as Normal Technology)
关于AI取代软件工程师的恐慌,Arvind和Sayash用数据和逻辑啪啪打脸。那些号称因AI裁员的公司,Block、Snap、Intuit,不过是财务压力下给裁员贴金罢了,法律文件显示AI直接造成的裁员几乎可以忽略不计。真正的症结在于软件工程的“决策-执行-交付三明治”:AI确实把中间的执行层(写代码)变得飞快,GitHub数据显示写代码量飙升8倍,可交付的发布量只涨了30%——因为决策层(需求、规划)和交付层(测试、验证)才是真瓶颈。写代码从来不是核心,那些指望AI一键搞定一切的人,怕是要失望了。
2.Dario Amodei — 关于 AI 指数级发展的政策(Hacker News)
Anthropic CEO Dario Amodei 这篇长文看得人后背发凉:AI 跑得太快,政策制定还在慢悠悠地踱步,时间窗口即将关闭。他拿自家 Claude 在网络安全上的表现举例,说风险已经明摆在那儿了。然后他抛出了五个具体建议:学 FAA 搞强制性第三方测试,政府有权叫停不安全模型;劳动力方面,AI 可能导致永久性替代,得准备工资保险和长期收入支持;生物医学监管要改革;防范 AI 被用于监控操控;还有用民主价值观引导全球 AI 发展。不是空喊口号,都是实操路线。
3.对阳萌的 4 小时访谈:消费电子死与生、第三类公司、AI 变量、产品方法、打游戏的模式选择(张小珺Jùn|商业访谈录)
安克创新创始人阳萌这场4小时访谈,把公司15年发展史讲透了。他把成长比作游戏选模式:先玩Easy模式(充电品类)站稳,再硬闯Hard模式(技术深水区)。首次系统讲了从直觉驱动的「浅海战略」转向系统化作战的「深海战略」,产品从微创新升级到极致创新,最难的不是技术,而是让几千员工切换思维。还提到2022年遭遇挫折后,使命愿景如何成为组织恢复的灵魂,以及AI时代自研存算一体芯片的护城河逻辑。整篇全是实战硬货,对创业者尤其有启发。