跳转到正文
莫尔索随笔
返回

Vol.110 AI能力飙升背后,谁为智能买单?成本与价值的博弈

预计 14 分钟
AI 周刊 编辑此页

⼤家好,Weekly Gradient第 110 期已送达,本期内容探讨AI能力提升背后的真实成本:API价格、推理延迟、组织适应成本等,分析如何让智能转化为价值而非负担。

AI 商业

聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM 策略、SaaS 转型等商业话题。

1.GPT-5.6 Sol 前瞻:下一代模型预览(OpenAI News)

OpenAI 刚放出了 GPT-5.6 系列的前瞻,把 Sol、Terra、Luna 三个版本分别定位在旗舰、均衡和低成本。旗舰版 Sol 在 Terminal-Bench 2.1 上拿到 91.9%,还用了超过 70 万个 A100 等效 GPU 小时做自动化红队测试,安全投入不小。不过目前只是面向少量可信伙伴的限量预览,不是全面开放。这篇说明有意思的地方在于,它把前沿能力、分层定价和严格的访问机制放在一起呈现——能力越强,发布方式就越需要安全团队、政策制定者和产品团队共同决定。换句话说,模型发布本身,正在变成产品的一部分。这个变化值得留意。

2.#603.Cloudflare CEO:当机器人流量超过人类,互联网的商业模式将彻底崩塌(跨国串门儿计划)

Cloudflare CEO 预测机器人流量即将超过人类,5 年后可能达到人类的一千倍。这可不是小打小闹,而是直接冲击广告、品牌和内容授权的根基——Agent 根本不点广告。这篇对谈把 Agent 从软件功能拔高到互联网商业模式和基础设施层面,预测值得争论,但思考角度很犀利。适合带点批判精神读一读。

3.AI 普及正在压垮中层管理者(HBR.org)

这篇研究访谈了两家大型咨询公司18位不同层级的人,发现AI落地最难受的是中层。他们既要盯着AI的输出别出错,又要手把手带新人、做知识沉淀,可手头的活儿一点没少。文章揪出了三个断层:没时间学习、激励机制错位、高层看不到问题。如果你正在公司推AI,别光顾着买工具,得想想怎么撑住这些夹在中间的人——毕竟未来的领导者还得靠他们培养。

AI 产品

探索 AI 原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent 产品设计等。

1.Claude Sonnet 5 发布(Anthropic News)

Anthropic 刚发布了 Claude Sonnet 5,他们称这是目前最擅长 Agent 任务的 Sonnet 系列模型。在推理、工具调用、编程和知识工作上,它的表现已经逼近 Opus 4.8,但价格却低了不少——API 首发价每百万输入 token 只要 2 美元,输出 10 美元,虽然 8 月 31 日后会涨到 3 和 15,但依然很有竞争力。这次发布直接把性能、安全和价格摊在了产品决策表上,给了日常使用 Agent 工作负载的人一个用 Sonnet 替代 Opus 的现实理由,也重新划定了中端模型能独立完成的任务边界。如果你是企业用户,可以更直接地判断这次能力升级是否值得额外成本。

2.开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建(Google DeepMind News)

Google 一口气开放了两款 API:Nano Banana 2 Lite 用于快速生成图像,每张 1K 分辨率图片只要 0.034 美元,4 秒出图;Gemini Omni Flash 支持视频生成和对话式编辑,每秒视频 0.10 美元。这篇发布稿把价格、速度和限制都写得很清楚,能帮你算清批量创意生产的预算和延迟。产品和设计团队也可以借此判断一个多媒体原型值不值得扩大规模,创意工具的成本终于不再黑箱了。

3.OpenAI Codex 负责人谈产品工作的新版图:从实现成本到品味、策展与智能体工作流(Lenny’s Podcast)

当实现成本快速下降,原型制作变得无比容易,产品工作的重心开始转移:稀缺的不再是代码,而是方向选择、品味、策展和系统一致性。OpenAI Codex 的产品负责人 Andrew Ambrosino 没有跟着喊‘人人都是产品经理’,反而认真讨论为什么判断力更难替代,以及团队该如何选择合适的表达媒介。他反对‘PRD 已死’的简单判断,认为交互问题适合用原型验证,但模糊的产品意图仍然需要清晰文档。这场对话很适合产品、设计和工程负责人一起读,然后重新聊聊彼此的分工。

4.Agent 元年第 500 天:什么在消失,什么在诞生——为什么我们不该再投资 GUI 思维的软件?(十字路口Crossing)

500天前没人能预料Agent会走得这么远,真格基金的钟天杰和AI开发者归藏用这段跨度回看,戳破了一个幻觉:消失的未必是图形界面,而是你作为人肉传送带的角色。节目聊透了Headless、CLI和Skill如何把个人品味变成可运行的协议,也直面了开放CLI的商业两难——赚钱和开放的跷跷板怎么平衡?最扎心的还是那套支付、沙箱和记忆基础设施,少了这些Agent生态就是空中楼阁。如果你在憋产品,最该重新审视的是流程里那些点击:哪些在创造价值,哪些只是让你卡在传送带上假装忙碌。

AI 工程

涵盖 AI 工程技术实现与场景化开发的全流程,包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。

1.美团 LongCat-2.0 正式发布:在国产算力集群上完成全流程训练与推理的万亿参数模型(美团 · 技术团队)

美团刚刚发布了 LongCat-2.0,一个 1.6T 参数、激活约 48B 的万亿模型,而且完全在五万卡国产算力集群上完成训练和推理,原生支持 1M 上下文,预训练数据超过 30T token。这不仅是规模上的突破,更难得的是团队详细记录了国产算力上的稳定性、正确性和效率工程细节,还指明了 Agentic Coding 的产品方向。如果你关心国产模型和基础设施的协同进展,这是一份不可多得的一手资料,而且他们计划开源。

2.DeepSeeK 突然发布 DSpark,让 AI 的回答不再「挤牙膏」(爱范儿)

DeepSeek和北大联手搞了个叫DSpark的新技术,专门治AI回答慢的老毛病。他们用半自回归草稿模型加上置信度调度,让生成速度飙升——Flash版单用户快了60%到85%,Pro版也提了57%到78%,而且总吞吐量没掉。文章把原理讲得明明白白,还把开源代码和权重都甩了出来。推理速度现在真是模型体验和成本的双重瓶颈,这波操作说明了好服务不光靠模型,还得系统和模型一起调优。做在线推理的团队强烈建议看看,干货满满。

3.Claude Sonnet 5 的新功能(Simon Willison’s Weblog)

Claude Sonnet 5 发布后,很多人只关注跑分,但真正影响生产的是这些隐性变化。开发者 Simon Willison 直接翻文档,发现模型不再支持 temperature、top_p、top_k,默认启用自适应思考,上下文翻倍到 100 万 token,输出最高 12.8 万。最要命的是 tokenizer 更新——官方说输入 token 增加约 30%,他实测英文样本飙升到 1.42 倍。这意味着你的提示词长度、费用和参数兼容性都要重新算。这篇文章短小但信息密集,帮你避开迁移的坑,比官方稿实在多了。

4.Spotify 如何让智能体在 2000 万行代码库中运行:Claude Code、Honk 与工程验证体系(Claude)

Spotify 的工程负责人 Niklas Gustavsson 最近复盘了他们怎么让 AI 智能体在超过 2000 万行代码的仓库里干活。别以为换个大模型就完事了,真正的硬骨头是搭一套完整的验证基础设施——Honk 平台、CI、跨平台构建、模拟器流程、组件归属和自动合并缺一不可。PR 数量确实上去了,AI 写的 PR 也泛滥了,可他们还在头疼这些数字到底跟用户价值有什么关系。这篇案例特别适合那些想把 AI 编程从个人玩具升级成团队系统的团队,它把规模化需要的配套条件讲得很实在,也提醒别把提交数量当成功绩。

5.构建自主工程组织:Block 如何让 3500 名工程师走向智能体协作(AI Engineer)

Block 公司 3500 名工程师几乎人手一个 AI 编程助手(Goose、Claude Code 等),但交付速度并没有明显提升。于是他们搞了一套成熟度模型,选了 50 个内部推动者,还把代码仓库改造成 AI 友好、验证流程标准化。Angie Jones 的分享没有回避评审瓶颈、基础设施和人的问题——这是个组织变革故事,不是单纯的效率工具介绍。想判断自己团队准备好了吗?这篇复盘值得参考。

6.相比层出不穷的 Agent 框架,不变的 Agent Protocol 是什么(阿里云开发者)

Open 6.相比层出不穷的 Agent 框架,不变的 Agent Protocol 是什么(阿里云开发者)

Agent框架层出不穷,但底层有哪些不变的东西?这篇拆解了6个反复出现的核心对象:Thread、Run、Step、Event、Artifact和Checkpoint,还讲清了Loop的承载方式和编排协议,以及Harness如何把状态持久化、中断恢复、可观测性与权限模型做成默认体验。看完这个,再面对新框架时一眼就能看穿它究竟解决了真正的Runtime问题,还是只给旧概念换了新名字。

7.Loop Engineering 又是啥?一文讲清企业 Agent 落地的四层工程进化论(腾讯云开发者)

企业做Agent落地,别一上来就追最新术语,先看看自己缺哪一层。有位作者把工程拆成Prompt、Context、Harness、Loop四层,而且它们是嵌套关系——不是新的取代旧的。Harness那层用AGENTS.md、linter和测试门禁来给Agent上紧箍咒,保证确定性;Loop层再加上自动化、工作树、技能和子Agent,让任务能自己转起来。文章也没回避现实问题:成本失控、理解力负债、认知投降。对团队来说,这像是张诊断地图,帮你判断该优先投哪一层,而不是瞎折腾新概念。新手团队读起来也能很快入门。

8.AI Agent 的 Skill 系统设计(大淘宝技术)

淘宝技术团队把 Skill 系统玩出了新高度:他们管这叫「行为编程」,而不是塞一堆背景知识到 Markdown 里。好的 Skill 得让 Agent 在正确场景下自动触发,只加载必要的上下文,然后根据风险等级在原则、模板、脚本和硬门禁之间灵活选择自由度。更狠的是,他们用前向测试和对抗合理化来检查 Agent 会不会在压力下偷偷跳过规则。这篇东西直接给了你一套可执行、可验证、还能持续迭代的工程方法,还附带了清楚的反模式检查表,适合正在维护 Skill 体系的团队直接拿去做评审。

9.SkillOpt 将 AI 智能体技能转化为可训练资产(Microsoft Research Blog)

微软研究院搞了个新活儿,把原本只能手动的 Skill 文件变成了可以像训练模型一样自动优化的参数。他们搞了个 SkillOpt 受控优化循环,通过有界文本编辑、验证门禁和拒绝反馈来防止提示词漂移,还能让技能保持紧凑和可审计。在 52 个测试场景里全拿了最佳或并列最佳,但真正让人兴奋的不是又刷榜了,而是把手工修改技能的过程变得可度量、可迁移、可版本化、可回滚。对于那些暂时不想动模型参数但想轻量适配的团队来说,这真是条捷径。

10.为什么我们构建了 ADK 2.0(Google Developers Blog)

Google 的 ADK 2.0 解决了一个生产中的核心矛盾:到底哪些步骤该交给大模型,哪些该用传统代码?他们搞了个结构化工作流,把 API 调用、条件判断和错误处理都放进去,只在需要动脑子的时候才调用 Agent。一个退款流程示例显示,token 消耗减半,延迟降了两成。如果你正在把 Agent 从原型推向生产,这篇文章的取舍原则很实在,可以直接拿来用。

11.Ahmad Osman 谈本地 AI 为何正在追赶(Latent.Space)

Ahmad Osman 说得很直白:本地 AI 不再只是发烧友的玩具,它正在成为企业必须认真对待的基础设施。他估计开源模型和闭源前沿模型的能力差距已经缩短到 4 到 8 个月,手机、笔记本、专用工作站也都在变强。但别以为在本地跑个模型就万事大吉——搜索、工具、Agent 框架、模型路由和运维才是决定系统好不好用的关键。这篇文章尤其适合那些在意数据控制、合规和私有部署的团队,帮你跳出只拼模型跑分的坑,重新理解什么才是真正可用的系统。

12.Token 不经济(腾讯研究院)

腾讯研究院这篇公开账本把企业AI账单上涨的原因掰开揉碎了给你看——不是单一模型涨价,而是供给定价、上下文损耗、Skill冗余、多Agent沟通税等多重因素叠加。最扎心的数据是:近80%的开源软件工程Skill不仅没提升通过率,反而让token开销最多飙了451%。好消息是他们也给出了压缩上下文、渐进加载、模型路由和硬预算约束这些解法。整篇都在强调一件事:别光盯着调用量,得用可验证的产出重新算ROI,让每笔钱都花在刀刃上。适合拉团队一起读,算算自家账单到底哪部分在漏钱。

其他

行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI 讨论、领袖观点。

1.3Blue1Brown 创始人:成为二手思考者的高昂代价(跨国串门儿计划)

这期中文节目改编自 4 月 30 日发布的 Grant Sanderson 对谈,本周重新进入我们的候选池。3Blue1Brown 创始人区分「源头」与「传声筒」:真正的创作者会消化知识并形成自己的解释,而不是只做更擅长分发的信息中介。他也提醒创作者关注作品在 5 年后是否仍有人愿意观看,而不是被实时数据牵着走。推荐给所有借助 AI 写作、研究和创作的人。效率提高之后,什么仍然值得亲自完成,什么需要长期积累,这期对谈给出了一份很诚恳的回答。


编辑此页