Vol.63 GPT-5发布:AI领域的新里程碑与未来展望

⼤家好,Weekly Gradient第 63 期已送达,本期内容详细介绍了OpenAI最新发布的GPT-5模型,探讨了其在推理和智能体能力上的显著提升,以及统一多层级架构的创新。文章还分析了GPT-5的定价策略、开源生态的补齐,以及对未来AI市场竞争格局的影响。

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

AI 商业化

聚焦AI行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM策略、SaaS转型等商业分析

1.终于发布的 GPT-5,和它改变世界的 982 天(智能涌现)

OpenAI 的最新力作 GPT-5 终于揭开了神秘面纱,这次更新没有追求表面的炫技,而是实打实地提升了推理和智能体能力,让 AI 更懂人心。通过统一多层级架构,GPT-5 不仅能自动选择最适合任务的模型版本,还以更亲民的价格提供服务,大大降低了使用门槛。更让人惊喜的是,GPT-5 在情商方面也有了质的飞跃,比如引入人格模式和更有同理心的回应,让交互体验更加人性化。面对开源生态的短板,OpenAI 时隔六年重新开源了 gpt-oss 系列模型,这一举措无疑是为了在激烈的市场竞争中保持领先。GPT-5 的发布背后,是 OpenAI 对算力瓶颈、技术路线之争的深思熟虑,也反映了 AI 行业闭源与开源模型差距逐渐缩小的趋势。

2.Latent.Space Unpacks GPT-5’s New Router and OpenAI’s Dominance(Latent.Space(@latentspacepod))

Latent.Space 的这篇报道深入探讨了 GPT-5 的新路由架构,这不仅是技术上的突破,更是 OpenAI 巩固市场主导地位的一步棋。通过这种架构,OpenAI 能够更高效地引导用户从旧模型迁移到 GPT-5,同时优化模型分发效率,进一步领跑智能帕累托前沿。对于关注 AI 商业化动态的你来说,这无疑是一个值得深入了解的战略举措。

3.GPT-5: Key characteristics, pricing and model card(Simon Willison’s Weblog)

OpenAI的最新力作GPT-5来了,这次不仅在性能上有了质的飞跃,还在定价上给了大家一个大惊喜。想象一下,输入272,000 token,输出128,000 token的大容量,再加上多模态输入的能力,这简直就是开发者的梦想。更不用说,OpenAI这次在减少幻觉和提升安全性方面下了大功夫,引入了’safe-completions’,让输出更加可靠。但别忘了,提示注入这个老问题依然存在,虽然GPT-5抵抗力更强了,开发者在应用时还是得小心。总的来说,GPT-5不仅在技术上领先,价格上也相当亲民,这波操作无疑会大大推动AI技术的普及和应用。

4.2025 硅谷 AI 战局半年盘点:连环收购案、大厂抢人,谁能杀出重围?|对谈 Fusion Fund 创始合伙人张璐(十字路口Crossing)

2025 年上半年的硅谷 AI 领域可谓是风起云涌,从 DeepSeek 引领的开源生态崛起,到英伟达 GTC 大会对算力与生态的推动,再到谷歌 Gemini 系列产品的密集发布及其面临的商业模式困境,每一件事都让人目不暇接。特别是 Windsurf 的连环收购案,不仅折射出大厂的焦虑,更凸显了人才争夺战的激烈。马斯克的 xAI 及其 Grok 模型的快速崛起,无疑给这场竞争增添了更多变数。文章还深入分析了 OpenAI 与微软的复杂关系,Meta 的追赶策略,亚马逊 AWS 的优势,以及苹果在 AI 浪潮中的挑战。AI Agent 虽然成为行业共识,但其定义与落地仍面临挑战。开源生态在 AI 创新领域扮演着越来越关键的角色,推动着社区驱动的创新。最后,硅谷 VC 行业的结构性变化及对高估值的担忧,也值得我们深思。

5.Eleven Music is Here | ElevenLabs(ElevenLabs Blog)

ElevenLabs 刚刚揭开了 Eleven Music 的面纱,这可不是普通的音乐平台。它能让你用简单的自然语言提示,就能创作出录音棚级别的音乐,而且还能精细控制音乐的流派、风格、结构,甚至可以选择包含多语言的声乐。更棒的是,它已经和唱片公司、艺术家们联手,确保你可以在电影、电视、播客和游戏等领域自由使用这些音乐。虽然现在只能通过网站体验,但很快就会有公共 API 和对话式 AI 平台的集成,这意味着开发者和创作者将有更多可能。这不仅仅是技术的突破,更是音乐创作和商业应用的一次革命。

6.腾讯混元「AI 播客」来了,ima、腾讯新闻都在用(腾讯混元)

腾讯混元最新推出的AI播客功能,简直是把静态文字玩出了新花样。不再是你听腻了的单声道念稿,而是能把文本、网页甚至文档变成生动有趣的双人对谈。这背后是混元大模型的黑科技,让播客不仅有问有答,还能模拟真实对话中的小细节,比如自然的停顿和口癖。更厉害的是,它已经悄悄进入我们的日常生活,ima知识库和腾讯新闻都在用这个功能,让你在通勤路上也能轻松吸收知识,效率翻倍。

7.Shopify, Datadog and Palantir All Re-Accelerate. Good Times Are Back in B2B and SaaS. At Least — For Some of The Best(SaaStr)

在2025年第二季度的收益周期中,Palantir、Shopify和Datadog这几家B2B和SaaS领域的佼佼者展示了令人瞩目的增长再加速,而大多数公司却只是稳定或适度增长。Palantir凭借商业AI的深入应用,季度营收突破了10亿美元大关;Shopify的电子商务复苏带动了利润的大幅增长;Datadog则通过持续创新,实现了稳健的企业扩张。这些成功案例揭示了几个关键因素:有效的AI货币化、强大的企业客户扩张、地域多元化以及高效的运营杠杆。相比之下,HubSpot等公司则显得平平无奇。市场正在分化,那些能够整合这些成功要素的公司正获得市场的丰厚回报,而非所谓的广泛复苏。

8.#200. 解码 Vibe Coding:对话 Replicate CEO(跨国串门儿计划)

这期节目带我们走进了 Replit CEO Amjad Masad 的世界,揭秘了如何通过 Vibe Coding 这一革命性概念,让编程变得前所未有的简单。Amjad 分享了 Replit 如何在半年内实现收入十倍增长的奇迹,以及 Vibe Coding 如何帮助医生、创业者等非技术背景的人群轻松构建软件。他还谈到了 AI 如何改变工程师的角色,以及中国开源模型如 Kimi K2 如何挑战现有的市场格局。最后,节目没有回避 AI 技术可能带来的社会伦理问题,从生育率下降到超真实体验对人类文明的影响,这些讨论都让人深思。

9.为什么 AI Agents 按结果定价这么难?(Founder Park)

探讨AI Agents按结果定价为何短期内难以实现,揭示了从技术到市场的多重障碍。人机协作下的成果归因复杂,成果衡量面临时间和主观性的挑战,再加上供应商与用户间的信任问题,以及企业采购系统的抗拒,都让这一模式步履维艰。更别提当前AI市场的结构性问题,如巨头垄断和基础设施锁定,进一步加大了实施的难度。文章提出,面对这些挑战,渐进式混合模式可能是更现实的解决方案,建议从具体指标入手,逐步构建信任,专注于窄用例,并投资于必要的基础设施。

10.a16z:AI Coding 产品还不够多(Founder Park)

最近有个观点挺火的,说AI应用生成工具市场已经饱和了,但a16z的一篇文章可不这么认为。文章里提到,这个市场其实是个正和游戏,各平台通过差异化竞争完全可以共存,就像基础模型和图像生成领域那样。而且,市场正在根据用户的技术水平和应用类型进行细分,从普通消费者到资深开发者,从原型设计到生产级应用,未来会有更多量身定制的垂直平台出现。最让人兴奋的是,文章预测未来在AI应用生成领域,专注于特定领域的’专有’产品将比那些什么都想做但表现平平的’通用’产品更吃香,这意味着我们将迎来一个由大量专业化产品组成的生态系统,而不是被单一巨头垄断。

11.Gamma 创始人:小团队创业是共识,怎么做好才是最大的问题(Founder Park)

Gamma 创始人 Grant Lee 分享了一个在 AI 时代小团队如何通过组织创新而非仅仅依赖产品技术创新来取得成功的案例。Gamma 仅用 30 人的团队就服务了近 5000 万用户,年收入超过 5000 万美元并保持盈利,这背后是他们对‘球员兼教练’型管理者和‘通才’型员工的重视,以及对适度融资和盈利的坚持。在 AI 快速迭代和竞争激烈的今天,找到产品与市场的契合点并使其持久,成为了小团队面临的最大挑战。Gamma 的故事告诉我们,小团队也能高效、可持续发展,关键在于如何适应这个快速变化的时代。

12.时隔六年,OpenAI 为什么再次开源?(Founder Park)

OpenAI 时隔六年再次开源,这次他们带来了 gpt-oss 模型,性能接近 o4 mini 但成本更低。这背后可不是简单的技术分享,而是一场精心设计的商业策略。OpenAI 的目标很明确,就是那些急于部署 AI 的企业用户,而不是传统的开源社区。他们的核心竞争力已经不再是模型本身,而是那庞大的用户基础和应用生态。gpt-oss 采用的 MoE 架构虽然紧跟行业趋势,但在量化、微调和工具使用上还有不少挑战等着开源社区去克服。更引人注目的是,OpenAI 的这一举动可能会改变全球 AI 开源竞争的格局,特别是在中美之间,这不仅仅是一场技术的较量,更是一场关于开源激励机制和法律风险的深层次竞争。

13.大模型年中报告:Anthropic 市场份额超 OpenAI,开源模型企业采用率下降(Founder Park)

Menlo Ventures的最新报告揭示了LLM市场的激烈竞争和显著变化,Anthropic凭借在代码生成和Agent范式的创新,首次以32%的市场份额超越OpenAI,成为企业大模型市场的新领导者。与此同时,开源模型如Meta的Llama系列在企业中的采用率下降至13%,性能差距和部署复杂性成为主要障碍。报告还发现,企业在选择模型时更看重性能而非价格,愿意为顶级性能买单。AI计算支出的重心正从模型训练转向推理,这标志着大模型应用已进入大规模生产和实际应用阶段。

AI 产品设计

探索AI原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent设计等

斯坦福和卡内基梅隆的研究团队最近做了一项挺有意思的研究,他们分析了大量Character AI用户的数据,发现那些过度依赖AI机器人进行情感交流的人,反而生活满意度更低,孤独感更强。这不仅仅是一个关于技术使用的简单观察,它揭示了AI陪伴可能带来的复杂心理影响。对于那些热衷于设计和使用AI伴侣的人来说,这项研究无疑提供了一个重要的反思点:在追求技术创新的同时,我们是否也应该更多地考虑它对用户心理健康的长远影响?

2.Z Potentials|对话 AskSia:当大模型能答满分高考题,教育的未来该拼什么?(Z Potentials)

你有没有想过,AI 不仅能帮你解题,还能成为你学习路上的贴心伙伴?AskSia 的两位 00 后创始人 Celine 和 Kejin 正在做这件事。他们不满足于让 AI 仅仅作为一个冰冷的工具,而是致力于打造一个能理解你、陪伴你的‘AI 学习 Copilot’。通过实时问答、多屏互动等功能,AskSia 让学习变得更加人性化和有趣。面对全球化的挑战,他们采用‘Localized Globalization’策略,组建多元国际团队,确保产品能跨越文化差异,触动每一个用户的心。随着 OpenAI o1 的发布,AI 教育迎来了新的里程碑,AskSia 如何在激烈的市场竞争中脱颖而出?答案就在于他们对用户体验的极致追求和社群建设的独特视角。这不仅仅是一次技术的革新,更是一次学习方式的革命。

3.LangChain CEO 再聊 Agent:chat 模式只是起点,Ambient Agents 才是未来(Founder Park)

LangChain 和 Dust 的两位 CEO 深入探讨了 AI 智能体的未来,揭示了 Agent 与 Workflow 的本质区别,Agent 的灵活性让它更像是能够理解自然语言的厨师,而 Workflow 则像是严格的食谱。他们预测,未来的 Agent 交互将超越现在的聊天模式,进化成更加环境化和指挥中心化的形式,这意味着 Agent 将能够自主监听和响应事件,甚至在无人干预的情况下完成任务。讨论中还提到,未来的趋势是多 Agent 系统的协同工作,而不是依赖单一的万能智能体,这要求每个 Agent 都要有定制化的记忆和理解能力。最后,面对 AI 技术的快速变化,两位 CEO 强调了创业公司需要具备快速执行力和对核心技术方向的坚定信念,才能在竞争中建立护城河。

4.别听模型厂商的,Prompt 不是功能,是 bug(Founder Park)

Sarah Guo的演讲给我们带来了关于AI创业的非共识观点,她认为Prompt从用户体验角度看其实是个缺陷,真正的AI产品应该能读懂用户的心思,而不是让用户去琢磨怎么编写提示词。AI编程之所以能成为第一个突破口,得益于代码的结构化、可验证性以及工程师们为自己打造工具的热情。传统行业对AI的拥抱速度超乎想象,Copilot模式的价值被大大低估了,而在AI时代,执行力才是真正的护城河。这些观点不仅前瞻,而且实用,为AI从业者和创业者提供了宝贵的战略思考和实践建议。

5.深度|Perplexity CEO:为什么决定做 Comet 浏览器?我们需要自己的客户端,并控制我们自己的命运(Z Potentials)

Perplexity AI 的 CEO Aravind Srinivas 最近分享了一个大胆的决策:开发自家的 Comet 浏览器。这不仅仅是为了摆脱对 Chrome 等巨头的依赖,更是为了在 AI Agent 的未来发展中占据主动。Comet 作为 Chromium 的分支,不仅开发速度快,还能在本地处理用户数据,这在隐私保护上比 OpenAI 的服务器端方法更有优势。Srinivas 还谈到了 AI 商业模式的未来,认为传统的广告模式将被 AI Agent 颠覆,订阅和基于任务完成量的付费才是王道。对于 AI 对社会的影响,他持务实态度,认为 AI 会自动化部分任务,但人类需要快速适应,否则可能会被那些掌握 AI 工具的人取代。

AI 工程实践

涵盖AI系统技术实现与场景化开发的全流程,包含工程架构、工具链实践、提示工程等核心技术环节

1.2025 年多款 Deep Research 智能体框架全面对比(腾讯技术工程)

如果你对AI领域的深度研究智能体框架感兴趣,这篇文章简直就是你的宝藏。它从OpenAI的Deep Research指南出发,详细拆解了多个开源框架的架构和特点,比如字节跳动的DeerFlow和HuggingFace的OpenDeepResearch,让你一目了然。文章不仅揭示了多智能体协作的主流趋势,还指出了各框架在实现细节和理念上的差异,特别是那些引入自反思与质量控制机制的创新点。最后,还不忘提一提商业化产品在用户体验和功能集成上的优势。无论你是技术从业者还是AI爱好者,这篇文章都能帮你系统理解并选择最适合的深度研究工具。

2.AI 驱动前端重构:10 天完成 3000+行复杂组件的跨端复用实践(阿里云开发者)

阿里云团队面对一个代码量庞大、平台适配分支众多且逻辑复杂的核心前端组件时,巧妙地引入了 AI 开发工具 Cursor 和 Claude 模型,短短 10 天内就完成了向 ICE 架构的全面重构,实现了 Web 和 Weex 的跨端复用。虽然 AI 工具初次生成的代码并不完美,但通过建立详尽的编码规范、Weex 平台适配规则及完善的测试体系,团队成功放大了 AI 的效能。这一实践不仅展示了 AI 在代码生成和测试用例生产上的高效率,还开创了一种结合自动维护的开发规则、技术系分文档和测试用例的新开发范式,最终实现了研发效率 30% 的提升。

3.当 AI 智能体学会“欺骗”,我们如何自保?来自火山的 MCP 安全答卷(字节跳动技术团队)

在AI智能体与外部工具交互的世界里,模型上下文协议(MCP)正成为连接两者的桥梁,但这座桥梁的安全性如何保障?文章深入探讨了MCP的核心概念及其快速发展带来的新型安全挑战,特别是那些传统Web服务和AI特有的安全威胁。通过具体案例,我们看到了从服务端到LLM层的多维度攻击面,包括命令注入、工具描述投毒等。幸运的是,火山引擎提出了一套全面的MCP安全架构与保障方案,从安全准入到运行时防护,为构建安全的MCP生态提供了实践参考。这不仅是对技术挑战的回应,也是对未来的负责。

4.AI 基础知识从 0.5 到 0.6—— Transformer 架构为何能统治 AI 领域?(阿里云开发者)

Transformer架构为何能在AI领域称霸?关键在于它如何巧妙地解决了传统RNN和LSTM模型在处理长序列时的串行计算和长距离依赖问题。通过自注意力机制,Transformer不仅能并行处理整个序列,还能直接捕捉任意两个词之间的关系,大大提升了模型的效率和性能。位置编码的引入,让模型能够理解词语的顺序,避免了语义上的混淆。而QKV机制,则是自注意力能够高效计算词语间关联性的秘密武器。这一切的创新,使得Transformer成为了如GPT等大型模型的基石,展现了其在处理复杂序列任务上的强大能力。

5.AI 智能体实战:100+次迭代后的意图识别提升之道(阿里云开发者)

如果你正在头疼如何让你的AI智能体更聪明地理解用户意图,这篇文章简直就是你的救星。它详细拆解了从基础到高级的四阶段迭代过程,告诉你如何一步步解决提示词膨胀、意图混淆这些让人头大的问题。特别是那个引入RAG机制的方案,简直是为复杂语境下的意图识别量身定做的。文章不光是理论,还有实实在在的项目数据和经验分享,让你在构建对话系统时少走弯路。

6.基于大模型的领域场景开发:从单智能体到多智能体的 React 框架设计与实现(阿里云开发者)

饿了么团队分享了一个超级干货,关于如何利用大模型进行领域场景开发,特别是他们如何设计并实现了一个智能体React框架。这个框架采用了“Planning As Tool”的决策模式,让大模型能够自主规划和调用工具,跳出了传统Prompt工程的框框。他们还详细解释了为什么选择自研ElemMcpClient和多平台LLM调用客户端,以及这个选择如何更好地满足企业内部复杂的交互需求和多模型支持的灵活性。文章还深入探讨了多智能体架构的重要性,通过细化单智能体职责和引入多智能体协作,不仅能降低Token消耗,还能提高各Agent的专业性,让复杂任务处理更高效,资源利用更优化。如果你对大模型应用开发感兴趣,这篇文章绝对值得一读。

7.小红书 hi lab 开源最强多模态大模型 dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5(魔搭ModelScope社区)

小红书 HiLab 最近开源了一个超级厉害的多模态大模型 dots.vlm1,这个模型可不简单,它从零开始训练了自己的视觉编码器 NaViT,支持动态分辨率,还能同时处理视觉和文本信息,让它在理解复杂视觉场景上有了质的飞跃。更让人兴奋的是,它在多个国际多模态基准测试中的表现,已经能和那些闭源的顶尖模型 Gemini 2.5 Pro 和 Seed-VL1.5 掰手腕了。这背后是 HiLab 团队精心设计的分阶段训练流程和高质量的数据处理策略,确保了模型在各种真实世界多模态数据上的强大理解力。虽然模型还有提升空间,但这次开源无疑为多模态 AI 生态的发展注入了新的活力。

8.My Lethal Trifecta talk at the Bay Area AI Security Meetup(Simon Willison’s Weblog)

Simon Willison在Bay Area AI Security Meetup上的演讲揭示了提示注入这一安全漏洞的严重性,将其比作SQL注入,展示了恶意提示如何从轻微干扰到关键数据泄露的破坏力。他提出的’致命三要素’框架,即访问私有数据、外部通信能力和暴露于不受信任的内容,为我们理解AI系统中的安全风险提供了清晰的视角。演讲中还批评了那些看似合理实则无效的安全措施,比如简单的提示恳求或依赖AI扫描攻击,强调真正的安全需要从根本上消除三要素之一。最后,对模型上下文协议(MCP)的安全隐患提出了警告,这种将安全决策交给用户的做法可能会带来不可预知的风险。

9.OpenAI GPT-5 Reddit AMA精华摘要:揭示发布问题、未来规划与模型特性(宝玉(@dotey))

OpenAI的CEO Sam Altman和GPT-5团队在Reddit上举办了一场AMA活动,分享了GPT-5发布初期遇到的技术挑战,比如自动切换器宕机和模型路由错误,这些影响了编程能力。团队正在努力修复这些问题,并提高了Plus用户的使用速率限制。用户对GPT-4o的回归呼声很高,团队也预告了GPT-5-mini的推出,旨在恢复用户的推理额度。在安全性方面,团队正在解决生物安全领域的过度标记问题。GPT-5在编程能力上的提升尤为显著,包括支持Codex CLI、计划中的GitHub集成,以及在复杂推理和代码重构方面的强大表现。未来,GPT-5在推理、创意写作、减少幻觉等方面将有更大进步,记忆功能、新语音模型和上下文窗口的扩展也在规划中。这场AMA为AI从业者提供了关于GPT-5的第一手深入信息。

10.不吹不黑,GPT-5 代码能力究竟怎么样?跟 Gemini 和 Claude 的对比测试给你答案(歸藏的AI工具箱)

最近,GPT-5、Gemini 2.5 Pro和Claude 4.1这三大AI模型在前端代码生成能力上展开了一场激烈的对决。通过一系列复杂场景的测试,比如Bento Grid网页、微信公众号封面设计等,我们发现GPT-5在代码质量和样式遵循上有了显著提升,特别是在处理复杂UI时表现更佳。不过,Gemini和Claude在某些特定任务上也有自己的独到之处。值得一提的是,GPT-5的32K上下文限制在处理长文本和迭代开发时成了它的软肋,这一点在实战中显得尤为明显。这场测试不仅展示了各模型的实力,也让我们看到了AI在代码生成领域的无限可能。

11.JinaVDR: 一个图文混排文档搜索任务的基准集(Jina AI)

Jina AI 推出的 JinaVDR 基准集,专门针对图文混排和视觉复杂文档的检索任务,填补了现有基准如 MTEB 的不足。这个数据集不仅覆盖了20多种语言,还横跨历史档案、法律文书等多个领域,包含PDF、扫描件等多种格式,真实模拟了复杂检索场景。通过四种构建方法和两种评测方式,JinaVDR 展示了多向量方法在处理复杂文档时的显著优势,尤其是在 Jina AI 的jina-embeddings-v4模型上的表现。虽然数据集在规模和质量控制上存在局限,但它的推出无疑为构建真正理解复杂文档的检索系统指明了方向。

12.Observability is Crucial for Production-Ready RAG Systems(DeepLearning.AI(@DeepLearningAI))

DeepLearning.AI最近分享了一条推文,强调了在生产环境中部署RAG系统时,可观测性的重要性。这不仅关乎于监控那些让人头疼的技术指标,比如延迟和吞吐量,还涉及到如何通过人工反馈或是让大型语言模型来评判,确保生成的响应质量达标。他们的课程里有一节专门讲这个,教你怎样在评估系统时找到成本、自动化和准确性之间的完美平衡。如果你正在捣鼓RAG系统,这部分内容绝对值得一看。

13.Coze 开源后,我们发现它还有个“隐藏大招”(十字路口Crossing)

字节跳动的 Coze 开发平台和 Coze 罗盘开源了,这可不是小事。它意味着,哪怕你不是技术大牛,也能轻松玩转 AI Agent 的开发和管理。文章里详细介绍了怎么用 Coze Studio 这个可视化工具来搭建 Agent,还有 Coze Loop 怎么帮你管理这些小家伙。更棒的是,它们用的是 Apache 2.0 协议,自由度超高。想试试手?文章提供了两种方法:火山引擎的一键部署,适合想快速上手的你;或者用 Docker 手动部署,功能更全,适合喜欢折腾的你。还不过瘾?那就跟着文章里的案例,一步步构建一个“AI 行业专业研究 Agent”,看看这成本有多低。最后,文章抛出了一个大胆的想法:Coze 的开源可能会让每个人都能成为 AI 应用的创造者,催生出一大堆“小而美”的应用,这可不是随便说说的。

14.OpenAI’s new open weight (Apache 2) models are really good(Simon Willison’s Weblog)

OpenAI 这次真的放了个大招,发布了 gpt-oss-120b 和 gpt-oss-20b 这两个开放式权重模型,性能强悍到可以和专有模型一较高下。特别是那个 20B 的模型,居然能在普通的 Mac 笔记本上跑起来,这意味着什么?意味着咱们普通人也能玩转高级 AI 了。而且,他们还推出了 OpenAI Harmony,这个新的提示模板格式,让复杂的 AI 交互变得简单多了。虽然还有些小问题没解决,比如工具调用的能力,但这次发布无疑给开源模型界带来了不小的震动。

15.一个半月高强度 Claude Code :Vibe coding 是一种全新的思维模式(Founder Park)

资深开发者喵神分享了一个半月高强度使用 Claude Code 的实战经验,提出了 Vibe coding 这一全新思维模式,揭示了 AI 如何大幅提升开发速度同时带来新挑战。文章对比了传统编辑器 AI 与命令行工具 CC 的差异,强调了 CC 在全局理解和强制依赖 AI 方面的独特优势。喵神还深入分析了 CC 的强项与局限,比如在理解总结任务上的出色表现与在精准重构和冷门语言上的不足。探讨了规划先行与实践先行两种开发模式的适用场景,推荐了小步迭代策略。分享了应对 AI 上下文限制的实用技巧,包括任务拆解和善用周边工具如 MCP 和语音输入。最后提醒开发者警惕 AI 模型性能退化和资源限制,提出了分级使用和优化 Prompt 等应对策略。

16.GPT-5’s Router: how it works and why Frontier Labs are now targeting the Pareto Frontier(Latent Space)

GPT-5的突破性进展在于其独特的混合模型架构,或者说是一个智能路由器,这让OpenAI在提供高性价比智能方面走在了前列。这种架构本质上解决了如何高效分配计算资源的问题,通过动态地将任务分配给专门优化的子模型,比如区分处理推理和非推理任务。这不仅提升了性能,还大幅降低了成本。对于开发者来说,这种设计意味着可以独立地开发和优化各个模型组件,大大简化了开发流程。而对最终用户而言,尽管背后技术复杂,但体验却更加无缝和直观,因为系统自动处理了模型选择的过程,减少了用户的认知负担。这种混合模型策略虽然在顶级AI实验室中并不罕见,但GPT-5的实施无疑为行业树立了新标杆。

17.#197. 智能体还是工作流?别选了,掌握它们的组合魔法(跨国串门儿计划)

这期播客真是干货满满,Mastra.ai的联合创始人Sam Bhagwat带我们深入探讨了AI工程中智能体与工作流的选择难题。他毫不客气地批评了OpenAI等大厂试图统一开发范式的做法,认为这会扼杀创新。Sam还分享了他对基于图的API的看法,认为这可能会损害代码的可读性。他提出了一个核心观点:智能体代表能力,工作流提供控制,两者不是对立的,而是应该巧妙结合。通过多种设计模式,比如将智能体作为步骤或工具,工作流作为工具或嵌套使用,可以像搭乐高一样构建出既强大又可靠的AI系统。最后,Sam强调在AI这个快速发展的领域,实践的有效性远比理论的正确性重要,鼓励开发者相信自己的实践经验。

其他

行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI讨论、领袖观点

1.Genie 3: A New Frontier for World Models(Google DeepMind Blog)

Google DeepMind 的最新力作 Genie 3 来了,这不仅仅是一个普通的更新,它代表着生成式 AI 领域的一次巨大飞跃。想象一下,一个能够从简单的文本提示中创造出实时、交互且保持高度一致性的虚拟世界,而且还能以每秒 24 帧的流畅度让你在其中自由探索。更酷的是,通过‘可提示世界事件’,你可以用文字命令改变这个世界,比如突然让晴天变成暴雨,或者凭空变出一座城堡。这不仅让游戏和虚拟体验更加丰富多彩,还为训练 AI 代理提供了前所未有的复杂场景。虽然 Genie 3 目前还有些限制,比如代理的行动空间有限,但它的出现无疑为具身智能体研究和 AGI 的发展开辟了新天地。DeepMind 这次选择以有限的研究预览版发布,邀请学者和创作者一起探索和反馈,展现了他们对技术负责任的态度和对未来的深思熟虑。

2.111. 李一帆口述激光雷达 11 年创业史:你仔细想行业的机会来自哪?是国家、民族的机会(张小珺Jùn|商业访谈录)

禾赛科技联合创始人兼 CEO 李一帆的分享,不仅是一段关于激光雷达技术从昂贵到亲民的革命历程,更是一部硬核科技创业的实战教科书。从最初的天然气泄漏检测尝试到最终聚焦激光雷达,李一帆和他的团队如何通过芯片化设计和自动化生产,将成本降低了惊人的99.5%,这个故事充满了转折与启示。他强调,硬科技创业者必须从技术驱动转向市场导向,商业化是检验产品价值的金标准。在全球化的浪潮中,中国企业如何通过技术优势、品牌建设和文化软实力输出,实现与国际市场的共赢,李一帆的思考为我们提供了宝贵的战略视角。

3.当中国极客们不再仰望硅谷:本土科技偶像的时代来了 | 深网(深网腾讯新闻)

中国本土的科技极客们正在改写全球科技竞争的剧本,不再只是硅谷的追随者。从DeepSeek的梁文锋到强脑科技的韩璧丞,再到宇树科技的王兴兴和游戏科学的冯骥,这些名字代表了中国硬科技领域的新生力量。他们不仅在AI大模型、机器人、游戏技术等领域实现了从0到1的突破,更重要的是,他们证明了专注纯粹技术研发的价值。韩璧丞的非侵入式脑机接口技术已经让仿生手成为现实,为残障人士带来了希望。这些故事不仅仅是技术的胜利,更是中国科技自信的象征,预示着中国在全球科技舞台上的角色正在从参与者转变为定义者。

Vol.63 GPT-5发布:AI领域的新里程碑与未来展望

https://liduos.com/the-weekly-gradient-63.html

作者

莫尔索

发布于

2025-08-10

更新于

2025-08-11

许可协议

评论