跳转到正文
莫尔索随笔
返回

Vol.99 AI智能体基础设施全面升级与模型能力边界扩张的行业新动态

预计 16 分钟
AI 周刊 编辑此页

⼤家好,Weekly Gradient第 99 期已送达,本期内容聚焦AI智能体从演示走向生产系统所需的基础设施建设,包括Cloudflare补齐计算、存储、编排、路由全栈能力,模型公司向操作系统演进,执行层工具解放至全设备,记忆系统从存储转向持续再解释,以及视觉Agent、AI社交等新范式的出现。

AI 商业

聚焦 AI 行业的商业化路径、市场竞争格局和商业模式创新,包含投资趋势、GTM 策略、SaaS 转型等商业话题。

1.黄仁勋——TPU 竞争、为何应向中国销售芯片,以及英伟达的供应链护城河(Dwarkesh Patel)

黄仁勋这次访谈真是干货满满!他不仅解释了英伟达如何通过‘从电子到Token的转换’重新定义计算,更揭示了公司真正的护城河——不仅仅是硬件领先,而是庞大的CUDA生态系统、巨大的装机量,还有对上游供应链的深度掌控。他对比了自研芯片和通用可编程架构的优劣,还分享了关于智能体未来、地缘政治挑战和能源基础设施的独到见解。如果你关心AI行业的竞争格局和商业模式,这篇访谈绝对不能错过。

2.语音 AI 的世界,与 ElevenLabs 的 Mati Staniszewski 对话(Stripe)

这次对话太有料了!ElevenLabs的联合创始人Mati Staniszewski亲自拆解了他们如何把Transformer和扩散模型结合起来,硬是把语音合成的真实感推到了新高度。他还深入聊了级联方案和端到端架构在不同业务场景下的取舍,技术细节满满。更让人惊讶的是,这家公司ARR已经冲到4.5亿美元了,增长路径相当清晰。他们那种极度扁平化的组织架构和高能动性的人才策略,简直是AI原生公司的教科书案例。如果你关心语音技术怎么落地、AI公司怎么赚钱,或者未来组织该怎么变,这篇访谈绝对值得细读。

3.AI 时代的残酷真相 | Keith Rabois (Khosla Ventures)(Lenny’s Podcast)

Keith Rabois这位硅谷大佬可真敢说!他直接预言传统产品经理的角色会因为AI而逐渐消失,因为产品、设计和代码的融合会越来越快。他还分享了自己识别人才的独特方法——‘木桶’逻辑,听起来挺有意思的。更刺激的是,他主张用高压管理和公开批评来防止团队自满,强调执行速度才是构建公司护城河的关键。这可不是普通的招聘指南,更像是AI时代下我们每个人如何重新规划职业路径的实战手册。

4.136. 全球大模型季报第 9 集:和广密聊,Coding 是 AGI 第二幕、硅谷御三家真相、模型正成为新一代 OS(张小珺Jùn|商业访谈录)

这期季报聊得真够劲爆!它直接点出人工智能正在从简单的聊天机器人向能自主行动的智能体跨越,而编程能力居然成了推动通用人工智能的关键引擎,地位都快赶上GPU了。更精彩的是对比了硅谷几家大厂的打法:Anthropic靠着早早押注编程和数据驱动文化实现了弯道超车,OpenAI却因为ChatGPT太成功反而被自己的成功困住了手脚。节目还大胆预测这些模型公司未来可能成为新一代的操作系统,连白领工作可能被替代这种社会难题都讨论到了,看完对AI产业的格局会有全新的认识。

AI 产品

探索 AI 原生产品的设计范式与用户体验革新,强调产品哲学、交互模式、Agent 产品设计等。

1.Gemini 3.1 Flash TTS:下一代富有表现力的 AI 语音(Google DeepMind Blog)

嘿,最近有个挺酷的AI语音模型出来了,叫Gemini 3.1 Flash TTS。它主打的是性价比高,还能精细控制语音风格,最厉害的是能用自然语言直接调节,比如你说“加点兴奋感”或者“温柔一点”,它就能听懂并调整。这个模型支持70多种语言,还能模拟不同角色,音质保持得不错,但计算成本反而降低了,还内置了水印技术来防伪。如果你在做需要低延迟、高表现力的语音交互项目,这个模型值得关注一下。

2.为生命科学研究推出 GPT-Rosalind(OpenAI Blog)

OpenAI这次真的把AI带进了实验室!他们专门为生命科学领域打造了一个叫GPT-Rosalind的推理模型,这可不是普通的聊天机器人。它能处理蛋白质工程、化学推理这些特别复杂的科研任务,背后整合了50多个专业数据库,从文献检索到实验设计都能自动化完成。最厉害的是,在多项生物医学测试中,它的表现已经超过了通用大语言模型。这意味着药物研发早期的探索周期可能会被大大缩短,科研人员终于有个真正懂行的AI助手了。

3.MiniMax Agent 更新:这次我们重新设计了 Agent 操作电脑的方式(MiniMax 稀宇科技)

MiniMax 这次更新可真是下了功夫,直接把 Agent 操作电脑的方式重新设计了一遍。他们新推出的 Computer Use 和 Pocket 功能,让 Agent 能深度接管本地图形界面,就像给电脑装了个智能助手。最厉害的是背后那套技术:60 多个细分工具域协同工作,视觉方案还能自适应不同分辨率,再加上验证循环机制把失败率降了下来。现在你通过 IM 软件就能安全、精准地远程操作本地系统和第三方软件,那些复杂桌面环境下的感知和执行难题,这次算是找到了靠谱的解法。

4.Codex 几乎无所不能(OpenAI Blog)

Codex这次升级可真是玩大了!它不再只是个帮你写代码的小助手,现在直接进化成了覆盖软件开发全生命周期的全能伙伴。最让人兴奋的是那个突破性的「计算机使用」功能,智能体居然能在后台通过视觉和光标操作各种桌面应用,这简直是把AI助手的能力提升到了新高度。而且它还深度集成了90多个插件和MCP服务器,开发者现在可以直接在App里评审PR、连接SSH远程环境,还能利用新增的内存功能实现个性化协作。感觉Codex这是要彻底改变我们开发软件的方式啊!

5.Notion 的 Token Town:5 次重构,100+ 工具,MCP 对比 CLI 与软件工厂的未来 —— Notion 的 Simon Last 和 Sarah Sachs(Latent Space)

Notion最近分享了他们打造自定义智能体的幕后故事,整个过程相当硬核,经历了整整5次重构才从简单的API调用进化成深度系统集成。他们建立了一套严苛的评测体系来探索模型的极限,还专门设立了“模型行为工程师”这个职位来优化模型交互体验,用SQL和Markdown让调用变得更简单。最让人期待的是,Notion正在通过信贷模式和渐进式披露机制,试图把平台打造成智能体时代的协作中心,这听起来像是要把AI真正融入工作流的每一个环节。

6.BestBlogs 2.0 内测开启:我想重新做一款更适合自己的阅读产品(Gino Notes)

BestBlogs 2.0这次内测挺有意思的,它不再只是个简单的内容聚合工具,而是升级成了完整的阅读工作流系统。产品团队坦诚地分享了从工具到系统的进化过程,核心思路是帮我们在信息爆炸的时代更聪明地阅读——通过公共质量池筛选内容,用个性化早报推送精华,还有AI伴读辅助理解。最打动人的是那句‘读得更少、判断更稳、理解更快’,这恰恰戳中了现代人面对海量信息时的痛点。如果你也厌倦了在无效信息里打转,这个产品转型的方向值得关注。

7.135. 和自然选择创始人 Tristan 聊,Elys、赛博分身、灵魂、Context 的获取与流动和 AI 社交网络(张小珺Jùn|商业访谈录)

最近和自然选择的创始人 Tristan 聊了聊他们的 AI 社交产品 Elys,发现这玩意儿真的挺有意思的。它不像咱们平时用的那些社交软件,靠标签匹配或者算法推荐,而是搞了个「高维 Context 流动」的新玩法。简单说,就是通过积累你的记忆和审美偏好,帮你构建一个更立体的「赛博分身」,让这个分身先在虚拟空间里跟别人互动,筛选出真正合拍的人,最后再让你在现实世界里高效连接。这思路挺酷的,感觉是把社交从被动等待变成了主动探索,说不定能解决咱们现在社交疲劳的问题呢。

8.中国青年网民对 AI 社交的看法与使用行为|T-ask 调研(腾讯研究院)

腾讯研究院最近发布了一份关于AI社交的调研报告,结果挺有意思的。报告显示,现在年轻人用AI社交的比例已经非常高了,特别是在那些需要倾诉隐私的场景里,AI甚至开始替代真人朋友了。大家使用AI社交的路径很有意思,先是把它当成工具,用着用着就产生了情感依赖。虽然大家对数字分身这种概念挺乐观的,但态度也很理性。这份报告最核心的洞察在于,AI社交确实能提升社交效率、提供情绪价值,但同时也引发了关于隐私安全和身份认知的深层伦理讨论。这让我们思考,当AI越来越像人,我们该如何界定人与机器的边界?

AI 工程

涵盖 AI 工程技术实现与场景化开发的全流程,包含 Agent 工程架构、工具实践、上下文工程等核心技术话题。

1.Claude Opus 4.7 正式发布(Anthropic News)

Anthropic刚刚推出了Claude Opus 4.7,这次更新真是让人眼前一亮!它特别强化了处理复杂软件工程和长程任务的能力,视觉分辨率比4.6版本提升了整整3倍,现在能更精准地解析那些密密麻麻的架构图和代码截图了。最棒的是新增了xhigh努力程度选项,开发者可以根据需要在推理深度和响应速度之间做更精细的权衡。虽然因为Tokenizer更新和思考深度增加,Token消耗可能会增加1.0到1.35倍,但它在逻辑纠错、指令遵循和抗循环干扰方面的进步非常明显,绝对是构建生产级Agent的绝佳选择。

2.Gemini Robotics ER 1.6:增强的具身推理(Google DeepMind Blog)

Gemini Robotics-ER 1.6这次升级真让人眼前一亮,它把机器人的具身推理能力提升到了新高度。最核心的改进集中在三个关键领域:空间指向更精准了,任务成功检测更可靠,还能准确识别工业仪表。背后靠的是Agentic Vision技术,让视觉分析精度大幅提升,同时强化了物理安全约束,确保机器人操作更安全。现在这个模型已经通过API开放了,相当于给开发者提供了一个强大的推理底座,用来构建那些能感知复杂环境、自主决策的机器人系统。这波升级对机器人应用开发来说,绝对是实实在在的进步。

3.Project Think:在 Cloudflare 上构建下一代 AI 智能体(The Cloudflare Blog)

Cloudflare最近搞了个大动作,推出了Project Think,这可不是普通的AI工具升级。它把智能体从简单的聊天机器人直接变成了互联网基础设施的一部分,听起来就挺酷的。最厉害的是它基于Durable Objects和全新的fibers原语,让智能体能够长时间运行还不怕故障,而且闲置的时候完全不用花钱。传统的AI工具调用模式在这里被彻底颠覆了,现在可以直接在沙盒化的Dynamic Workers里执行代码,效率提升了一大截,还能省下不少LLM令牌消耗。框架里还有个很特别的“执行阶梯”架构,从工作区到npm环境再到浏览器自动化,提供了多级计算环境。开发者用Think基类就能快速集成持久化记忆、让多个智能体协作,甚至还能让智能体自己编写插件。这感觉像是给AI开发打开了新世界的大门。

4.AI Gateway 的下一阶段演进:专为智能体设计的推理层(The Cloudflare Blog)

Cloudflare最近给AI Gateway来了个大升级,直接把它打造成了一个统一的推理层。这意味着开发者现在只需要一个API,就能调用来自12家供应商的70多种AI模型,简直太方便了!这个更新主要解决了大家在构建AI Agent时最头疼的几个问题:供应商锁定、成本监控和延迟挑战。最酷的是,现在只需要一行代码就能切换不同模型,还集成了Replicate的Cog技术,让你能轻松部署自定义模型。更贴心的是,他们还专门为Agent优化了自动故障转移和低延迟首字响应,系统可靠性大大提升。如果你正在寻找跨平台模型集成方案,或者特别关注推理成本和系统稳定性,这篇文章绝对值得一读。

5.一文搞懂 Hermes:新顶流 Agent 如何从经验中自我进化(腾讯云开发者)

如果你正在研究AI Agent怎么变得更聪明、更省钱,这篇拆解Hermes Agent的文章可别错过。Nous Research这个开源项目最厉害的地方,是搞出了一套Skills闭环系统——它能让Agent主动从经验里学习,还能把学到的技能存起来反复用。更妙的是,通过渐进式披露和两层缓存机制,这套系统既给了Agent类似人类的“程序性记忆”,又大幅降低了调用大模型的成本。文章还从代码层面挖了不少工程细节,比如原子写入怎么保证数据安全、自改进机制如何运作,甚至清晰划分了Skill和Memory各自该管什么。对于真正想动手搭建智能体系统的开发者来说,这些实战经验简直太有用了。

6.Hermes 凭什么两个月接棒 OpenClaw?(腾讯科技)

最近有个叫Hermes的智能体在开源圈火起来了,据说两个月就接棒了之前的OpenClaw。这背后到底有什么门道?原来Hermes的核心武器是GEPA算法带来的技能自进化能力,加上主动记忆反思机制,让它能像人一样不断学习和优化。最妙的是,它用硬编码规则巧妙避开了大语言模型的不确定性,在处理日常任务时特别丝滑,容错率也高。这可不是简单的技术升级,而是智能体从需要人工干预到能够自主进化的关键一步,挺让人兴奋的。

7.浅谈 Agent Memory(浮之静)

Agent Memory可不是简单的聊天记录备份,它其实是智能体保持连贯性和持续成长的核心系统。文章借鉴了认知科学的框架,把记忆拆解成工作、情景、语义和程序性四个层级,结构清晰。更关键的是,它把RAG和Memory在读写生命周期上的本质差异讲透了,还提出了一个很形象的“操作系统隐喻”,强调记忆治理中写入门控、有损压缩和高质量遗忘的重要性,这些洞见对理解智能体设计很有启发。

其他

行业前沿与开源生态,整合行业深度洞察与开源技术动态的复合型主题,技术哲学、AGI 讨论、领袖观点。

1.对安全、权力与 AI 的反思(Sam Altman)

Sam Altman最近在住所遭遇袭击后,分享了一段深刻的反思。他坦诚地讨论了AI技术快速发展可能带来的社会动荡,特别担心AGI(通用人工智能)会导致权力过度集中。Altman强调,AI应该成为赋能每个人的工具,而不是少数人的特权。他还诚恳地回顾了OpenAI扩张过程中的管理失误,认为技术进步必须在民主制度的框架下推进,这样才能确保人类社会在面对重大转型时保持韧性。这不仅仅是一个科技领袖的观点,更是对我们所有人如何共同塑造未来的重要提醒。


编辑此页