Vol. 56 AI Agent 进行时!OpenAI智能体指南发布,MiniMax 发布 Agent

⼤家好,会员计划第 56 期会员通讯已送达,更多内容请查看周刊全⽂。本期揭秘AI Rokid硬件生死战;拆解Agentic Browser下一代产品形态;OpenAI官方智能体指南+鹅厂RAG血泪经验;MiniMax/月之暗面开源模型对决,Altman李飞飞最新洞察。

AI 商业变现

看看 AI 项目怎么赚钱,还有真实案例教你用 AI 搞钱,附赠增长秘籍

  • 张鹏对谈李广密:Agent 的真问题与真机会,究竟藏在哪里? 这篇对谈把 AI Agent 聊得超透彻!拾象科技李广密和钟凯祺一起拆解了 Agent 热潮下的真问题:产品该做成通用型还是垂直型?怎么从 Copilot 进化到真正的 Agent(拿 Cursor 当例子超直观)。还聊了为啥 Coding 是通向 AGI 的关键考场、好 Agent 的评判标准(数据飞轮、效率、用户粘性缺一不可),甚至讨论了按结果付费的新商业模式。最后展望了多模态和自主学习这些技术突破, AI 产品正在从工具变成我们的“伙伴”。

  • 和 Rokid 祝铭明聊,吴妈、阿里、硬件创业黑森林的第 11 年 这期播客带我们走进 Rokid 创始人祝铭明(Misa)11 年的硬核创业路。从早年做系统被阿里收购,到在阿里内部搞云 OS 和 AI Lab 的酸甜苦辣,再到二次创业做 AI 音箱遇冷后,2019 年果断 All in AR 眼镜——这个转型决策过程特别有启发性。Misa 说 AR 眼镜才是 AI 时代的理想载体,还对比了中美市场的差异,描绘了未来人机交互的酷炫场景。更难得的是他坦诚分享融资故事(靠朋友和老上司信任渡过难关)、硬刚巨头的策略,在硬件“黑森林”里坚持的故事,听得人直呼过瘾。

AI 产品设计

重新琢磨 AI 产品怎么设计、评估,交互体验如何更顺手

  • 深度拆解:为什么通用 Agent 的下一站是 Agentic Browser? 这篇文章提出了个大胆观点:下一代通用 Agent 得靠“会行动的浏览器”!现在操作系统和传统浏览器用生态和数据壁垒锁死了 Agent 的能力(Perplexity 的困境就是例子)。作者区分了 Agentic Browser 和普通 AI 浏览器的核心差异——前者能“替用户执行任务”,而不只是辅助浏览。关键是浏览器天然掌握用户全链路上下文,还能深度集成系统资源搞自动化。说不定未来浏览器真能进化成 AI 操作系统(AIOS),甚至催生新硬件,想想就带感!

  • Granola:ChatGPT、Notion 都入场的 AI 纪要,能真正沉淀工作流吗? AI 会议纪要工具最近超火,毕竟会议对话是训练 AI 的高价值素材。文章把市面玩家分了类:大厂自研的、工具内置的、第三方软件甚至硬件方案。重点介绍了新秀 Granola ——它不直接生成笔记,而是用 AI 辅助人工记录,强调“增强人脑”而非替代,这思路很清奇!当然挑战也不小:改变用户习惯难,技术门槛不算高,还得面对 OpenAI 这些巨头的碾压。

  • 他为女儿做的 AI 应用拿到了苹果设计奖,我还挖出了这些脑洞清奇的英语 App AI 正在颠覆学语言的方式!这篇介绍了三款神仙英语工具:Capwords 用摄像头把单词“贴”到现实场景,记单词超直观;Read Easy 用中英对照+原文标记帮你啃英文;Para 翻译直接画中画悬浮翻译,阅读不中断。开发者说设计理念就一条:用 AI 降低语言门槛,让学习更沉浸、更实用——而不是堆砌技术。

  • 我用 MiniMax Agent 做 PPT,实在太爽了 传统 AI 做 PPT 总差点意思?作者实测了 MiniMax Agent 后直呼真香!它能拆解复杂任务、深度检索资料、审美还在线。案例超有说服力:给《流浪地球 3》编剧情 PPT、做电商方案、写章北海人物志…生成内容靠谱还能多格式输出。难得的是幻觉少、会自检,堪称目前少有的“能直接交作业”的 Agent 产品。

AI 工程实践

来自一线开发者、工具团队和模型厂的技术实战经验

  • 从黑箱到显微镜:大模型可解释性的现状与未来 大模型越强越像黑箱?这篇文章说破解可解释性迫在眉睫。作者盘点了四大技术路线:用 GPT-4 解释 GPT-2 的“自解说”、可视化抽象概念的“特征拆解”、追踪推理链条的“思维监控”,还有动态复原电路的“AI 显微镜”。虽然面临神经元多义性等难题,但这场“可解释性 vs 模型智能”的赛跑必须加速——毕竟这关系到 AI 安全的核心。

  • Andrej Karpathy on Software 3.0: Software in the Age of AI Karpathy 大神又出神观点:软件 3.0 时代来了(提示词就是新代码)!他形容 LLM 像“实用工具+算力工厂+操作系统”的结合体,还吐槽了模型“知识面参差不齐”和“学新忘旧”的毛病。最启发的是提出“系统提示词学习”方案,以及强调文档要为 AI Agent 服务——毕竟它们成了新的信息消费者。

  • 构建 AI 智能体实用指南 OpenAI 官方出品!手把手教你造 AI 智能体:先说清楚智能体能自主干活,和传统工具不一样。适合场景就三类:复杂决策、规则难维护的、非结构化数据。核心三件套——模型当大脑、工具当手脚、指令当规则。架构推荐从单智能体起步,再按需升级多智能体。最后重点敲黑板:安全第一!得用分类器、过滤器层层防护,重要任务还得人工监督(HITL)。

  • 鹅厂实习生血泪贴:Agent/RAG 黑科技,真相竟是这样! 鹅厂实习生用血泪经验科普 RAG 和 Agent!讲透了 RAG 怎么治大模型“胡说八道”,实操指南包括知识库优化、检索技巧。Agent 部分拆解了 LLM 调度、工具调用、规划(ReAct框架超实用)和记忆机制(HNSW索引实测有效)。最后提醒:规划能力和记忆模块是高性能 Agent 的灵魂!

  • 别让千亿参数成摆设!万字解读 LLM 应用的生存法则 这篇干货指南说:LLM 应用成功不只看参数,更要拼系统工程!作者列了十大生存法则:需求架构设计、非功能性指标、RAG/Agent 选型、性能调优、安全伦理、部署运维、成本控制…每项都给了工具链和避坑指南。看完就知道怎么把大模型从实验室搬进真实场景了。

其他

模型产品新鲜事、行业报告、论文精选,还有值得听的播客&视频

  • 同一天开源新模型,一推理一编程,MiniMax 和月之暗面开卷了 国内 AI 双雄同日秀肌肉!MiniMax 开源长文本推理模型 MiniMax-M1,百万 token 输入+8万输出,号称开源界最强工具调用 Agent;月之暗面则祭出编程专用模型 Kimi-Dev-72B,在代码生成榜刷破开源记录。文章还实测了两者表现,链接都附上了

  • Gemini 2.5:我们的思维模型系列更新 Google 官宣 Gemini 2.5 全家桶升级!2.5 Pro 和 2.5 Flash 结束预览正式发布,新增轻量版 Flash-Lite 主打高吞吐任务。重点提示:把 Gemini 看作“可调思维预算”的模型,2.5 Pro 在编码和 Agent 任务上表现亮眼,别忘了旧版预览模型即将停用哦。

  • Sam Altman 最新万字对谈:理想硬件形态是 AI 伴侣,就业冲击没那么可怕 Sam Altman 和弟弟聊未来超精彩:AI 很快能自主搞科研,人形机器人虽难但可期。他坚信人类适应力超强,新工作会出现,失业恐慌大可不必。OpenAI 理想中的产品是无形“AI 伴侣”,通过多设备随时服务。还霸气回应 Meta 竞争:“我们赢在创新文化!”

  • 李飞飞:创办 World Labs 的初衷,就是想无所畏惧地解决空间智能问题 李飞飞说:没有空间智能的 AI 是不完整的!她创办 World Labs 就是要攻克 3D 世界建模难题(虽然数据和产品化挑战巨大)。访谈里她强调触觉对机器人至关重要,回忆 ImageNet 创立历程,还给年轻人的建议就三字:别怕闯!

  • 40 页 PPT 记录 2025 年中 AI 行业共识 这期播客用 40 页干货梳理年中 AI 趋势:技术圈 Agent 已成共识,推理模型(L2)持续进化,中美模型&开源生态激战正酣;产品界浏览器变 AI 新战场,可视化 AI 执行过程成设计关键;资本端 AI 公司估值随收入飙升,Agent 生态的推理优化、合成数据、工具调用都是投资热区。

  • AI 新时代,Google 又行了? 谷歌 I/O 大会成功逆袭!Gemini 2.5 Pro、Veo3 视频生成(原生音频超惊艳)这些硬货,加上 AI 深度整合搜索/Gmail/生态,看得人直呼“谷歌回来了”。播客还对比了中美技术路线,探讨 AI 如何重塑搜索,并预言 Agent、编程、多模态是未来重点,创业机会在硬件入口和垂直场景。

Vol. 56 AI Agent 进行时!OpenAI智能体指南发布,MiniMax 发布 Agent

https://liduos.com/the-memeber-newsletter-56.html

作者

莫尔索

发布于

2025-06-23

更新于

2025-06-22

许可协议

评论