Vol.57 AI领域前沿:从势能护城河到数字超级智能的探索

⼤家好,Weekly Gradient第 57 期已送达,更多内容请查看全⽂。本期内容涵盖了AI领域的最新动态和深度分析,从a16z提出的AI产品势能护城河,到数字超级智能的未来展望,再到AI Agent、提示工程、AI安全等关键技术讨论,为读者提供了全面的AI领域视角。

✉️ 免费订阅更新

订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。

AI 商业变现

看看 AI 项目怎么赚钱,还有真实案例教你用 AI 搞钱,AI 产品增长相关

1.「势能」是 AI 产品的护城河 | a16z 最新发文(十字路口Crossing)

在AI领域,速度就是一切。a16z的最新文章揭示了在模型和基础设施快速变化的背景下,传统护城河难以构建,而“势能”成为了新的竞争壁垒。文章提出了六种创新的营销策略,从将黑客松变成吸引眼球的表演,到与AI原生KOL合作,再到通过高质量视频展示产品实力,这些策略都是为了在拥挤的市场中快速吸引用户注意并保持增长。如果你在思考如何在AI领域快速脱颖而出,这篇文章提供的策略绝对值得一看。

2.首个投资交易 Agent Bobby 上线,第一时间和 Vakee 聊 Bobby 的诞生过程以及生活中的投资机会(十字路口Crossing)

RockFlow 创始人 Vakee Lai 在最新播客中分享了他们推出的金融交易 AI Agent Bobby 的故事。Bobby 不仅是首个基于 GPT 的交易策略生成器,还能提供从灵感到执行的端到端服务,让投资变得像聊天一样简单。Vakee 提到,自然语言对话将是未来金融应用的主流,而 Bobby 正是这一趋势的先行者。开发 Bobby 过程中,团队克服了技术上的重重挑战,比如处理金融数据的复杂性和优化响应速度,这些都离不开深厚的金融工程知识。内测用户的好评证明了 Bobby 在简化投资流程和提供个性化服务方面的潜力。Vakee 还分享了他的投资哲学,认为投资应该基于个人的认知和日常观察,而 AI 工具如 Bobby 能让更多人轻松参与投资,享受其中的乐趣。

3.Vol.65 AI 新时代,Google 又行了?(屠龙之术)

谷歌最近的IO大会真是让人眼前一亮,不仅展示了Gemini 2.5 Pro和Veo3视频生成模型这样的黑科技,还巧妙地将AI深度整合到搜索、Gmail等核心产品中,彻底改变了大家对它在AI领域落后的看法。特别是Veo3,能生成带原生音频的视频,这对内容创作者来说简直是革命性的。讨论中还提到了中美在AI技术上的互相促进,以及初创公司如何在大厂的阴影下找到自己的生存之道。如果你对AI如何改变商业世界感兴趣,这期内容绝对值得一读。

4.GTM in The Age of AI: The Top 10 Learnings from ICONIQ’s 2025 B2B SaaS Report(SaaStr)

ICONIQ 2025年的B2B SaaS报告揭示了AI如何重塑市场进入策略,AI原生公司在转化率上比传统SaaS公司高出24个百分点,销售周期更短,成本更低。报告还指出,AI的应用让GTM团队变得更精简,尤其是在年收入低于2500万美元的公司中。混合定价模式在AI原生公司中越来越流行,而高增长公司则计划大幅增加AI支出,特别是在潜在客户开发和内容创作等方面。这一切都表明,AI不仅仅是功能上的改进,它正在推动根本性的组织变革和性能优势。

5.The $939B Question: Is AI Eating SaaS or Feeding It?(SaaStr)

想知道人工智能如何改变企业技术支出的游戏规则吗?这篇文章揭示了AI如何在2025/2026年超越SaaS,成为技术投资的新宠。通过分析巨额风险投资流向AI初创公司,以及这些公司如何通过垂直领域AI和现代架构直接挑战传统SaaS企业,文章展示了市场正在经历的深刻变革。传统SaaS企业面临的技术债务和技能差距,以及AI初创公司的高效和低成本优势,都是不容忽视的挑战。文章最后以Palantir的成功转型为例,强调了战略性AI采用对于SaaS企业生存的关键作用。如果你关心AI如何重塑商业世界,这篇文章绝对值得一读。

AI 产品设计

重新琢磨 AI 产品怎么设计、评估,交互体验如何更顺手

1.账号已迁移(MiniMax 稀宇科技)

MiniMax 最近推出了他们的通用智能体 MiniMax Agent,这家伙可不简单,能搞定那些传统 AI 挠头的长程复杂任务。它不仅能做多步规划,还能把大任务拆成小任务一步步来,内部用了快 60 天,超过一半的员工都在日常工作中依赖它。从生成讨论材料到编写学习教程,甚至搞前端动画,样样在行。设计这个 Agent 的时候,MiniMax 可是照着’靠谱的人’的标准来的,编程能力杠杠的,多模态理解和生成也不在话下,还能通过 MCP 扩展集成各种工具。虽然现在用多个模型成本有点高,但团队已经在优化了。这 Agent 的潜力,从他们把口号从’Talk is cheap, show me the code’升级到’Code is cheap,show me the requirement’就能看出来,AI 对全球 GDP 的贡献,说不定就得靠这样的神器了。

2.#151. AI 的下一个十年:Greg Brockman 谈 OpenAI 的能源瓶颈、数据墙与产品哲学(跨国串门儿计划)

OpenAI 的联合创始人 Greg Brockman 在最近的一次访谈中,分享了公司如何从一个非传统的“先有技术再找问题”的模式成长为 AI 领域的领导者。他谈到了通过 Dota 2 AI 项目验证规模化假设的经历,以及在不确定性中学习和拥抱惊喜的团队管理经验。Greg 还坦诚地讨论了 GPT-3 API 推出时的挑战,并对 AI 在个性化交互、医疗、教育、编程等领域的未来应用进行了展望。特别引人注目的是,他预测 AI 辅助编程将逐渐演变为“AI 同事”甚至“AI 管理者”,这将深刻改变软件工程的面貌。访谈还深入探讨了 AI 发展面临的能源瓶颈和数据墙等关键挑战,以及 OpenAI 在产品决策上的平衡策略。最后,Greg 以幽默的方式反思了对 AGI 时间线的预测,并强调了 OpenAI 致力于每年带来颠覆性 AI 突破的决心。

AI 工程实践

来自一线开发者、工具团队和模型厂的技术实战经验

1.腾讯一念 LLM 新版本发布:硬刚核心调度,满血版 DeepSeek 推理吞吐提升 48%(腾讯技术工程)

腾讯一念LLM 0.6.0版本带来了让人眼前一亮的更新,特别是在DeepSeek-R1模型的推理性能上。通过自研的调度和定制化功能,加上流水线并行(PP)分布式推理方式的引入,不仅大幅降低了跨机通讯量,还提升了运营的灵活性。更厉害的是,通过MultiBatch自回归流程、batch动态负载均衡和layer offload机制,解决了PP在LLM自回归推理中的效率问题。实测数据显示,满血版Deepseek推理吞吐达到了9084 tokens/s,比同期其他开源框架高出48%。这不仅仅是一次技术的飞跃,更是对现有硬件条件下如何最大化利用资源的一次深刻探索。

2.让远程电脑成为你的 AI 助手 - Computer Use Agent 实践(字节跳动技术团队)

字节跳动的 Computer Use Agent (CUA) 系统,这款基于自研 Doubao-1.5-thinking-vision-pro / Doubao-1.5-UI-TARS 模型构建的行动式 AI 助手,正在改变我们与电脑互动的方式。CUA 通过其独特的“感知-推理-行动”架构,能够截取计算机屏幕图像进行环境感知,利用多模态模型进行高级推理和决策,最终通过模拟虚拟鼠标和键盘执行操作。这意味着它能在不需要特定 API 的情况下,直接在图形界面上完成复杂任务,大大扩展了自动化操作的可能性。从智能订机票到文件整理,再到电商购物,CUA 的应用场景广泛且实用。背后的技术底座,包括自研模型、多系统支持、极致拉起速度和灵活服务组合,确保了系统的高效和可靠性。如果你对 AI 如何从对话向行动能力演进感兴趣,这篇文章提供了丰富的技术细节和实战案例,绝对值得一读。

3.万字长文深入浅出教你优雅开发复杂 AI Agent(腾讯技术工程)

如果你对如何高效开发复杂 AI Agent 感到好奇,这篇文章简直就是你的宝藏。它不仅仅告诉你多 Agent 协作怎么成为处理复杂任务的神器,还深入浅出地解释了 MCP 和 A2A 协议如何在工具使用和 Agent 间协作中扮演关键角色。更棒的是,它还介绍了 Plan-and-Execute 框架如何让任务处理变得更稳健,以及 Golang 框架 Eino 如何让开发复杂 Agent 变得不再头疼。无论你是技术团队的一员,还是对 AI 开发充满热情的开发者,这篇文章都能给你带来不少启发和实用的指导。

4.Phoenix.new is Fly’s entry into the prompt-driven app development space(Simon Willison’s Weblog)

Fly.io 的新产品 Phoenix.new 带来了一个革命性的概念:通过简单的文本提示,AI 代理就能帮你构建 Phoenix 应用程序。这不仅大幅降低了使用 Elixir/Phoenix 技术栈的门槛,还提供了一个实时交互的开发环境,让你在浏览器中就能看到代码的实时变化和测试结果。更棒的是,所有生成的代码都可以通过 Git 克隆,方便你进一步定制和开发。虽然目前主要支持 Phoenix 框架,但这项技术的潜力预示着未来可能支持更多语言和框架,开启提示驱动开发的新时代。

5.The rise of “context engineering”(LangChain Blog)

听说过上下文工程吗?这可不是什么新鲜事,但绝对是让LLM更靠谱的关键。简单来说,就是给LLM搭个舞台,确保它有正确的信息、工具和格式,这样才能稳稳完成任务。别再把代理系统的失败全怪在模型头上,很多时候是因为上下文没给够或者格式不对。提示工程?那只是上下文工程的一部分。文章还提到了LangGraph和LangSmith这些工具,它们的可观测性特性让上下文工程变得更可行。看来,想要LLM发挥最大潜力,上下文工程这项技能你得掌握。

6.魔搭社区模型速递(6.14-6.21)(魔搭ModelScope社区)

魔搭社区这周可是大动作频频,一口气新增了1154个模型,包括那个让人眼前一亮的MiniMax-M1,首个开源的大规模混合架构推理模型,还有专为软件工程优化的Kimi-Dev-72B,能把复杂文档转成Markdown的Nanonets-OCR-s,以及医疗领域的Lingshu系列。不仅如此,还有185个新数据集和63个创新应用上线,比如那个泰语语音合成数据集thaimos-tts-annotation和医学推理数据集ReasonMed,简直是研究者和开发者的宝藏。社区还贴心地提供了示例代码和在线体验,让这些高大上的技术变得触手可及。

7.My First Open Source AI Generated Library(Simon Willison’s Weblog)

Armin Ronacher 的实验让人眼前一亮,他让 AI 模型 Claude 和 Claude Code 从零开始构建了一个 Python 库 sloppy-xml-py,不仅代码写得漂亮,连测试、文档、Logo 设计都一手包办。这个库专门解决 LLMs 输出宽松 XML 格式的解析难题。Simon Willison 用他的高标准一检验,发现这 AI 生成的库居然达标了,清晰、可维护、测试覆盖率高。但这实验也告诉我们,AI 再厉害,也得靠懂行的程序员指挥,它更像是高手的好帮手,而不是来抢饭碗的。

8.Nanonets-OCR-s 开源!复杂文档转 Markdown SoTA,颠覆复杂文档工作流(魔搭ModelScope社区)

Nanonets团队刚刚开源了一个让人眼前一亮的OCR模型Nanonets-OCR-s,这家伙可不简单,它能把你手头那些结构复杂的文档,比如满是公式、表格、甚至还有签名和水印的那种,统统转换成结构清晰、内容丰富的Markdown格式。这可不是普通的OCR,它能理解文档的上下文,智能识别并标记各种复杂元素,连LaTeX公式和复选框都不在话下。更棒的是,这个基于Qwen2.5-VL-3B微调的模型对硬件要求相当友好,只需要9G显存就能跑起来,大大降低了使用门槛。无论是学术研究、法律金融还是医疗保健领域,这个模型都能大显身手,特别适合作为大型语言模型处理的预处理步骤。如果你正为复杂文档的处理头疼,Nanonets-OCR-s可能就是你的救星。

9.先设计再写代码,还是先实现再重构?AI 编程让这种选择变的简单(宝玉的分享)

在软件开发的世界里,先设计还是先编码一直是个让人头疼的问题。但现在,AI 编程的出现让这个问题变得不再那么纠结。通过 AI,我们可以快速将设计思路转化为提示词,生成代码,然后验证和调整,整个过程既快速又灵活。这不仅降低了修改代码的心理负担,还让我们能更专注于系统设计的整体性。当然,这也意味着我们需要更加重视源码管理、代码审查和测试,确保每一次迭代都能达到预期的效果。对于经验丰富的开发者来说,适应这种新模式可能需要一些时间,但无疑,AI 编程正在开启软件开发的新篇章。

10.#148. 2025 年的 AI prompt 工程:哪些有效,哪些无效(跨国串门儿计划)

这期播客真是干货满满,Sander Schulhoff 这位提示工程与 AI 安全专家带我们深入了解了2025年 AI prompt 工程的前沿动态。他不仅分享了提升大型语言模型性能的五大核心提示技巧,比如少样本提示和提供附加信息,还揭露了一些曾经流行但现在效果大打折扣的技巧。更引人关注的是,他深入探讨了提示注入这一 AI 安全领域的顽疾,以及如何通过 AI 红队竞赛来发现和修补模型漏洞。最后,Sander 还谈到了 AI 发展的巨大潜力与监管的重要性,提醒我们在享受 AI 带来的好处时,也要警惕潜在的风险。

11.Scaling Test Time Compute to Multi-Agent Civilizations: Noam Brown(Latent Space)

OpenAI 的 Noam Brown 在最近的播客中分享了一些关于 AI 未来发展的深刻见解。他提到,随着像 GPT-4 这样的大型模型的出现,我们现在进入了一个新时代,通过增加推理过程中的计算资源,可以显著提升 AI 的能力。这不仅关乎技术的进步,还涉及到如何让 AI 更好地与人类对齐,以及在更复杂的任务中发挥作用。Brown 还探讨了多智能体系统的潜力,认为通过模拟人类文明中的合作与竞争,AI 可能会发展出超越当前限制的新能力。当然,这一切并非没有挑战,比如成本和时间的限制,以及在复杂环境中自博弈的有效性问题。但无论如何,规模化测试时间计算和多智能体系统的研究,无疑是推动 AI 向前发展的关键。

12.YC|Andrej Karpathy:软件正在再次改变(跨国串门儿计划)

Andrej Karpathy在AI Startup School的演讲中,向我们展示了软件行业正在经历的翻天覆地的变化。从手写代码到神经网络权重,再到由大语言模型驱动的自然语言编程,软件的进化速度令人瞩目。Karpathy将LLM比作一个新兴的操作系统,虽然强大但仍有不足,比如会出现幻觉和记忆限制。他提倡一种人机协作的开发模式,通过部分自主应用和自主性滑块来平衡AI的介入程度。这不仅降低了编程的门槛,也为未来的软件开发指明了方向。如果你对AI如何改变软件开发感兴趣,这篇文章绝对值得一读。

其他

模型产品新鲜事、行业报告、论文精选,还有值得听的播客&视频

1.#149. OpenAI 播客创刊号:与 Sam Altman 的深度对话(跨国串门儿计划)

OpenAI 官方播客创刊号的中文翻译版带来了与 CEO Sam Altman 的深度对话,内容干货满满。从 GPT-5 的可能发布时间到雄心勃勃的‘星际之门’项目,Sam 不仅分享了 OpenAI 的未来规划,还透露了个人如何用 ChatGPT 带娃的有趣故事。对话还深入探讨了 AGI 的演进及其在科学发现中的潜力,同时强调了隐私保护的重要性。对于未来 AI 硬件的设想和 AGI 时代职业发展的建议,Sam 也给出了独到见解。这不仅仅是一次技术分享,更是一次对未来生活方式的展望。

2.马斯克最新访谈:在智能爆炸前夜,我们是数字超级智能的“生物引导程序” |附 1.5 万全文+视频(Web3天空之城)

埃隆·马斯克在最近的访谈中分享了他对数字超级智能即将到来的预测,以及这一变革将如何像海啸一样重塑我们的社会和技术。他不仅讨论了人类在AI时代的独特角色——作为数字超级智能的“生物引导程序”,还强调了坚持真理对于构建安全AI的重要性。通过回顾自己在SpaceX和特斯拉的经历,马斯克揭示了第一性原理思考和粉碎自我对于克服挑战的关键作用。这次访谈不仅是对未来技术的一次深刻洞察,也是对人类意识和存在意义的一次哲学探讨。

Vol.57 AI领域前沿:从势能护城河到数字超级智能的探索

https://liduos.com/the-weekly-gradient-57.html

作者

莫尔索

发布于

2025-06-25

更新于

2025-06-25

许可协议

评论