Vol.54 什么是 NLWeb
根据之前调查问卷收集的反馈情况,本期开始对周刊的内容做大幅调整。
【AI 商业变现】部分,简单来说就是AI 项目是如何赚钱的,以及如何利用 AI 赚钱的案例和经验,从个人到大公司的分享都有。
【AI 产品设计】部分,AI 产品的设计、交互方面的文章和资源分享。
【AI 工程实践】部分,定位不变,来自开发者工具团队或模型基础厂商的技术分享。
【其他】部分,包括各家模型厂商重要更新和产品新闻、市场报告等信息,因为这些东西大家到处可以看得到,可有可无,没必要占用篇幅。再包括一些论文(话题包括 Agent 评估和 安全、Agent 记忆管理、工具与推理协同、Agent 产品人机交互等方面)。
⼤家好,会员计划第 54 期会员通讯已送达。
AI 商业变现
- 晚点对话吴欣鸿:重生之我在美图做 CEO:美图公司在创始人吴欣鸿的领导下,历经了多元化到单一核心业务的转变,经历了巨亏和重组的挑战。公司在 2018-2019 年期间面临危机,不得不关闭多个业务线,裁减 60% 员工。随后,美图回归了厦门,重新整合产品线,重点发展影像工具,如 “整牙” 功能和 “开拍” 等产品,逐步恢复了公司的增长和盈利能力。2025 年,美图的 MAU 达到 2.66 亿,年净利润达到 5.9 亿,股价上升至 6 元左右。吴欣鸿将这一过程称为 “重生”,强调了公司的转变和对 AI 和工具产品的重点。
- 不见投资人,年入 1 亿美金,一款 AI 录音机的 10 倍增长神话:许高创立的 Plaud.AI 通过关注到海外人群对语音转文字工具的需求,发展了 AI 录音机。该产品在两年内实现了盈利,并在 2024 年达到了年化收入 1 亿美元的成就。Plaud.AI 的成功不仅在于其产品的差异化和市场需求的准确把握,还在于其能够提供一站式的解决方案,从而极大提升了用户的效率。
- 一人公司、AI 创业半年,我有哪些收获?:作者许良通过 AI 技术,尝试了多个 AI 创业项目,包括网文出海、白噪音项目、紫微斗数 + AI 解读、塔罗牌 + AI 解读、AI 简历优化、独立站搭建 + SEO、自媒体运营等。通过这些项目,作者总结了快速试错、赛道选择、需求验证的重要性,并警示创业者要警惕伪需求和自我感动。
- 风靡全网的AI宠物账号,幕后推手们到底赚不赚钱?:介绍了 AI 宠物账号的流行和商业价值,通过两位 AI 账号运营者的实例,分析了 AI 账号在新媒体平台上的流量变现能力,以及 AI 账号运营者如何通过内容生产和广告合作的方式进行变现。文章指出,AI 账号在流量和变现方面面临着诸多挑战,但随着 AI 视频工具的普及和变现方式的多样化,AI 账号的商业价值正在逐步提升。
- 「SEO 新卷王」Pollo AI 创始人阿彪首谈:SEO 怎么做?红人怎么投?付费广告怎么搞?:Pollo AI 的创始人阿彪介绍了自己对于 SEO、红人营销和广告投放的理解。他强调了产品的时机、核心价值、以及在面对失败时的学费经验。阿彪分享了他对于产品选择、营销策略和团队管理的看法。
- 「我没喝一口茅台,去年也做了 3000 万」 | AI 在中国⑤:AI 时代怎么搞 toB 才能拿得到结果?:本期播客邀请宇和科技创始人翟星吉和毕昇联合创始人覃瑞,深入探讨了在 AI 时代投身中国 toB 业务的动机与挑战。他们驳斥了“toB 很难搞”的普遍看法,认为 AI 技术特别是 Agent 应用为企业带来了提供确定性业务价值的新机会,并分享了各自公司在收入、利润及现金流方面的良好进展。播客对比了中国与北美 toB 市场的差异,强调中国市场需要更聚焦价值交付、避免过度定制和维护复杂商务关系的新策略。两位嘉宾详细阐述了各自公司的产品方向(面向制造业的 Agent 数字员工和开源 LLM 应用开发平台)以及如何通过认知驱动打单、筛选客户(如宇和科技选择不接百万以上大单)来构建健康的商业模式。最后,他们讨论了团队建设、招聘挑战以及对 AI 时代 toB 领域未来发展的乐观展望,认为价值观驱动和专注于为客户创造真实价值是成功的关键。
AI 产品设计
AI Agent 产品交互设计:设计模式与案例分析:文章从体验设计视角深入分析 AI Agent 产品(如 Manus, Flowith, Gemini Deep Research, Cursor, Devin)面临的交互设计挑战,涵盖启动、过程和结果三个阶段。针对这些难点,文章基于透明化、认知减负和人在环路三大原则,提出了七个关键交互设计模式:注意力引导、就地澄清、自动建议、思考外显、上下文/知识匹配、暂停-反馈-继续、环境/工作流适配。文章结合具体产品案例,阐释了这些设计模式的应用场景和实践机会,强调优秀的设计是提升 AI Agent 价值和扩大用户群的关键差异点。
shapeofai:主要探讨了人工智能(AI)在用户体验(UX)设计中的应用,提出了一系列用于设计人工智能体验的模式和策略。
AI 工程实践
什么是 NLWeb:NLWeb 是微软开源的AI驱动网站搜索协议,之前介绍过,这篇文章通过一个实际例子解释 NLWeb 原理。
- NLWeb 的工作原理是通过一个双组件系统来实现对话式访问网站内容:
- 协议层(REST API 和 MCP 服务器): 接受自然语言查询,并返回结果。
- 实现层(多个 LLM 调用): 处理查询,通过并行预处理、向量检索、LLM 排序等步骤来生成响应。
- 查询处理管道(Query Processing Pipeline):
- 用户查询通过并行预处理,然后进行向量检索,接着是 LLM 排序,最后生成响应。
- 在处理过程中,会考虑相关性检查、去语境化处理、内存检测和快速通道路径等环节。
- 每个查询可能会触发 50 多次 LLM 调用,以实现查询的去语境化、相关性评分、结果排名和可选的后处理等功能。
- 提供更自然的搜索体验:
- 通过分解每个查询为具体的小问题,利用 LLM 的现有理解来处理复杂的、需要上下文感知的多轮查询。
- 通过并行处理和快速通道优化,提高了查询处理的效率和准应速度。
- NLWeb 的工作原理是通过一个双组件系统来实现对话式访问网站内容:
Simon Willison 在 AI Engineer World’s Fair 上的 keynote 演讲,讨论了过去六个月中大型语言模型(LLMs)的发展,
LangGraph Platform 是一个为 Agent 部署和管理提供基础设施的平台,它现在正式全面商用。它提供了一种部署和管理长期运行、状态保持的 Agent 的解决方案。
gemini-fullstack-langgraph-quickstart:谷歌开源的 Deepresearch项目,使用 React 前端和 LangGraph 后端。该项目旨在展示一个使用 Google Gemini 模型进行高级研究 Agent。
和张祥雨聊,多模态研究的挣扎史和未来两年的2个“GPT-4时刻”:本期播客由李广密对话阶跃星辰首席科学家张祥雨,深度剖析多模态人工智能的十年发展与未来趋势。张祥雨分享了个人在深度学习、模型 scaling 等方面的学术经历,并着重探讨了当前大语言模型(LLM)在训练中遇到的“怪现象”:通用能力增强的同时,推理(特别是数学)能力反而可能下降。他分析了这与 Next Token Prediction 范式的本质缺陷相关,并介绍了 O 系列模型如何通过引入思维链(COT)有效解决这一问题。此外,访谈深入讨论了视觉与语言多模态融合在理解与生成一体化上的挑战,以及未来 AI 的两个潜在“GPT-4 时刻”:长上下文和模型的在线学习/自主学习,强调从自然界反馈学习的重要性。
Claude 4系统提示的亮点:作者 Simon Willison 分享了自己对这些模型的见解,包括如何使用这些工具、它们的个性特点、安全性问题、风格指南、注意事项以及如何处理一些特殊情况。文章还涉及了一些未公开的工具提示,以及如何更深入地理解和使用 Claude 4。Simon Willison 强调了 Claude 4 的一些关键特性,如时理时间敏感的信息、避免过度回应等,并对如何更好地与 Claude 4 交流进行了深入的探讨。
其他
谷歌
Gemini2.5-Pro 再升级,发布 06-05版本:该版本在编码能力上有了显著提升,特别是在前端 Web 开发方面表现出色,位居 WebDev Arena 排行榜首位。模型增强了对代码转换、编辑以及复杂智能体工作流构建的能力。此外,Gemini 2.5 Pro 的视频理解能力也大幅增强,在 VideoMME 基准测试中得分高达 84.8%,结合编码能力,可实现“视频到代码”等新颖应用流程。
Google AI Edge Gallery:谷歌新发布的安卓 App,允许用户在手机运行 Hugging Face 上面的开源 AI 模型,即它可以让手机运行本地 AI 模型。
Gemini 2.5 的高级音频对话和生成能力:多模态 Gemini 2.5 模型中包含的全新原生音频功能。实时音频对话技术的突破,实现了自然、上下文感知的对话,并且能够通过自然语言提示来调整语音风格。该模型的关键功能包括低延迟、工具集成、背景噪音识别、音视频理解、多语言支持以及情感对话。此外,该模型还提供了可控的文本转语音(TTS)功能,支持动态表现、语速和发音调整,以及多说话人生成。
字节
- 剪映团队的三款AI创作工具:剪小映、Pippit AI 和 小云雀。剪小映采用一键式操作,用户只需上传图片和视频,应用便能自动完成剪辑,并提供多种滤镜和音乐选择,快速制作出抖音风格的视频内容。让没有专业剪辑经验的用户也能轻松制作高质量的短视频。Pippit AI,AI营销内容创作平台。主要作为Web端的工具,集成了Link to Video、AI产品图、数字人生成、灵感模板推荐等功能。凭借CapCut的强大视频编辑能力和TikTok社交平台的无缝衔接,Pippit为用户提供了一站式的创作闭环解决方案。从初稿的生成到深度的剪辑,从模板的推荐到数据分析,Pippit在内容创作、投放与反馈上实现了系统的联动,特别是对于资源有限的中小跨境卖家来说,Pippit成为了一个性价比极高的AI营销基础设施。小云雀 专注于商业内容生产,特别适合短视频创作者、电商营销团队及中小企业。通过任务导向式的界面设计,它增强了Agent的主动协同决策能力,用户通过一句话指令就能激活系统自动推理任务、素材与用户画像,生成多个视频方案。
- 字节跳动Seed团队推出了新一代图像编辑模型SeedEdit 3.0,基于Seedream 3.0,该模型采用高效数据融合策略与专用奖励模型,显著提升了指令遵循、主体保持及细节处理的能力,特别是在人像、背景和光线等编辑场景。文章详细介绍了模型的机器与真人评测结果,显示其在图像保持和可用率方面超越了现有模型(如Gemini 2.0、Step1X、GPT-4o),达到56.1%的可用率。技术实现方面,文章阐述了增强型数据策略(包括合成数据、专家数据、传统操作和视频帧)、多阶段训练方法(包括多长宽比训练、精调和奖励模型)以及推理加速方案,实现了约10秒的推理速度。未来,该团队计划继续优化指令遵循,探索更多编辑能力。
微软
Bing Video Creator:微软旗下的 Bing 搜索引擎,加入了视频生成功能,可以使用自然语言生成免费视频,使用的是 OpenAI 的文生视频模型 Sora。该功能目前只在移动端 Bing App上开放。
阿里
Qwen 家族再上新!:通义千问团队最新发布的 Qwen3 Embedding 和 Qwen3 Reranker 模型系列。Qwen3 Embedding 负责将文本转化为向量进行语义检索的“初筛”,捕捉语义关系;Qwen3 Reranker 则对 Embedding 模型初步筛选的结果进行精细化排序,判断文本相关性高低,实现“精排”。两者结合构建了一套完整的语义检索流程,旨在显著提升搜索和推荐系统的准确性。模型在 MTEB 多语言榜单上的领先表现(8B 模型位列第一),具备卓越的泛化性、支持超 100 种语言及编程语言的多语言能力。同时,提供了 0.6B 至 8B 多种参数规模选择,支持表征维度和指令自定义,提升灵活性。
Cursor
- BugBot自动代码审查:BugBot可以自动审查Pull Request,发现潜在的问题,并通过评论提供修复建议,用户可以点击“Fix in Cursor”直接在编辑器中进行修复。
- Background Agent通用:Background Agent,远程编码助手,现在为所有用户提供服务,用户可以通过聊天中的云图标或快捷键
Cmd/Ctrl+E
进行操作。- Jupyter Notebook支持:Cursor现在可以在Jupyter Notebook中进行多个代码块的编辑和实现,这对于研究和数据科学任务来说是一个重大的进步,尽管初期只支持Sonnet模型。
- Memories记忆功能:Cursor具备了记忆对话中事实并在未来引用它们的能力,这些记忆存储在设置中的每个项目中,可以通过设置中的规则来管理。
- MCP一键安装:用户可以快速设置和认证MCP服务器,这大大简化了服务器配置和认证过程。
- 聊天富响应:Cursor可以在对话中渲染可视化,包括Mermaid图和Markdown表格,这使得在一个地方生成和查看这些响应成为可能。
- 新的设置和仪表板:这个版本带来了设置和仪表板页面的改进,新的仪表板提供了更多的团队和个人使用情况分析功能。
Mistral
Build AI agents with the Mistral Agents API:Mistral AI 宣布其新的 Agents API,这是一个主要的进步,使 AI 更加强大,能够执行行动并保持对话上下文。该 API 通过集成强大的语言模型、持久记忆、代码执行、网络搜索、图像生成和 MCP 工具等功能,提供了一个框架,使企业能够更广泛地使用 AI 来解决实际问题。该 API 支持多种应用,如编码助手、线性任务助手、财务分析师和旅行助手等,并且支持内存和对话的管理,以及跨不同代理人的编排。
论文
Alita:通过最小预定义和最大自我进化实现可扩展的通用代理:Alita在最具挑战性的GAIA基准测试中夺得桂冠,击败了OpenAI Deep Research和Manus等知名系统。Alita的核心理念可以用一句话概括:”简单是极致的复杂”。与当前主流的通用代理系统依赖大量人工预定义工具和工作流程不同,Alita采用了极简主义的设计哲学:最小化预定义和最大化自我进化。该系统仅配备一个核心能力(网络代理)和少量通用模块,但能够根据任务需求动态生成、适应和重用模型上下文协议(MCPs),而非依赖静态的预定义工具。这种从人工设计能力转向即时MCP构建的转变,为构建既简单又强大的代理系统开辟了全新道路。Alita在GAIA验证集上实现了75.15%的pass@1准确率和87.27%的pass@3准确率,在测试集上达到75.42%的pass@1准确率,也证明了这种设计理念的有效性。Alita生成的MCP工具箱不仅能够实现代理蒸馏——让强大的代理教授较弱的代理,让大语言模型驱动的代理指导小模型代理,还能让pass@1性能接近pass@N的效果。研究团队相信,随着大语言模型编程和推理能力的不断提升,Alita将变得更加强大,未来的通用AI助手可能会变得更加简单,无需任何预定义的工具和工作流程来直接解决问题,而人类开发者将更多地专注于设计模块来激发和促进通用代理的创造力和进化能力。
团队回应代码会在一个月内开源,https://github.com/CharlesQ9/Alita,这个设计理念确实比较匹配真实场景,Agent 调用tool是来延伸自己的思考能力,而不是局限于怎么调用tool这件事本身,tool服务于reasoning能力,可以关注下,到时候亲自跑下 GAIA,看看是否是炒作。
观点
- AI-Native 的 Infra 演化路线:L0 到 L5:本文深入探讨了在 Agentic 叙事下,AI 基础设施的未来演化路径。作者 Hang Huang 基于 AI 编写代码效率的飞跃,提出 AI 的最终目标是获取对整个软件生命周期的控制权,而非仅限于代码编写。他指出,现有以人类为中心的基础设施(如依赖 GUI、模糊错误提示)不适合 AI Agent 使用。文章构建了一个从 L0(模仿人类)到 L5(AI 原生 OS)的六阶段演化模型,详细描述了 AI Agent 如何从工具调用者逐步成长为系统组装者、运行时掌控者、基础设施编排者,最终成为直接掌控底层操作系统的“系统主人”。文章强调要实现“结果即服务(Result-as-a-Service)”的未来软件形态,需要底层基础设施发生相应的 AI-Native 演化。文章具有前瞻性,为理解 AI Agent 与未来 Infra 的关系提供了新视角。
- 复杂场景下的 RAG 架构演进:跨模态知识联邦与统一语义推理实践:文章分析了传统 RAG 技术在处理企业级复杂知识交互场景(如异构、多模态知识)时遇到的挑战,特别是知识离散性和模态多样性问题。作者基提出了一种新的 RAG 架构演进方向:构建融合知识库以整合多元异构数据,并通过统一知识图谱构建统一语义层,实现跨模态信息的关联和高效检索。文章详细阐述了融合知识库的构建方法和统一知识图谱的生成与检索逻辑,并结合医院电子病历查询和银行风险指标分析两个具体案例,展示了该架构在实际生产环境中的应用成效。最后,文章讨论了统一语义层动态更新、图像/视频数据处理、行业语义模型赋能以及知识库标准化等未来演进方向。
Vol.54 什么是 NLWeb