2025-03-03发表会员计划43 分钟读完 (大约6439个字)

Vol.41：DeepSeek R1爆火之后，到底什么任务适合用 RL 做？

大家好！Weekly Gradient 第 41 期内容已送达！

✉️ 免费订阅更新

订阅我的免费通讯，第一时间获取生成式 AI 领域优质内容

我承诺保护您的隐私，不会向第三方分享您的信息。
您可以随时取消订阅。

论文

RAG 系统中上下文大小和模型选择的影响：上下文大小对生成能力有显著影响，但当片段数量过多时，性能可能会趋于稳定或下降，这与信息过载有关。
1. 上下文大小对 RAG 系统的性能有显著影响，但存在一个饱和点（片段数量达到 10 到 15 个），超过这一点后，性能可能会趋于稳定或下降。
2. 在封闭式和开放式测试中，随着选择的 top k 片段数量的增加，性能逐步提升，但开放式检索的挑战性更高。
3. BM25 检索技术优化了搜索结果的精确度，而不是召回率，这在某些场景中比语义搜索更为重要。
4. LLMs 内部知识与外部知识的冲突可能导致 RAG 系统中的答案信息量不足，尤其是当检索到的片段不提供所有重要信息时。
5. 达到上下文饱和点后，添加更多上下文片段可能会导致回答中的噪音和混淆，而不是提升性能。
如何通过代码输入输出预测（CODE I/O）来增强大型语言模型（LLMs）的推理能力：传统的LLMs在处理广泛的推理任务时面临挑战，因为训练数据稀疏且碎片化。CODE I/O通过将原始代码转换为可执行的函数，并设计了一个新的任务：给定一个函数及其对应的文本查询，模型需要预测给定输入或输出的代码执行结果，完全以自然语言的形式呈现。这种方法通过分离核心推理流程与代码特定的语法，保留逻辑严谨性，从而暴露模型于多种推理模式，如逻辑流规划、状态空间搜索、决策树遍历和模块分解。实验结果表明，CODE I/O在符号、科学、逻辑、数学和常识推理任务上表现出一致的改进。
揭秘 LLMs 中的长链思维推理：在这篇论文中，研究者系统地探讨了大模型中长链推理（CoT）的生成机制。他们发现：
1. 监督微调（SFT）的作用：尽管SFT不是必需的，但它简化了训练过程并提高了效率。SFT可以显著提高模型的性能，并为后续的RL改进提供更好的起点。
2. 推理能力的出现：推理能力通常随着训练计算的增加而出现，但并不总是保证。因此，奖励塑造对于稳定CoT长度的增长至关重要。
3. 可验证奖励信号的扩展：扩展可验证的奖励信号对于RL至关重要。使用来自网络的数据进行过滤和混合可以增强模型在分布外任务中的表现，特别是在STEM推理等复杂任务中。
4. 基础模型的核心能力：错误纠正等核心能力在基础模型中已经存在，但通过RL有效激励这些技能需要大量的计算资源。测量这些能力的出现需要细致的方法。
从 RAG 到记忆：大语言模型的非参数持续学习：HippoRAG 2 是一个新框架，旨在解决现有检索增强生成（RAG）系统在模拟人类长期记忆的动态和关联性方面的局限性。该框架基于 HippoRAG 的个性化 PageRank 算法，通过深度段落整合更有效让大语言模型（LLM）使用，使得 RAG 系统更接近人类长期记忆的效果。HippoRAG 2 在离线索引阶段使用 LLM 从段落中提取三元组，并整合到开放知识图谱（KG）中，同时检测同义词并添加到 KG 中。在在线检索阶段，利用嵌入模型将查询与 KG 中的三元组和段落链接，应用个性化 PageRank 算法进行上下文感知检索，以提供最相关的段落。HippoRAG 2 在基线方法（包括经典检索器、大型嵌入模型和结构增强 RAG 方法）的评估中表现出色。

工程

DeepSeek 开源周

FlashMLA：提高大模型计算注意力效率

DeepEP：优化混合专家模型通信

DeepGEMM：高效矩阵乘法算法

DualPipe & EPLB：解决芯片计算与数据传输问题

3FS 文件系统：提升数据存取速度
当我们谈论“开源AI”时，我们在谈论什么？：开源软件的协作模式要求细颗粒度和高模块化，而 AI 大模型的迭代更多依赖于发布者的自行升级，导致开源 AI 的协作机制尚未形成有效范式。开源 AI 在法律上的意义体现在其在多个国家的监管法规中的出现，以及模型的开源许可证对用户使用权利和限制的实际影响。对于开源 AI，更应关注模型的开源许可证，实际提供的使用权利和限制，以及在后续使用过程中是否能够享受到开源或公开模型的优惠政策和豁免等更具法律意义的问题。
月之暗面（Kimi）开源首个模型 Moonlight-16B-A3B：一个拥有3B/16B参数的混合专家模型，这个模型使用了基于矩阵正交化的 Muon 优化器，并通过增加权重衰减和精细调整参数更新规模，成功扩展了 Muon 的应用范围至大规模模型训练。相比于传统的 AdamW 优化器，Muon 在计算效率上提升了约 2 倍。Moonlight 模型经过了 5.7T tokens 的训练，并且在 FLOPs 方面表现了更高效的性能。
微软开源 Phi-4-Mini 和 Phi-4-Multimodal 两款模型，这两款模型虽然参数规模较小，仅有 3.8 亿，它们在语言和多模态任务上展现了卓越的性能，甚至在某些任务上超越了参数规模更大的模型。
如何为 Deep Research 模式融入本地数据：再推荐一次 Milvus 这个开源项目，思路很认同，Deep Searcher 类产品在处理非结构化数据和结构化数据混合使用的场景中具有潜力，能够提高推理任务的效率和质量，Deep Searcher 代表了新一代 RAG 的构建范式，能够从提出问题到解决问题完成全流程任务。
通义万相 Wan2.1 视频模型开源，支持中文字效和高质量视频生成。此次开源采用最宽松的 Apache2.0 协议，14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源，同时支持文生视频和图生视频任务。
Hugging Face 发布 Python WebRTC 开源库 FastRTC，方便构建实时音频视频应用：FastRTC 是一个为 Python 开发者提供的实时通信库，旨在简化实时语音和视频 AI 应用程序的开发。构建实时 AI 应用具有挑战性，特别是对于那些不熟悉 WebRTC 等技术的机器学习工程师。FastRTC 提供了以下核心特性：
- 内置的自动语音检测和交替语音接收功能。
- 自动生成的基于 WebRTC 的 Gradio UI，适用于测试或生产部署。
- 通过 fastphone() 函数获取免费电话号码以连接到音频流
- 支持 WebRTC 和 Websocket。
- 可定制性，可以将流挂载到任何 FastAPI 应用上，以便提供自定义 UI 或超出 Gradio 的部署。
- 提供文本到语音、语音到文本和停用词检测等工具，以帮助开发者快速开始。
Hugging Face 总结 2024 年 AI GC领域的关键突破和创新工具，特别关注文生图、视频生成等热门任务中的开源进展，HF 官方后续会每周发布一篇类似总结，推荐订阅关注。
2024年AI艺术领域的关键突破和创新工具主要包括：
1. 图像生成领域：
  - 扩散模型的范式转变，从传统U-Net架构转向扩散Transformer (DiT)，并引入了流匹配 (flow matching) 技术。
  - Flux.1模型在多项基准测试中超越了闭源模型，如Midjourney v6.0和DALL·E 3 (HD)。
  - 个性化生成技术的进步，如Textual Inversion和DreamBooth等技术实现了向文生图模型注入概念，以及LoRA等改进方案的推出。
  - Stable Diffusion XL (SDXL) 的发布为开源个性化生成树立新标杆。
2. 视频生成领域：
  - OpenAI 的 Sora 提升了行业预期，预示了视频生成领域的可能性。
  - 开源视频模型的爆发，如CogVideoX、Mochi、Allegro、LTX Video和混元视频等，虽然面临技术挑战，但开源社区正在积极解决。
3. 音频生成领域：
  - 音频生成在过去一年突飞猛进，从制作简单的声音效果到创作完整的歌曲都取得了很大进步。
  - 开源语音合成模型如OuteTTS、IndicParlerTTS的出现，以及OpenAI的Whisper large v3 turbo语音识别模型。
4. 创作工具：
  - Flux fine-tuning工具包助力社区创作出惊艳的Flux 微调模型。
  - Face to All结合了Instant ID和深度ControlNet、社区微调的SDXL LoRA，实现免训练的高质量风格化人像生成。
  - Flux 风格塑形通过融合Flux [dev] Redux与Depth模型，实现风格迁移与视觉创作。
  - 智能图像外扩工具如Diffusers Image Outpaint，实现了无缝图像外扩。
  - 动态人像创作工具如Live Portrait和Face Poke，让静态人像瞬间动起来。
  - TRELLIS 3D 引擎重塑了3D生成格局，支持高质量资产创建。
  - IC-Light通过前景条件实现智能光影重构。

产品

秘塔 AI 上线「先想后搜」Research 模式，（对应的有一个「先搜后扩」模式），采用小模型+大模型协同架构，将需要深度推理的框架思考、步骤拆解的部分，交给业内擅长推理的DeepSeek R1来完成；与此同时，为了提高响应速度，将应该快、可以快的信息搜索、资料整合部分，用秘塔自研的模型来完成。
腾讯混元发布新一代快思考模型 Turbo S ：这款模型已经在腾讯云上通过 API 提供了免费试用的服务。混元 Turbo S 在知识、数理、创作等方面都有显著的表现，它通过长短思维链的融合，提升了理科推理能力，并且在多个公开 Benchmark 上对标了业界领先的模型。腾讯混元 Turbo S 的定价输入价格为 0.8 元 / 百万 tokens，输出价格为 2 元 / 百万 tokens，腾讯元宝即将逐步灰度上线混元 Turbo S。
阿里云推出了推理大模型 QwQ-Max-Preview ，并计划开源 QwQ-Max 和 Qwen2.5-Max
OpenAI 发布 GPT-4.5：内部代号Orion，OpenAI 最新且最大的模型，更好的理解用户意图、对话更自然、能捕捉用户情感和言外之意，幻觉（hallucination）减少，在写作、设计、代码生成（如SVG绘图）等任务中展现更高创造力，API价格高昂（输入75美元/百万token）。
ChatGPT Deep Research 功能向 Plus 用户开放，每月限量 10 次。

OpenAI deep research的AI搜索做的是最好的（起码幻觉是最少的），但很可惜这个功能不叫 AI search。

deep research的工作过程，用户提出一个请求，模型会先仔细思考这个请求，然后搜索相关信息，提取信息并阅读，模型理解这些信息如何与请求相关后，再决定接下来搜索什么，以便更接近用户想要的最终答案，不断用搜索到的实时信息扩充上下文，细化意图。

强烈推荐去体验，Plus 会员也不贵。此外补充一篇使用体验总结解锁终极智能体验：OpenAI Deep Research 及其平替全面横评
Anthropic 宣布推出新模型 Claude 3.7 Sonnet，该模型能够进行 “无限思考”，被定位为行业首个 “混合 AI 推理模型”，可以根据用户需求提供实时或深思熟虑的答案。
- 该模型的输入输出费用分别为每百万 tokens 3 美元和 15 美元，比其他推理模型更贵。
- Claude 3.7 Sonnet 能够展示其内部的推理过程，但部分内容可能会被编辑（和谐）。
- Claude 3.7 Sonnet 的推理功能仅对付费用户开放，免费用户将获得性能提升的标准版本。
- 除了 Claude 3.7 Sonnet 模型，Anthropic 还推出了 Claude Code 工具，这是一款智能编码工具，可以帮助开发者从终端运行特定任务（开发人员没做好代码加密，源码已经被挖出来，需要的可以参考实现）。
- 在衡量实际编码任务的测试 SWE-Bench 中，Claude 3.7 Sonnet 的准确率为 62.3%，而 OpenAI 的 o3-mini 模型得分为 49.3%。在另一项测试 TAU-Bench 中，该测试旨在衡量 AI 模型在零售环境中与模拟用户和外部 API 互动的能力，Claude 3.7 Sonnet 得分为 81.2%，而 OpenAI 的 o1 模型得分为 73.5%。
ElevenLabs发布独立语音检测模型Scribe，旨在精细化理解和转录语音：Scribe 模型在发布时支持超过 99 种语言，其中超过 25 种语言达到了优秀的准确度，词错误率低于 5%。这些语言包括英语、法语、德语等。ElevenLabs 在 FLEURS 和 Common Voice 基准测试中表现出色，超越了 Google Gemini 2.0 Flash 和 Whisper Large V3。Scribe 模型还具备智能说话人分离、提供单词级别时间戳和自动标记声音事件的功能。
Product Hunt本周最佳产品
1. Tanka 通过智能回复和长期记忆功能，提升了团队沟通的效率和质量， AI 在企业协作中的应用潜力。
2. Musa 通过游戏化的方式帮助用户进行自我护理，提供了一种新颖的解决经期综合症和痛经问题的方法。
3. Webdraw Beta 的无需编码的 AI 应用开发平台，降低了 AI 应用开发的门槛，促进了更多人参与到 AI 创新中。
4. Lingo.dev 的 AI 驱动的翻译引擎和开发者友好的设计，提高了应用本地化的效率和准确性。
5. Chance AI for iOS 通过高级图像识别能力，为用户提供了深度的视觉信息检索体验，。
6. Andsend 通过 AI 技术帮助用户发掘网络潜力，实现业务增长，优化了客户关系管理的效率。
7. SEO AI Agent 通过全自动化的 SEO 工具，降低了企业的 SEO 成本，提供了高效的营销解决方案。
8. Proxy 1.0 的跨网站任务执行能力，实现了 AI 从纯粹对话转向实际行动的转变，展示了 AI 助手的实用性。
9. Fleet AI Copilot 通过智能化手段简化了 IT 管理，提高了 IT 运营效率，体现了 AI 在 IT 领域的应用前景。
10. Apidog Fast Request 通过自动化和简化 API 开发流程，提高了开发效率，展示了 API 开发工具的创新方向。

市场

LiblibAI 完成数亿元新一轮融资（在一年内已连续完成四轮融资），本轮融资将重点投入创作者生态建设与技术研发，加速构建AI时代的创意基础设施。

LiblibAI成立于2023年5月，致力于AI内容的创作和分享，目标是彻底改变设计师、画师、自媒体创作者的原有创作方式，成为内容创意行业的AI新质生产力。LiblibAI通过”开源模型生态+模块化工具流”架构，将专业级AI能力降维至大众创作场景。截至目前，其模型/图像创作者已突破两千万，日均保持数百万级创作交互，其用户自主训练的原创AI模型与工作流超50万，累计生成图片逾5亿张，LiblibAI持续向全球最大的AI内容创作与消费平台迈进。

与此同时，公司为万兴科技、吉比特游戏、天猫校园、清华大学等B端客户提供了专业的AI图像场景解决方案。构建起了涵盖AI内容创作、分享、版权、售卖的完整生态链。
据《华尔街日报》的报道，Anthropic 公司即将完成一轮 35 亿美元的融资，估值达到 615 亿美元，其年化收入（ARR）近期已达到约 12 亿美元，但公司目前仍处于亏损状态。参与这轮融资的投资公司包括 Lightspeed Venture Partners、General Catalyst、Bessemer Venture Partners 和 MGX 等。如果融资成功，Anthropic 的累计融资额将接近 180 亿美元。
百度将在 3 月 16 日推出文心大模型4.5（Ernie），侧重推理，字节跳动公司正在测试一个类似 DeepSeek 的 R1 的新模型。

DeepSeek-R1 的影响仍在持续。本周，阿里发布了 QwQ-Max-Preview，腾讯推出了快速推理模型 Turbo S，百度和字节跳动也在积极跟进。但 DeepSeek-R1 的出现不仅依赖于算法创新，还基于其强大的基础模型 DeepSeek-V3，真正具备与 GPT-4 和 Claude-3.5-Sonnet 等模型相媲美的能力。相比之下，其他公司虽然也在提升其基础模型，但这并不是简单地通过刷题来提升评测分数来误导上级和用户的，基础模型的实际水平就存在一定差距（不过高频体验 Qwen2.5-Max 一个月下来，实际能力是赶上GPT-4级别模型了，我看好QwQ-Max 能力赶上 DeepSeek-R1），现在又开始追推理模型的热点。

我想再重复下这个观点，Test Time Scaling 的天花板依赖于 RL 阶段的 Scaling 能力，而 RL 阶段的天花板依赖于预训练阶段的 Scaling，只不过现阶段大家发现提升模型效果性价 Test time Scaling Law > RL Scaling Law > 预训练阶段 Scaling Law，不是预训练不重要了，只是 OpenAI、Claude、DeepSeek 现在训练出了能力不错的基础模型，能更好的进行下个阶段了，提升效果也更明显。

观点

要么AI，要么被淘汰：知名播客 Invest Like the Best 主播 Patrick O’Shaughnessy 与红杉资本（Sequoia Capital）合伙人Ravi Gupta（围绕Ravi 的一篇文章要么AI，要么被淘汰）进行了一次对谈，在访谈中，Ravi 讨论了 AI 如何影响企业管理、组织和领导人的思维方式，强调了 “小团队革命” 的重要性，以及 AI 技术如何为企业创造新的机遇和挑战。（中文文字稿）
1. AI 技术的快速进步为小团队带来了前所未有的机会，消除了历史上限制小团队的束缚。
2. “小团队革命” 将重新定义企业的规模和效率，小而强大的企业将成为新的商业模式。
3. AI 将深刻改变企业的管理和组织结构，特别是在大企业和小企业之间的生态格局上。
4. 企业应该专注于为客户创造价值，并利用 AI 来提高这种价值创造的效率和效果。
5. AI 可以帮助企业在市场上保持竞争力，成为应变者，而不仅仅是预测者。
6. 员工成本和组织结构在 AI 时代需要重新评估，以确保团队的敏捷性和对客户需求的快速响应。
7. 领导力在 AI 时代的重要性，领导者需要拥抱 AI，将其融入公司的文化和运营中。
8. 个人成长和教育应适应 AI 时代的需求，培养孩子的好奇心、雄心壮志和适应能力。
9. AI 在投资决策中的应用，投资者应积极使用 AI 来处理实际工作和分析投资机会。
10. AI 带来的机会是巨大的，企业和个人都应保持乐观，抓住这些机会去创造和实现伟大的成就。
R1爆火之后，到底什么任务适合用 RL 做？作者将任务分为两类：存在 GroundTruth 信号和不存在 GroundTruth 信号。对于存在 GroundTruth 信号的任务，如数学题和代码题，RL 的收益越来越高，尤其是在标注难度大的情况下。对于那些能够轻易产生标准答案的任务，使用 RL 并不是必须的。
做AI产品近2年总结出来的25条核心认知：作者由自身经验出发，探讨了如何找到 Model-Product-Market-Fit，以及如何迭代认知，包括理解大模型、项目实践中的角色、以及大模型在未来可能演化出来的机会。还提到了 AI 应用产品设计的要点，包括给用户交付结果而非仅提供工具体验，以及用户预期管理的重要性。同时强调了 AI 产品应用层的核心逻辑要简单稳定，以及如何通过封装 AI 为原子能力带来乘数效应。
OpenAI Deep Research 团队采访：Sequoia Capital 对 OpenAI Deep Research 团队的中文采访全文，讨论了 Deep Research 产品的起源、使用场景、技术原理、未来计划以及它如何影响各行各业。

Vol.41：DeepSeek R1爆火之后，到底什么任务适合用 RL 做？

https://liduos.com/the-memeber-newsletter-41.html

作者

莫尔索

发布于

2025-03-03

更新于

2025-08-18

Vol.41：DeepSeek R1爆火之后，到底什么任务适合用 RL 做？

✉️ 免费订阅更新

论文

工程

产品

市场

观点

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

评论

订阅我的免费通讯

我的作品

目录

最新文章

归档

标签