Vol.38:关于 DeepSeek 的误读与真相
大家好!Weekly Gradient 第 38 期内容已送达!本期内容通过论文、工程、产品和市场四个部分, 论文部分讨论了大语言模型高效推理的综述,包括数据级优化、模型级优化和系统级优化三种思路,并详细介绍了 CyberMentor 框架的设计和应用,以及 OmniHuman-1 框架在人体动画生成方面的研究成果。工程部分分享了 Kimi k1.5 技术报告,介绍了 DeepSeek 的影响力和技术实现,以及 Unsloth 推出的 R1 推理模型的本地训练功能。产品部分展示了谷歌发布的 Gemini 2.0 Flash Thinking 推理模型加强版、豆包 APP 上线实时语音通话功能、Qwen2.5-Max 的智能探索、OpenAI 发布的 Deep Research 和 Operator 功能,以及 OpenAI o3-mini 的性能表现和精准学发布的 “超拟人一对一 AI 老师” 产品。市场部分报道了谷歌向 Anthropic 再投资的消息,大基金三期与上海国资成立 AI 投资基金,以及 Mistral AI 计划进行首次公开募股(IPO)。最后,DeepSeek一节澄清了公众对 DeepSeek 的误解,强调了其在技术创新和普及 AI 能力方面的贡献。
✉️ 免费订阅更新
订阅我的免费通讯,第一时间获取生成式 AI 领域优质内容
我承诺保护您的隐私,不会向第三方分享您的信息。
您可以随时取消订阅。
论文
大语言模型高效推理综述:在提高大语言模型推理效率的研究中,主要分为数据级优化、模型级优化和系统级优化三种思路。这些方法各自有不同的效果和局限性。数据级优化通过改进输入提示或输出内容的组织来提升效率。具体方法包括输入压缩和输出组织。输入压缩技术通过缩短模型输入来减少推理成本,如提示修剪、提示摘要、软提示压缩和检索增强生成等。这些方法在不显著影响模型性能的情况下,减少了计算和内存开销。然而,过度压缩可能导致信息丢失,影响模型的准确性。输出组织技术通过并行化生成过程来提高硬件利用率,如骨架思想和自适应骨架图解码等。这些方法在处理复杂任务时表现出色,但需要更复杂的算法来实现并行化。模型级优化通过设计更高效的模型结构或压缩预训练模型来提高效率。这包括高效结构设计和模型压缩。高效结构设计涉及使用稀疏专家混合(MoE)、低复杂度注意力机制等来减少计算复杂度和内存使用。这种方法通常需要重新训练或微调模型,增加了训练成本。模型压缩技术如量化、稀疏化和知识蒸馏等,可以在不显著降低性能的情况下减少模型大小。然而,这些方法可能会引入额外的复杂性,并且在某些情况下可能无法完全保持模型的原始性能。系统级优化通过优化推理引擎或服务系统来提高效率。这包括图和操作符优化、推测性解码和分布式系统优化。图和操作符优化通过融合操作符和并行化计算来提高运行速度。推测性解码通过使用较小的模型来预测多个后续标记,然后验证这些预测,从而提高解码效率。分布式系统优化通过利用分布式计算资源来提高吞吐量。这些方法在处理大规模请求时表现出色,但需要更复杂的系统设计和实现。每种优化方法都有其独特的优势和局限性。在实际应用中,通常需要结合多种方法来达到最佳效果。
CyberMentor:AI 驱动的学习工具平台,可满足网络安全教育中不同学生的需求: CyberMentor 框架主要由以下几个部分组成,每个部分都采用了特定的技术和方法:
知识库(Knowledge Base, KB):
- 技术:使用检索增强生成(RAG)技术来整合和检索领域内的最新信息。
- 内容:包括课程学习材料、知识单元、职业路径和认证材料。这些内容来自多个来源,如 National Centers of Academic Excellence (NCAE)、CompTIA Security+ Certification Guide 等。
- 应用:提供最新的网络安全知识和职业发展指导。
技能库(Skill Base, Tools):
- 技术:包含一系列技术工具,用于解决网络安全领域的具体挑战。这些工具包括 CryptoSolver(用于密码学问题)、ScriptCoder(用于自动化脚本编写)和 MLClassifier(用于机器学习模型创建)。
- 内容:提供动手解决问题的能力和互动学习模块,帮助学生掌握实际的网络安全技能。
- 应用:支持学生在密码学、编程和机器学习方面的技能发展。
大语言模型代理(LLM Agent):
- 技术:采用代理工作流框架,使大语言模型(LLMs)能够生成推理轨迹并与任务特定动作交织,以增强决策和问题解决能力。
- 功能:智能处理用户查询,从知识库和技能库中选择最合适的资源或工具,提供精确和上下文相关的支持。
- 应用:提供个性化的学习支持和实时反馈。
CyberMentor 框架的设计具有高度的通用性和可扩展性,使其可以应用于其他专业的学习:
- 模块化设计:框架的模块化设计允许其轻松适应不同的学习环境和学科。
- 知识库扩展:可以通过添加新的文档和资源来扩展知识库,以覆盖不同领域的专业知识。
- 工具集成:可以集成新的工具或开发自定义功能,以满足特定学科的需求。
- 跨学科应用:由于其灵活性和可扩展性,CyberMentor 可以应用于其他 STEM 领域或其他需要知识检索和问题解决支持的专业领域。
CyberMentor 不仅限于网络安全教育,还可以为其他专业领域的学生提供支持和资源。
字节跳动研究团队发布了 OmniHuman-1 框架:该框架基于扩散 Transformer,通过在训练阶段混合运动相关条件,扩展了数据集,从而实现了大规模的人体动画生成,并展示了非常棒的效果。OmniHuman-1 支持多种驱动信号,如文本、图像、音频和姿态等,通过预训练的 Seaweed 模型处理文本到视频或图像任务,并引入了多种策略将音频和姿态特征融入模型中。该模型的训练分为三个阶段,逐步引入文本、音频和姿态条件,并根据其运动相关程度进行平衡,采用了两个训练原则:更强条件的任务可以利用较弱条件的任务及其对应的数据来实现数据扩展,条件越强,训练比例应越低。在推理策略上,根据不同的驱动条件组合激活相应的条件,并使用分类器无关引导来平衡表现力和计算效率。OmniHuman-1 使用了 18.7K 小时的人体相关数据进行训练,并与多个音频驱动头像动画模型和全身动画模型进行比较,评价指标包括 FID、FVD、q-align、Sync-C、HKC 和 HKV 等。实验结果表明,OmniHuman-1 在头像动画和全身动画任务中均优于现有的专用模型,能够在各种场景下生成逼真的人体视频。OmniHuman-1 能够生成具有不同风格的人体动画视频,并能够处理各种环境和对象,以及不同的相机角度。
模型之后放出,这个完全可以做一个 meme gif 生成类产品了。
工程
Kimi k1.5 技术报告:DeepSeek 短时间影响力过大,加上开源,赚足了注意力,虽然 k1.5 不开源,但 Kimi 这篇技术报告含金量也很高,对于复现效果,k1.5 比 R1 更友好。Kimi k1.5 也是一个基于 RL 训练的多模态大模型,它通过长上下文扩展和改进的策略优化方法,建立了一个简单而有效的强化学习算法。该模型不依赖于更复杂的技术,如蒙特卡洛树搜索、价值函数和过程奖励模型。Kimi k1.5 包含两个版本:long-CoT 和 short-CoT。long-CoT 版本能够执行长思考,性能最强,特别是在数学、代码和多模态推理能力方面,已经达到 OpenAI o1 的水平,short-CoT 版本是基于 long-CoT 版本简化而来,虽然推理的思维链变短了,但是性能依然很强悍,在一些数学和编程推理任务上性能比肩 GPT-4o 和 Claude Sonnet 3.5。Kimi k1.5 的模型结构是一个 decoder-only 的 Transformer,支持文本输入和文本与图像交叠的多模态输入。训练流程包括 base 模型的训练和 RL 训练。base 模型的训练包括 Pretraining 和 SFT 阶段,SFT 阶段的目的是通过高质量数据微调保证性能,并提升上下文长度,先从 4K 扩展到 32K,然后进一步扩展到 128K。在 RL 训练之前,需要构建一个精心设计的 RL prompt set,这个 prompt set 包含多样化覆盖、难度均衡和准确可评估性的特性。这些特性确保模型能够进行稳健的推理,并降低奖励破解(reward hacking)和过度拟合的风险。为了鼓励模型生成更长的推理链,RL 训练中排除了价值网络,并引入了 Length Penalty 和采样策略。采样策略包括课程采样和优先采样,以提高模型在复杂问题上的表现。Kimi k1.5 的评测使用了多种 Benchmark,包括纯文本、推理和视觉 Benchmark,证明了其在多模态推理和通用推理能力上实现了 SOTA 级别的性能。延伸阅读
Deep Dive into LLMs like ChatGPT:Andrej Karpathy 发布的超过三个小时的大语言模型(LLM)入门课程视频,详细讲解了 LLM 的预训练、有监督微调和强化学习的过程,以及如何将基础模型转化为助手模型,并讨论了 LLM 的认知特性、局限性和未来发展趋势,为普通受众提供一个关于 LLM 的全面但易于理解的介绍,建立思维模型,帮助理解 LLM 的本质、优势和局限性。
如何利用 Cursor AI 工具一步步开发一款超过万行代码的 iOS 应用:这篇文章不错,作者是一名 UX 设计师,他开发了一款名为 “天天磨耳朵” 的英语听力练习工具,这款应用具备用户认证系统、第三方 API 调用以及用户数据存储功能。在开发过程中,作者强调了产品设计的重要性,包括系统架构设计、功能需求定义以及页面交互设计,并提出了一系列 AI 编程的技巧,如定下来就别改、做好记录、拆解任务等。此外,作者还分享了自己对 AI 编程的理解,包括如何理解 AI 在干什么、如何排查问题等。最后,作者提供了一条适合编程初学者的学习路径,包括基础概念、编程语言、完整应用搭建流程等学习内容,并对开发工具与流程、计算机科学入门知识等进行了推荐。作者还分享了自己作为 UX 设计师在开发过程中的感悟,包括 UI 的重要性、体验设计的全局考虑、“Don’t repeat yourself!” 的原则以及 AI 是否会取代体验设计等内容。最后,作者总结了自己在利用 AI 开发应用过程中的心路历程,包括独立开发的孤独感、遇到问题时的挑战和坚持下来的动力。
一些宣称“一小时速成”或鼓吹“人人都是程序员”的国内外自媒体内容多少有点蛊惑人心,实际上要么功能过于简单,要么忽略了背后的额外努力。
- 他们会说自己一行代码都没写,但没有告诉你必要的知识储备依然不可或缺。
- 他们会告诉你 AI 编程非常强大,但没有提到它容易“失忆”,如果不加以干预,可能会引入更多错误。
- 他们会分享自己的成功路径,但没有提及他们曾经历的崩溃瞬间。
AI 辅助编码引入隐性成本:AI 辅助编码虽然能提高开发效率,但在完成项目的最后 30% 时可能会让人感到沮丧,因为这一阶段通常需要深厚的工程知识和对代码的深入理解。
- AI 辅助编码虽然能显著提高开发初期的效率,但在完成项目的最后 30% 时可能会遇到困难,这部分工作对工程知识的要求更高。
- 开发者在使用 AI 时呈现两种模式:一种是 “启动者”,快速从零到 MVP;另一种是 “迭代者”,在日常开发中利用 AI 进行代码补全和重构等工作。
- AI 辅助编码存在隐性成本,如需对生成的代码进行重构和补充 AI 漏掉的边界情况,这需要开发者的专业知识。
- “知识悖论” 表明,AI 对于有经验的开发者的帮助更大,而不是对初级开发者,这与我们对 AI 民主化编程的期望相反。
- “70% 问题” 揭示了 AI 辅助开发的关键点,即 AI 可以快速帮助完成大部分工作,但最后 30% 的细节打磨和优化工作非常困难。
- AI 工具的学习曲线悖论可能会使得非专业工程师更难学习软件开发的本质,因为 AI 可能会 “代劳” 很多复杂的事情。
- 成功使用 AI 辅助编码的模式包括 “AI 初稿” 模式、“持续对话” 模式和 “信任但要验证” 模式。
- AI 在软件开发中的未来趋势可能包括从应答者到协作者的转变,以及多模态的工具发展,这将要求开发者提升系统设计和架构思维等能力。
- 软件开发中最艰难的部分依然需要人类的判断力,AI 应该作为加速学习和开发的工具,而不是完全替代人类的判断力。
Unsloth 推出了 R1 推理模型的本地训练功能:Unsloth 宣布推出了 R1 推理模型的本地训练功能,这一功能基于改进的 Group Relative Policy Optimization(GRPO)算法。Unsloth 的 GRPO 实现比 Hugging Face + FA2 减少了 80% 的 VRAM 使用量,使得在只有 7GB VRAM 的情况下就能在 Qwen2.5(1.5B)模型上复现这一 “aha 时刻”。此外,Unsloth 还支持其他模型,如 Llama 3.1(8B)、Phi-4(14B)和 Mistral(7B),最大支持 15B 参数的模型。
产品
谷歌发布 Gemini 2.0 Flash Thinking 推理模型加强版:该模型能够展示其思考过程,以提高性能和可解释性。能够使用本地工具,如 Google 搜索、代码执行等,以执行任务,模型能够创建或编辑图像,并将其与文本无缝结合,在多个基准测试中,Gemini 2.0 Flash Thinking 显示出了对比前代模型的性能提升,已经登顶 Chatbot Arena 排行榜。
豆包 APP 上线实时语音通话功能:豆包实时语音大模型通过语音和语义的联合建模,提升了语音对话交互的情感价值,使得语音的自然度和情绪饱满度接近真人,对话风格更加拟人,情感理解更加深刻。模型的情感内容演绎空间、智商表现、逻辑推理和上下文理解得到了极大的提升,能够应对复杂指令和生成演绎要求。
Qwen2.5-Max:探索大规模 MoE 模型的智能:Qwen2.5-Max 是一个超大规模的 MoE 模型,它使用了超过 20 万亿 token 的预训练数据和精心设计的后训练方案进行训练。该模型在性能方面与业界领先的模型进行了对比,包括但不限于 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet,在多个广受关注的基准测试中展现出了优异的表现。这些基准测试包括 MMLU-Pro、LiveCodeBench、LiveBench 和 Arena-Hard 等。Qwen2.5-Max 的指令模型在这些测试中超越了 DeepSeek V3,并在 MMLU-Pro 等其他评估中也表现出了极具竞争力的成绩。在基座模型的对比中,Qwen2.5-Max 同样展现出了显著的优势,尤其是与开源 MoE 模型 DeepSeek V3 和稠密模型 Llama-3.1-405B、Qwen2.5-72B 相比。此外,Qwen2.5-Max 的 API 已经开放使用,用户可以通过 Qwen Chat 体验或通过 API 调用模型。
我老觉得 Qwen 系列的基础模型能力很强,但是在通义千问 App 里使用起来就像是阉割版的(感觉是为了合规风险做了一些限制),发现最近官方的博客开始提到个人用户可以在 Qwen Chat 进行在线体验,估计是开发团队也意识到这个问题了:)
-
但是 AI 搜索类产品通病依旧没解决“Deep Research 功能解锁了重要的新能力,但目前仍处于早期阶段并存在一些限制。根据内部评估,它有时会在回应中产生事实错觉或做出错误推断,但错误率明显低于现有的 ChatGPT 模型。它可能难以区分权威信息与谣言,并且目前在信心校准方面表现较弱,经常无法准确传达不确定性。在启动时,报告和引用中可能会出现轻微的格式错误,任务启动时间也可能较长。”
拆解问题,搜索答案,推理,整合回答
OpenAI 发布 Operator 功能:和 Anthropic Computer Use 功能类似(加上智谱 AutoGLM),但是 Operator 功能是直接面向 C 端用户(优先服务美国区 Pro 用户),Computer Use 面向开发者,依靠模型的图像视频理解能力直接去理解和操作 UI 的 Agent 构建方式,这个路线我始终认为是错的(但是模型厂商又没法掌控 OS 入口,也算是做的妥协,决策可以理解),当然用它去吃掉传统 RPA 的业务,还是有潜力的。
RPA(机器人流程自动化)通常需要用户先手动录制操作过程,并设定相应的规则和触发条件。这些录制的脚本和规则随后被 RPA 软件用来自动化重复性的任务。RPA 适用于结构化的、规则性强的工作流程,但它对于非结构化的数据或任务的处理能力有限。
相对于 RPA,OpenAI Operator 和 Anthropic Computer Use 提供了更高级的自动化操作能力:
OpenAI Operator:它基于 GPT-4o 模型和 CUA(Computer-Using Agent)技术,能够直接查看和与网页界面交互。Operator 不需要预先录制的操作过程,而是能够理解和操作网站,进行自主网络浏览,处理复杂的任务,如预订机票或自动化在线流程。这意味着它可以在没有特定规则和录制步骤的情况下,通过理解页面内容来执行任务。
Anthropic Computer Use:该系统基于 Claude 3.5 Sonnet 模型,提供了一个容器化环境,允许开发者自定义工具和集成复杂的工作流程。它的设计使得 AI 能够与桌面工具进行交互,并且可以通过 API 与其他系统集成,从而实现自动化操作。虽然它可能需要一定程度的配置和自定义,但它不依赖于传统意义上的操作录制和规则设定。
这两种代理技术都代表了一种更为智能和自适应的自动化方法,它们能够处理更为复杂和多变的任务,而不仅限于简单的、规则性强的流程。
OpenAI 发布 o3-mini:o3-mini 支持多种开发者功能(只对等级 3 ~ 5 的部分开发者开放),包括函数调用、结构化输出和开发者消息,以及流式处理,o3-mini 提供低、中、高三种推理模式选择,开发者可以根据具体用例选择不同的推理选项,以平衡速度和准确性。ChatGPT Plus、Team 和 Pro 用户首先获得了 o3-mini 的访问权限,免费计划用户也可以尝试使用。o3-mini 在多个评估中表现出色,包括 AIME 2024、GPQA Diamond 和 Codeforces,以及软件工程和通用知识评估。在性能方面,o3-mini 比 o1-mini 快 24%,平均响应时间为 7.7 秒。使用体感上 o3-mini-high>o1>o3-mini-medium>o3-mini-low,但总体提升不大,感觉是面对 DeepSeek R1 的被动应对,下面是 HLE(Humanity’s Last Exam)基准 结果。
精准学发布“超拟人一对一 AI 老师”:精准学的口号是利用 AI 技术模拟真实老师的 1 对 1 教学体验,我假期在亲戚小孩的讯飞学习机上体验了下,这个产品野心挺大,但是当前技术局限下(带情感控制的实时语音模型,45 分钟以上多模态内容上下文支持等),想实现技术难度也很高,如果产品能够达成预期效果,绝对是巨大的教育平权。
虚拟老师的角色模拟:精准学的 AI 产品旨在模拟线下 1 对 1 场景下真实课程中老师的角色,实现超拟人 1 对 1 的 AI 老师。这意味着 AI 老师不仅能够提供知识点的讲解,还能通过 AI 技术进行引导,模仿现实中的老师行为,如开场白、复述作业成绩、讲解知识点等,以及使用适当的声音语气和表达方式。
互动与引导:AI 老师能够与学生进行互动,通过提问和引导帮助学生深入理解知识点。这种模式与过往的学习工具相比,最大的不同在于它不仅仅是辅助学生自学,而是通过互动和引导,建立起一个更为接近线下课堂的学习体验。
语音交互体验:为了提供真人老师级别的自然对话交流体验,精准学单独做了中国首个端到端语音 AI 模型“心流知镜-s”。这个模型对于语音的要求非常高,能够实现与学生的真正互动,并检测学生的注意力状态,进而判断学生的专注程度。
课堂节奏与氛围掌控:AI 老师能够主动调动课堂氛围和节奏,当学生精力不集中跑题时,能够将学生拉回来,并能针对性的与学生对话,猜到他的问题在哪,并针对性的问、回答和他聊下去,或者让学生可以跟着自己的节奏走。
情绪与注意力检测:精准学的 AI 产品通过分析脸部表情和语音情绪检测来评估学生的专注力,确保学生在整个学习过程中的高效参与。
个性化学习路径:AI 老师能够根据学生的学习情况和情绪变化,提供个性化的学习路径和内容,以提升学生的学习效率和兴趣。
市场
谷歌向 Anthropic 再投资 10 亿美元:此前谷歌已经投资超过 20 亿美元。谷歌与 Anthropic 签订了一份商业协议,涵盖使用一套在线工具和服务。C 端已经被 ChatGPT 品牌占据了用户心智,Anthropic 深度绑定 AWS ,在企业市场份额提升明显,依靠在编码领域的能力长板,无论是直接面向开发者还是通过 Cursor 这类产品投送能力,都能显著提升营收。
Mistral AI 计划进行首次公开募股(IPO)。Mistral AI 的联合创始人兼首席执行官 Arthur Mensch 在达沃斯世界经济论坛接受彭博社采访时表示,公司“不出售”,并计划在新加坡开设办事处,专注于亚太地区,同时在欧洲和美国扩张。Mensch 确认,公司当然计划进行 IPO。
DeepSeek
DeepSeek 致力于技术普惠,让国内普通人免费体验顶级的 AI 能力,许多之前没有机会甚至不了解这些技术的人因此受益。此举不仅促进了 AI 的普及,也提升了公众对 AI 技术的认知。
“国运”、“做空英伟达”等降智言论大家看看就行,R1-Zero 的纯 RL 思路能成功,与本身就具备很强推理能力的 DeepSeek-V3 基础模型分不开,在基础模型预训练中就就配了 COT 数据,而 DeepSeek-V3 模型训练的净算力成本能低到约 558 万美元,与 DeepSeek-V2 时进行混合专家架构(MoE)的创新有关,之前的研究有 Auxiliary Loss(辅助损失)的算法,会使梯度发生扰动,影响模型收敛,DeepSeek 提出 LossFree 方式,既能让模型有效收敛,同时还能实现负载均衡,此外多头潜在注意力(MLA)也让 DeepSeek 大幅降低推理成本。。。DeepSeek 是持续在做很出色的创新,国外技术社区也一直在关注,这次只是被非技术外媒报道后,终于出圈了,国内开花国外香后,国内自媒体转载进一步发酵。
此外最近开始有讨论 DeepSeek App 和 Web 日活数据亮眼的,我觉得这才哪到哪儿啊,训练更大 size 的基础模型,推理模型路径上 R1-Zero 的纯 RL 思路才做了初步验证,这种思路的泛化,非编码、数学领域的奖励模型构建。。。DeepSeek 目前肯定不会,也没有精力去承接这些流量的,大家可以看看他们的口号“以开源精神和长期主义追求普惠 AGI”,在推理模型之外的领域追上并领先 OpenAI 才是他们的目标。
下面是一些推荐材料:
- DeepSeek-V3 技术报告:对 558 万美元成本的澄清,工程效率的创新
- DeepSeek-R1 技术报告:R1-Zero 出现“顿悟时刻”
- DeepSeek R1 技术揭秘:推理模型的训练与优化全流程:R1 之前的 RL 尝试,R1 之后的一些尝试方向
- 逐句讲解 DeepSeek-R1、Kimi K1.5、OpenAI o1 技术报告——“最优美的算法最干净”:推理模型训练的三种方案的解读
- 一期节目粉碎所有关于 DeepSeek 的谣言:训练成本 600 万、冲击英伟达、五万张 H100、模型蒸馏、黑客攻击:关于 DeepSeek 的误读与真相,DeepSeek 出圈全过程梳理。
Vol.38:关于 DeepSeek 的误读与真相