莫尔索随笔

大家好！Weekly Gradient 第 38 期内容已送达！本期内容通过论文、工程、产品和市场四个部分, 论文部分讨论了大语言模型高效推理的综述，包括数据级优化、模型级优化和系统级优化三种思路，并详细介绍了 CyberMentor 框架的设计和应用，以及 OmniHuman-1 框架在人体动画生成方面的研究成果。工程部分分享了 Kimi k1.5 技术报告，介绍了 DeepSeek 的影响力和技术实现，以及 Unsloth 推出的 R1 推理模型的本地训练功能。产品部分展示了谷歌发布的 Gemini 2.0 Flash Thinking 推理模型加强版、豆包 APP 上线实时语音通话功能、Qwen2.5-Max 的智能探索、OpenAI 发布的 Deep Research 和 Operator 功能，以及 OpenAI o3-mini 的性能表现和精准学发布的 “超拟人一对一 AI 老师” 产品。市场部分报道了谷歌向 Anthropic 再投资的消息，大基金三期与上海国资成立 AI 投资基金，以及 Mistral AI 计划进行首次公开募股（IPO）。最后，DeepSeek一节澄清了公众对 DeepSeek 的误解，强调了其在技术创新和普及 AI 能力方面的贡献。

2025-02-05发表44 分钟读完 (大约6577个字)

Serverless GPU (弹性 GPU 服务)的前世今生

当Serverless GPU 不使用时，它会关闭。这意味着第一次使用它时，它需要启动，这可能需要几秒钟到几分钟，具体取决于模型大小。如果您正在运行实时应用，这可能是一个问题。在云数据中心内，用户需要部署各种各样的大模型推理服务，占用海量GPU资源。为了减少GPU资源的使用，许多云服务提供商正在探索使用服务器无感知计算的范式来运行大模型推理服务。此时，当针对一种模型的请求到来时，系统才会为该模型分配资源并加载到对应GPU上，以此来提高资源利用率。然而，由于预训练的大模型往往具有GB至TB量级的大小，所以加载模型的过程会消耗相当长的时间，导致推理服务无法真正部署。使用预留实例的方案可以解决此问题，但是预留实例会消耗大量GPU资源，失去服务器无感知计算的优势。另一种将模型缓存在内存里的解决方案只适用于小模型，因为以大模型的规模，它们往往无法被全部放入内存。

2025-01-20发表会员计划1 小时读完 (大约6905个字)

Vol.37：2025 年 AI 编码类产品将如何演进？

大家好！Weekly Gradient 第 37 期内容已送达！

2025-01-13发表LLM 应用开发实践1 小时读完 (大约6910个字)

2024 年大模型基础设施与中间件工具链生态演进—— ChatGPT 发布两周年记

原本计划写一篇《ChatGPT 发布两周年记》的文章，以呼应去年的总结性文章 ChatGPT 发布一周年记，但最近太太忙了，现在都快 1 月中旬了，这个题目已经不太严谨了：），决定换个题目，从开发者角度聊聊过去一年从基础模型到开发者工具生态的个人观察，文章会分为三部分：

基础模型：总结一年来基础模型层面的发展，这个是基本。

开发者工具生态：聊聊大模型开发者工具生态系统的发展，涵盖基础模型服务商、中间层产品以及标志性开源项目。

2025 年关注方向：最后延伸浅谈一下 2025 年个人重点关注的 AI 发展方向。

2025-01-13发表会员计划43 分钟读完 (大约6515个字)

Vol.36：YC 回顾 2024 年 AI 行业创业生态

大家好！Weekly Gradient 第 36 期内容已送达！

订阅我的免费通讯

我的作品

最新文章

归档

标签