莫尔索随笔

2025-02-10发表会员计划1 小时读完 (大约8105个字)

大家好！Weekly Gradient 第 38 期内容已送达！本期内容通过论文、工程、产品和市场四个部分, 论文部分讨论了大语言模型高效推理的综述，包括数据级优化、模型级优化和系统级优化三种思路，并详细介绍了 CyberMentor 框架的设计和应用，以及 OmniHuman-1 框架在人体动画生成方面的研究成果。工程部分分享了 Kimi k1.5 技术报告，介绍了 DeepSeek 的影响力和技术实现，以及 Unsloth 推出的 R1 推理模型的本地训练功能。产品部分展示了谷歌发布的 Gemini 2.0 Flash Thinking 推理模型加强版、豆包 APP 上线实时语音通话功能、Qwen2.5-Max 的智能探索、OpenAI 发布的 Deep Research 和 Operator 功能，以及 OpenAI o3-mini 的性能表现和精准学发布的 “超拟人一对一 AI 老师” 产品。市场部分报道了谷歌向 Anthropic 再投资的消息，大基金三期与上海国资成立 AI 投资基金，以及 Mistral AI 计划进行首次公开募股（IPO）。最后，DeepSeek一节澄清了公众对 DeepSeek 的误解，强调了其在技术创新和普及 AI 能力方面的贡献。

2025-02-05发表44 分钟读完 (大约6577个字)

Serverless GPU (弹性 GPU 服务)的前世今生

当Serverless GPU 不使用时，它会关闭。这意味着第一次使用它时，它需要启动，这可能需要几秒钟到几分钟，具体取决于模型大小。如果您正在运行实时应用，这可能是一个问题。在云数据中心内，用户需要部署各种各样的大模型推理服务，占用海量GPU资源。为了减少GPU资源的使用，许多云服务提供商正在探索使用服务器无感知计算的范式来运行大模型推理服务。此时，当针对一种模型的请求到来时，系统才会为该模型分配资源并加载到对应GPU上，以此来提高资源利用率。然而，由于预训练的大模型往往具有GB至TB量级的大小，所以加载模型的过程会消耗相当长的时间，导致推理服务无法真正部署。使用预留实例的方案可以解决此问题，但是预留实例会消耗大量GPU资源，失去服务器无感知计算的优势。另一种将模型缓存在内存里的解决方案只适用于小模型，因为以大模型的规模，它们往往无法被全部放入内存。

2025-01-20发表会员计划1 小时读完 (大约6905个字)

Vol.37：2025 年 AI 编码类产品将如何演进？

大家好！Weekly Gradient 第 37 期内容已送达！

2025-01-13发表LLM 应用开发实践1 小时读完 (大约6910个字)

2024 年大模型基础设施与中间件工具链生态演进—— ChatGPT 发布两周年记

原本计划写一篇《ChatGPT 发布两周年记》的文章，以呼应去年的总结性文章 ChatGPT 发布一周年记，但最近太太忙了，现在都快 1 月中旬了，这个题目已经不太严谨了：），决定换个题目，从开发者角度聊聊过去一年从基础模型到开发者工具生态的个人观察，文章会分为三部分：

基础模型：总结一年来基础模型层面的发展，这个是基本。

开发者工具生态：聊聊大模型开发者工具生态系统的发展，涵盖基础模型服务商、中间层产品以及标志性开源项目。

2025 年关注方向：最后延伸浅谈一下 2025 年个人重点关注的 AI 发展方向。

2025-01-13发表会员计划43 分钟读完 (大约6515个字)

Vol.36：YC 回顾 2024 年 AI 行业创业生态

大家好！Weekly Gradient 第 36 期内容已送达！

2025-01-06发表会员计划31 分钟读完 (大约4694个字)

Vol.35：2024 年大模型领域的发展趋势和竞争格局全面回顾

大家好！Weekly Gradient 第 35 期内容已送达！

2025-01-01发表微型SaaS产品6 分钟读完 (大约847个字)

2025年的产品构建路线图

从三个方向进行产品规划和迭代，既是服务自己，也是服务需要的用户。本计划会随着每个月进度进行更新。

2024-12-31发表LLM 应用开发实践32 分钟读完 (大约4809个字)

2024开源大模型盘点：Llama、Qwen、Mistral AI、DeepSeek全解析

This content is also available in：English。

文章介绍了 Qwen 系列模型，包括 Qwen 1.5、Qwen 2 和 Qwen 2.5，这些模型在不同时间发布，提供了多种规模的模型选择，并在性能、多语言能力、上下文长度和安全性方面取得了显著进展。此外，Qwen 还推出了专门针对视觉语言、多模态推理、音频处理的模型，如 Qwen2-VL、QVQ-72B-Preview 和 Qwen2-Audio，进一步扩展了模型的应用范围。Llama 系列模型，从 Llama 3 开始，到 Llama 3.1、Llama 3.2 和 Llama 3.3，这些模型在参数规模、上下文长度和性能上不断突破，特别是 Llama 3.1 405B 版本成为了最大的开源大型语言模型之一。DeepSeek 系列模型的介绍，包括 DeepSeek LLM、DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2 和 DeepSeek-V3 等，这些模型在多语言、代码生成、数学推理、视觉语言处理等方面展现了卓越的能力，并且在性能和效率上都取得了显著的提升。Mistral AI 系列模型，包括 Mistral Large、Mistral Small、Pixtral Large、Mixtral 8x22B、Mistral NeMo、Codestral Mamba 和 Mathstral 等，这些模型在多语言推理、多模态处理、编程任务和数学推理等方面表现出色，并且在成本和性能之间取得了平衡。

2024-12-30发表会员计划41 分钟读完 (大约6144个字)

Vol.34：对OpenAI o3模型的看法、思考与反思

大家好！Weekly Gradient 第 34 期内容已送达！

2024-12-28发表日常随笔1 小时读完 (大约9409个字)

如何避免成为NPC：揭示五种常见的认知陷阱及解决方法（译）

最近，美国发生了一起引起轰动的枪击事件，联合健康保险CEO被人当街击杀，媒体在调查嫌疑人 Luigi Mangione 背景时发现，他是一位作家的粉丝，并且与作家进行了多次视频通话。在这些通话中，Luigi Mangione 表达了对作家文章《为什么你可能是一个 NPC》的认同，我读完原文，也十分收益，故将文章分享于此。本文译自《Why You Are Probably An NPC》。

“敌人就是留声机式的心智，无论你是否认同正在播放的唱片。” —— 奥威尔

订阅我的免费通讯

我的作品

最新文章

归档

标签