今年起,每年的年终总结需要更加具体,并继续坚持最初受益的原则进行决策和行动,这个迭代过程,应该蛮有意思的。
Serverless GPU (弹性 GPU 服务)的前世今生
当Serverless GPU 不使用时,它会关闭。这意味着第一次使用它时,它需要启动,这可能需要几秒钟到几分钟,具体取决于模型大小。如果您正在运行实时应用,这可能是一个问题。在云数据中心内,用户需要部署各种各样的大模型推理服务,占用海量GPU资源。为了减少GPU资源的使用,许多云服务提供商正在探索使用服务器无感知计算的范式来运行大模型推理服务。此时,当针对一种模型的请求到来时,系统才会为该模型分配资源并加载到对应GPU上,以此来提高资源利用率。然而,由于预训练的大模型往往具有GB至TB量级的大小,所以加载模型的过程会消耗相当长的时间,导致推理服务无法真正部署。使用预留实例的方案可以解决此问题,但是预留实例会消耗大量GPU资源,失去服务器无感知计算的优势。另一种将模型缓存在内存里的解决方案只适用于小模型,因为以大模型的规模,它们往往无法被全部放入内存。
2024 年大模型基础设施与中间件工具链生态演进—— ChatGPT 发布两周年记
原本计划写一篇《ChatGPT 发布两周年记》的文章,以呼应去年的总结性文章 ChatGPT 发布一周年记,但最近太太忙了,现在都快 1 月中旬了,这个题目已经不太严谨了:),决定换个题目,从开发者角度聊聊过去一年从基础模型到开发者工具生态的个人观察,文章会分为三部分:
基础模型:总结一年来基础模型层面的发展,这个是基本。
开发者工具生态:聊聊大模型开发者工具生态系统的发展,涵盖基础模型服务商、中间层产品以及标志性开源项目。
2025 年关注方向:最后延伸浅谈一下 2025 年个人重点关注的 AI 发展方向。
Vol.35:2024 年大模型领域的发展趋势和竞争格局全面回顾
2024开源大模型盘点:Llama、Qwen、Mistral AI、DeepSeek全解析
文章介绍了 Qwen 系列模型,包括 Qwen 1.5、Qwen 2 和 Qwen 2.5,这些模型在不同时间发布,提供了多种规模的模型选择,并在性能、多语言能力、上下文长度和安全性方面取得了显著进展。此外,Qwen 还推出了专门针对视觉语言、多模态推理、音频处理的模型,如 Qwen2-VL、QVQ-72B-Preview 和 Qwen2-Audio,进一步扩展了模型的应用范围。Llama 系列模型,从 Llama 3 开始,到 Llama 3.1、Llama 3.2 和 Llama 3.3,这些模型在参数规模、上下文长度和性能上不断突破,特别是 Llama 3.1 405B 版本成为了最大的开源大型语言模型之一。DeepSeek 系列模型的介绍,包括 DeepSeek LLM、DeepSeek-Coder、DeepSeekMath、DeepSeek-VL、DeepSeek-V2、DeepSeek-Coder-V2、DeepSeek-VL2 和 DeepSeek-V3 等,这些模型在多语言、代码生成、数学推理、视觉语言处理等方面展现了卓越的能力,并且在性能和效率上都取得了显著的提升。Mistral AI 系列模型,包括 Mistral Large、Mistral Small、Pixtral Large、Mixtral 8x22B、Mistral NeMo、Codestral Mamba 和 Mathstral 等,这些模型在多语言推理、多模态处理、编程任务和数学推理等方面表现出色,并且在成本和性能之间取得了平衡。