Serverless GPU (弹性 GPU 服务)的前世今生
当Serverless GPU 不使用时,它会关闭。这意味着第一次使用它时,它需要启动,这可能需要几秒钟到几分钟,具体取决于模型大小。如果您正在运行实时应用,这可能是一个问题。在云数据中心内,用户需要部署各种各样的大模型推理服务,占用海量GPU资源。为了减少GPU资源的使用,许多云服务提供商正在探索使用服务器无感知计算的范式来运行大模型推理服务。此时,当针对一种模型的请求到来时,系统才会为该模型分配资源并加载到对应GPU上,以此来提高资源利用率。然而,由于预训练的大模型往往具有GB至TB量级的大小,所以加载模型的过程会消耗相当长的时间,导致推理服务无法真正部署。使用预留实例的方案可以解决此问题,但是预留实例会消耗大量GPU资源,失去服务器无感知计算的优势。另一种将模型缓存在内存里的解决方案只适用于小模型,因为以大模型的规模,它们往往无法被全部放入内存。