什么是弹性内存存储
弹性内存存储(Elastic Memory Service,EMS)是一种以DRAM内存(动态随机存取存储器)为主要存储介质的云基础设施服务,为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理,将LLM推理场景下多轮对话及公共前缀等历史KVCache缓存到EMS内存存储中,通过以存代算,减少了冗余计算,提升推理吞吐量,大幅节省AI推理算力资源,同时可降低推理首Token时延(Time To First Token,TTFT),提升LLM推理对话体验。
通过EMS,华为云将传统的“计算-存储”分离的两层云架构升级为“计算-内存-存储”的三层云架构,其中新增的“内存层”即为弹性内存存储。这种新型的三层云架构能有效解决存力痛点,从而具有高资源弹性、高资源利用率和高性能等优势。具体来说,EMS通过以下方式解决AI时代的存力问题:
- 提升数据访问速度:针对AI场景中“持久化存储性能不足”的问题,EMS作为计算层与存储层之间的高性能内存缓存层,利用DRAM内存来缓存持久化存储层的数据或在计算过程中产生的中间数据。
- 高效利用DRAM资源:针对AI场景中“DRAM内存利用率较低”的问题,EMS将AI服务器中的空闲DRAM资源进行池化,形成EMS内存池,实现DRAM资源的按需分配和高效利用。
- 提升AI推理性能:针对AI推理场景中的“显存内存墙”问题,EMS利用内存池中的DRAM资源进行扩展,通过DRAM内存容量和带宽的补充,大幅提升AI推理的性能。
产品架构
EMS产品架构主要由三部分组成:领域专用服务SDK、分布式内存池和管理面。请参考图1 EMS产品架构。
- 领域专用服务SDK包含一系列面向不同AI应用场景的插件和接口服务SDK,提供业务系统接入、业务数据布局和近数据处理等功能,实现业务请求的内存加速。目前,该SDK主要应用于大语言模型的推理,通过分布式内存池提升处理效率并降低成本。
- 分布式内存池负责跨节点的内存空间管理、数据负载均衡等任务,通过空间池化提供内存缓存共享访问。内存池当前采用融合部署方式,即利用AI服务器中的DRAM,将DRAM内存池化以实现分布式共享,并进行本地亲和调度和访问。
- EMS管理面负责EMS服务的部署、监控、升级及运维管理等功能,通过华为云的云原生基础设施为用户提供一站式的云上运维解决方案。
访问方式
关于EMS资源发放部署等操作,请使用控制台方式访问弹性内存存储服务。
基于控制台方式和SDK方式访问弹性内存存储服务:
- 控制台方式
关于EMS资源发放部署等操作,请使用控制台方式访问弹性内存存储服务。
- SDK方式
模型推理框架(如:vLLM)及企业自研的推理框架通过集成EMS SDK方式访问弹性内存存储服务,具体操作请参见弹性内存存储服务SDK参考。