• 网站首页
  • 国内
  • 国际
  • 产业
  • 较MoonCake首Token延迟直降89.6%!阿里云提出基于CXL的KV缓存管理内存架构Beluga

    发布时间: 2025-12-10 02:00首页:九日财经 | 九日传媒 > 深度 > 阅读()

    随着大语言模型(LLM)规模的快速增长以及对长上下文推理需求的日益增加,内存已成为GPU加速LLM服务中的关键瓶颈。尽管GPU上的高带宽内存(HBM)提供了快速访问能力,但其有限容量使得系统必须依赖主机内存(CPU DRAM)来支持大规模KVCache。然而,DRAM的最大容量受限于每个CPU插槽有限的内存通道数量。为突破这一限制,现有系统通常采用基于RDMA的分离式内存池方案(disaggregated memory pools),但这带来了高访问延迟、复杂通信协议和同步开销等严峻挑战。

    为此,来自阿里云的研究团队提出一种新颖的内存架构Beluga,使GPU和CPU能够通过CXL交换机访问共享的大规模内存池。基于Beluga架构,研究团队设计了优化LLM推理过程大规模KVCache管理的Beluga-KVCache系统。实验表明,与基于RDMA的MoonCake相比,Beluga-KVCache的首Token延迟(TTFT)降低了89.6%,vLLM吞吐量提升了7.35倍。Beluga是首个支持GPU通过CXL交换机直接访问大规模内存池的系统,标志着GPU实现低延迟访问海量内存共享资源的重要一步。

    方法

    为了克服RDMA的局限性,研究团队提出 Beluga,这是一种利用CXL交换机构建可扩展共享内存池的架构。该架构使GPU能够通过简单的加载/存储操作访问共享内存池,从而解决了RDMA方法中存在的性能瓶颈和编程复杂性问题。

    如图2b所示,该架构将原本的四个专用RDMA网卡替换为两个PCIe/CXL适配器,Beluga的硬件部署结构如图3所示。

    每台服务器配备两个CPU 插槽(NUMA 架构),每个插槽通过一个PCIe 5.0x16的PCIe/CXL适配器连接到CXL交换机。CXL内存池本身由一个交换节点和一个独立的内存盒组成。交换机的核心部分配备了两颗芯片(XConn XC50256),每颗芯片通过256条PCIe 5.0通道提供2TB/s 的转发能力。这些通道通常在CXL内存设备与计算服务器之间均匀分配。底层的CXL交换机最多可连接16台服务器,形成一个总带宽达1TB/s的8TB内存池。这种连接方式使Beluga能够通过其内部地址映射和转发逻辑支持多主机并发访问。

    通过将内存访问范式从网络协议RDMA转变为具有内存语义的接口CXL,Beluga相比基于RDMA的方法提供了若干优势:

    (1)性能提升

    如图4所示,Beluga为CPU和GPU提供了标准的数据访问接口。

    对于CPU,Beluga支持:

    对于GPU,Beluga支持:

    与RDMA相比,这些方法在数据和控制路径上都提供了直接的性能增益。

    (2)系统简化

    除了性能提升外,Beluga还简化了系统。这些优势体现在更易访问的编程模型、简化的内存管理以及降低的硬件成本上。

    在硬件成本上,高速网络硬件(例如400Gbps网卡)常为了LLM推理的典型带宽需求而过度配置。因此,用更具成本效益的CXL组件替换昂贵的RDMA网卡可以显著降低总成本。如表1所示,

    研究团队将Beluga集成至主流的LLM推理框架vLLM,并高效管理相应的KVCache。如图9所示,典型的LLM推理系统包含三个核心组件:

    Beluga-KVCache 集成了上述所有组件。首先,它将Beluga引入KVCache管理组件,通过CXL提供的直接内存访问接口大幅简化KVCache的访问流程。其次,Beluga-KVCache 利用基于CXL的远程过程调用(Remote Procedure Call,RPC)替代原有 LLM 实例与索引服务之间的网络通信。最后,得益于Beluga-KVCache 中更扁平的内存层次结构,调度器无需再关注 KVCache 的局部性,可专注于计算资源分配优化。

    评估

    如表5所示,Beluga-KVCache在所有指标上均稳定优于基于RDMA的方案。在缓存填充(cache-populate)场景下(工作负载的缓存命中率为 30%),MoonCake和Beluga-KVCache均优于原始vLLM。值得注意的是,Beluga-KVCache相较于MoonCake进一步提升了性能,平均TTFT降低了12.4%,并将QPS提高了21.5%。在缓存命中(cache-hit)场景下性能优势更明显,Beluga-KVCache将平均TTFT降低了89.6%,并实现了 7.35倍的QPS提升。

    为评估Beluga在真实场景下的性能,研究团队设计了两种测试工作负载,分别改变了请求到达速率和输入长度。

    Beluga 在不同推理框架配置下的性能如图13所示,重点关注两个方面:Prefill-Decode 解耦部署和 KVCache 块大小配置。

    特别声明:文章内容仅供参考,不造成任何投资建议。投资者据此操作,风险自担。

    网站首页 - 国内 - 国际 - 产业

    本站不良内容举报联系客服QQ:2768911 官方微信:jiuricaijing 服务热线:4008-121-221

    未经本站书面特别授权,请勿转载或建立镜像

    Copyright © 2002-2025 九日财经 版权所有 公司地址:广东省深圳市罗湖区桂园街道宝安南路蔡屋围发展大厦2302室 粤ICP备2025475172号-1 XMl地图 技术支持