较MoonCake首Token延迟直降89.6%！阿里云提出基于CXL的KV缓存管理内存架构Beluga

发布时间： 2025-12-10 02:00首页：九日财经 | 九日传媒 > 深度 > 阅读()

随着大语言模型（LLM）规模的快速增长以及对长上下文推理需求的日益增加，内存已成为GPU加速LLM服务中的关键瓶颈。尽管GPU上的高带宽内存（HBM）提供了快速访问能力，但其有限容量使得系统必须依赖主机内存（CPU DRAM）来支持大规模KVCache。然而，DRAM的最大容量受限于每个CPU插槽有限的内存通道数量。为突破这一限制，现有系统通常采用基于RDMA的分离式内存池方案（disaggregated memory pools），但这带来了高访问延迟、复杂通信协议和同步开销等严峻挑战。

为此，来自阿里云的研究团队提出一种新颖的内存架构Beluga，使GPU和CPU能够通过CXL交换机访问共享的大规模内存池。基于Beluga架构，研究团队设计了优化LLM推理过程大规模KVCache管理的Beluga-KVCache系统。实验表明，与基于RDMA的MoonCake相比，Beluga-KVCache的首Token延迟（TTFT）降低了89.6%，vLLM吞吐量提升了7.35倍。Beluga是首个支持GPU通过CXL交换机直接访问大规模内存池的系统，标志着GPU实现低延迟访问海量内存共享资源的重要一步。

方法

为了克服RDMA的局限性，研究团队提出 Beluga，这是一种利用CXL交换机构建可扩展共享内存池的架构。该架构使GPU能够通过简单的加载/存储操作访问共享内存池，从而解决了RDMA方法中存在的性能瓶颈和编程复杂性问题。

如图2b所示，该架构将原本的四个专用RDMA网卡替换为两个PCIe/CXL适配器，Beluga的硬件部署结构如图3所示。

每台服务器配备两个CPU 插槽（NUMA 架构），每个插槽通过一个PCIe 5.0x16的PCIe/CXL适配器连接到CXL交换机。CXL内存池本身由一个交换节点和一个独立的内存盒组成。交换机的核心部分配备了两颗芯片（XConn XC50256），每颗芯片通过256条PCIe 5.0通道提供2TB/s 的转发能力。这些通道通常在CXL内存设备与计算服务器之间均匀分配。底层的CXL交换机最多可连接16台服务器，形成一个总带宽达1TB/s的8TB内存池。这种连接方式使Beluga能够通过其内部地址映射和转发逻辑支持多主机并发访问。

通过将内存访问范式从网络协议RDMA转变为具有内存语义的接口CXL，Beluga相比基于RDMA的方法提供了若干优势：

（1）性能提升

如图4所示，Beluga为CPU和GPU提供了标准的数据访问接口。

对于CPU，Beluga支持：

对于GPU，Beluga支持：

与RDMA相比，这些方法在数据和控制路径上都提供了直接的性能增益。

（2）系统简化

除了性能提升外，Beluga还简化了系统。这些优势体现在更易访问的编程模型、简化的内存管理以及降低的硬件成本上。

在硬件成本上，高速网络硬件（例如400Gbps网卡）常为了LLM推理的典型带宽需求而过度配置。因此，用更具成本效益的CXL组件替换昂贵的RDMA网卡可以显著降低总成本。如表1所示，

研究团队将Beluga集成至主流的LLM推理框架vLLM，并高效管理相应的KVCache。如图9所示，典型的LLM推理系统包含三个核心组件：

Beluga-KVCache 集成了上述所有组件。首先，它将Beluga引入KVCache管理组件，通过CXL提供的直接内存访问接口大幅简化KVCache的访问流程。其次，Beluga-KVCache 利用基于CXL的远程过程调用(Remote Procedure Call，RPC)替代原有 LLM 实例与索引服务之间的网络通信。最后，得益于Beluga-KVCache 中更扁平的内存层次结构，调度器无需再关注 KVCache 的局部性，可专注于计算资源分配优化。

评估

如表5所示，Beluga-KVCache在所有指标上均稳定优于基于RDMA的方案。在缓存填充（cache-populate）场景下（工作负载的缓存命中率为 30%），MoonCake和Beluga-KVCache均优于原始vLLM。值得注意的是，Beluga-KVCache相较于MoonCake进一步提升了性能，平均TTFT降低了12.4%，并将QPS提高了21.5%。在缓存命中（cache-hit）场景下性能优势更明显，Beluga-KVCache将平均TTFT降低了89.6%，并实现了 7.35倍的QPS提升。

为评估Beluga在真实场景下的性能，研究团队设计了两种测试工作负载，分别改变了请求到达速率和输入长度。

Beluga 在不同推理框架配置下的性能如图13所示，重点关注两个方面：Prefill-Decode 解耦部署和 KVCache 块大小配置。

特别声明：文章内容仅供参考，不造成任何投资建议。投资者据此操作，风险自担。

随机阅读

最新资讯
热门资讯

网站首页 - 国内 - 国际 - 产业

本站不良内容举报联系客服QQ：2768911 官方微信：jiuricaijing 服务热线：4008-121-221

未经本站书面特别授权，请勿转载或建立镜像