Lequn Chen || abcdabcd987

大语言模型系统中RDMA通信的一些探索

Nov 9, 2025 • also available in English

上周我们公司把最近对大语言模型中点对点通信的一些成果总结了一下，写了一篇论文挂在了 arXiv 上面，同时也在 GitHub 上面开源了代码。

我们构建了一套基于“无序可靠数据报传输（Unordered Reliable Datagram）”语义的 RDMA 通信库，既能跑在 AWS EFA，又能跑在 NVIDIA ConnectX。我们把这套 RDMA 通信库应用在了三个场景下面：分离式推理的 KvCache 传输、强化学习后训练中的模型参数更新、以及 MoE 通信。这个 MoE kernel 在 ConnectX-7 上面跑 decode 甚至比 DeepEP 还快一点点，在 EFA 上也是首次达到了可用的性能。

这篇文章我跟大家讲讲其中的来龙去脉，更多的是想分享一下做这些工作的动机以及背后的故事。对具体的技术细节感兴趣的读者可以在文章末尾的链接里面找到我们的论文、代码、以及相关的博客。

Read on →
跨机秒传RL模型参数更新的一些后续

Sep 17, 2025 • also available in English
上一篇博客介绍了我们如何实现跨机秒传RL模型参数更新。这一篇博客简单补充一些后续：
1. Kimi-K2 (1T params)，256卡BF16训练，128卡FP8推理，参数更新只需要不到 1.3 秒。
2. 参数更新的流水线稍微再优化了一些，增加了两个可以并行的项目：H2D Memcpy 和全局通讯屏障。
3. 跑了一遍 PyTorch Profiler，方便直观地分析参数更新流水线，看看时间都花在哪里了。
4. 加了一些图方便理解。
Read on →
跨机秒传RL模型参数更新的一些探索

Sep 7, 2025 • also available in English

我最近花了两周时间把 Qwen3-235B （BF16 训练，FP8 推理）的跨机（128卡训练，32卡推理）参数更新跑通了，只需要2秒。这篇博客我打算不单单是给读者呈现一个解决方案，而是记录一下我的探索过程，以及我的一些思考。过几天也会在公司博客上发一篇精简版。

Read on →
驾驭3200Gbps网络(0): 导言

Dec 25, 2024 • also available in English
今年早些时候我有幸入职了 Perplexity AI，终于用上了最强配置的服务器——AWS p5 实例，上面搭载了8张 NVSwitch 互联的 NVIDIA H100 显卡。更令我兴奋的是，服务器之间搭载了 3200 Gbps 的超高速网络。我觉得要是我能写一个程序用上这 3200 Gbps 的带宽，一定是一件非常炫酷的事情！

最近我花了一周的时间，大概摸到了一些门道，写了个小小的概念验证程序，用上了 97% 的带宽。因为我觉得这个摸索的过程挺有意思的，再加上网上关于 RDMA、EFA、libfabric、高性能网络的文章和教程十分有限，所以我打算把我这一周学到的知识分享出来。既是一个记录，也可以当作一个入门教程来看。

对 MLSys 熟悉的朋友们可能要问了：这不是 PyTorch 或者 NCCL 一行代码就能搞定的事情吗？确实，NCCL 在集体通信（Collective Communication）方面已经非常成熟了，也是大语言模型的训练和推理的基石。然而在其他应用场景下，我觉得集体通信还是有一些不太适合的地方：
1. 集体通信需要建立起全局通信域（MPI World）。如果要动态地增加、减少或者替换集群中的节点，那么就需要先让整个集群停下来。
2. 集体通信采用了同步通信模型，不论实现方式是阻塞式的还是非阻塞式的，对我来说都是一种很强的心智负担。我更习惯的是像 gRPC 那样的异步通信模型。
3. 最重要的是，能自己造一个轮子不是很好玩吗？
因为我的实验环境是 AWS p5 集群，所以本文提到的一些技术细节可能只适用于 AWS p5 集群。不过我希望本文还是能对其他的高性能网络环境有一定的参考价值。

因为内容比较多，所以我把内容拆成了几篇文章，欢迎大家点击阅读：
- 驾驭3200Gbps网络(0): 导言
- 驾驭3200Gbps网络(1): RDMA和EFA
- 驾驭3200Gbps网络(2): 高性能网络系统设计哲学
- 驾驭3200Gbps网络(3): libfabric
- 驾驭3200Gbps网络(4): 单向接收发送
- 驾驭3200Gbps网络(5): 双向接收发送
- 驾驭3200Gbps网络(6): GPUDirect RDMA WRITE
- 驾驭3200Gbps网络(7): 操作队列及带宽测试 [97.433 Gbps (97.4%)]
- 驾驭3200Gbps网络(8): 总线拓扑
- 驾驭3200Gbps网络(9): 使用32张网卡 [287.089 Gbps (9.0%)]
- 驾驭3200Gbps网络(10): 测试前预热 [293.461 Gbps (9.2%)]
- 驾驭3200Gbps网络(11): 多线程 [355.301 Gbps (11.1%)]
- 驾驭3200Gbps网络(12): 绑定CPU核心 [1237.738 Gbps (38.7%)]
- 驾驭3200Gbps网络(13): 状态分片 [1522.567 Gbps (47.6%)]
- 驾驭3200Gbps网络(14): 批量提交操作 [2589.488 Gbps (80.9%)]
- 驾驭3200Gbps网络(15): 惰性提交操作 [3108.283 Gbps (97.1%)]
Read on →
多个大语言微调模型并行推断的潜力

Sep 11, 2023 • also available in English

随着开源预训练大型语言模型（Large Language Model, LLM ）变得更加强大和开放，越来越多的开发者将大语言模型纳入到他们的项目中。其中一个关键的适应步骤是将领域特定的文档集成到预训练模型中，这被称为微调。

通常情况下，来自领域特定文档的额外知识与预训练模型已经知道的相比微不足道。在这种情况下，低秩适应（Low-Rank Adaptation，LoRA ）技术证明是有价值的。

通过 LoRA，微调模型仅向预训练模型添加不到0.1%的参数。具体来说，这意味着 LoRA 微调模型仅增加了10~200 MB 的存储，具体取决于配置。从计算角度来看，考虑到与预训练模型相比参数的增加极少，额外的计算负载相对较小。

基于存储和计算的额外开销都很小这一点，我相信构建一个多租户的大语言微调模型的推断服务具有很大潜力。这个服务可以托管成千上万个 LoRA 模型，它们都共享相同的预训练大语言模型。在每个批次的执行中，每个用户请求都会调用一个独立的微调模型，从而分摊存储和计算成本到各种不同的模型中。

在我的上一篇博客文章中，我深入探讨了大语言模型推断中的批处理效应。在这篇文章中，我将详细介绍为什么多租户 LoRA 推断服务具有巨大的潜力。

Read on →

« Older